Alibaba predstavila Marco-o1, umjetnu inteligenciju nove generacije za rješavanje složenih problema

Umjetna inteligencija AI
11 komentara

Alibaba je predstavila Marco-o1, veliki jezični model (LLM) dizajniran za rješavanje kako konvencionalnih tako i otvorenih problema. Marco-o1, koji dolazi iz Alibabinog MarcoPolo tima, predstavlja značajan napredak u sposobnosti umjetne inteligencije da se nosi sa složenim izazovima rasuđivanja – posebice u matematici, fizici, programiranju i područjima gdje jasni standardi mogu izostati.

Nadograđujući OpenAI-jeva dostignuća u rasuđivanju s njihovim o1 modelom, Marco-o1 se ističe implementacijom nekoliko naprednih tehnika, uključujući Chain-of-Thought (CoT) fino podešavanje, Monte Carlo Tree Search (MCTS) i nove mehanizme refleksije. Ove komponente zajedno rade na poboljšanju sposobnosti modela za rješavanje problema u različitim domenama.

Razvojni tim implementirao je sveobuhvatnu strategiju finog podešavanja koristeći više skupova podataka, uključujući filtriranu verziju Open-O1 CoT skupa podataka, sintetički Marco-o1 CoT skup podataka i specijalizirani Marco instrukcijski skup podataka. Ukupno, korpus za treniranje sadrži preko 60.000 pažljivo odabranih uzoraka.

Model je pokazao posebno impresivne rezultate u višejezičnim primjenama. U testiranju, Marco-o1 postigao je značajna poboljšanja točnosti od 6,17% na engleskom MGSM skupu podataka i 5,60% na njegovom kineskom pandanu. Model je pokazao posebnu snagu u zadacima prevođenja, osobito pri obradi kolokvijalnih izraza i kulturoloških nijansi.

Jedna od najinovativnijih značajki modela je implementacija različitih granularnosti akcija unutar MCTS okvira. Ovaj pristup omogućuje modelu istraživanje puteva rasuđivanja na različitim razinama detalja, od širokih koraka do preciznijih “mini-koraka” od 32 ili 64 tokena. Tim je također uveo mehanizam refleksije koji potiče model na samoprocjenu i preispitivanje svojeg rasuđivanja, što dovodi do poboljšane točnosti u složenim scenarijima rješavanja problema.

MCTS integracija pokazala se posebno učinkovitom, pri čemu sve MCTS-poboljšane verzije modela pokazuju značajna poboljšanja u odnosu na osnovnu Marco-o1-CoT verziju. Eksperimenti tima s različitim granularnostima akcija otkrili su zanimljive obrasce, iako napominju da određivanje optimalne strategije zahtijeva daljnje istraživanje i preciznije modele nagrađivanja.

Razvojni tim bio je transparentan u vezi trenutnih ograničenja modela, priznajući da iako Marco-o1 pokazuje snažne karakteristike rasuđivanja, još uvijek nije dostigao razinu potpuno realiziranog “o1” modela. Naglašavaju da ovo izdanje predstavlja kontinuiranu predanost poboljšanju, a ne gotov proizvod.

Gledajući unaprijed, Alibabin tim najavio je planove za uključivanje modela nagrađivanja, uključujući Outcome Reward Modeling (ORM) i Process Reward Modeling (PRM), kako bi poboljšali sposobnosti odlučivanja Marco-o1. Također istražuju tehnike pojačanog učenja za daljnje usavršavanje sposobnosti modela za rješavanje problema.

Marco-o1 model i povezani skupovi podataka dostupni su istraživačkoj zajednici putem Alibabinog GitHub repozitorija, zajedno s opsežnom dokumentacijom i vodičima za implementaciju. Izdanje uključuje upute za instalaciju i primjere skripti za izravno korištenje modela i implementaciju putem FastAPI-ja.

AlibabaJezični modelMachine LearningMarco-o1umjetna inteligencija
Pretplatiti se
Obavijesti o
11 Komentari
Najstariji
Najnoviji Najviše komentiran
Inline povratne informacije
Pogledaj sve komentare
3 dana prije

Znači još malo pa će potkivači da budu traženiji od programera.

Ako ste slali upite čet botovima verovatno ste primetili da ne postavljaju dodatna pitanja kako bi precizirali upit (bar meni nisu postavljana dodatna pitanja). Čak i na krajnje uopštena pitanja ne traži pojašnjenje već izbacuje više varijanti za različite situacije. Mislim da bi ovo trebalo da bude sledeći korak.

Lucija, prva
3 dana prije

Evo još malo važnog predstavljanja: za dečke.

Ovi lijekovi su za povećanu prostatu. Ali,
🙂, koriste se i za rast kose.

Istome služe i
>Palmetto
>Biotin

>”Dutasteride is more potent than >FINASTERIDE, blocking more of the DHT conversion, but only finasteride is FDA-approved for treating male pattern baldness, while dutasteride is used off-label.
These DHT blocker with biotin tablets help improve hair thickness and volume. Biotin stimulates keratin production to help make the hair stronger and reduce hair fall.”

Ukratko, ovaj DHT je potreban u pubertetu. Do 20- te.
Poslije stvara probleme.

Naravno, istu namjenu, rast kose, ima i >poznati ružmarin. Ulje i čaj.

Ako se koristi čaj…treba ga koristiti 6 mjeseci.

Lucija, prva
3 dana prije

“ledena kapa severnog pola u poslednje dve godine nije se smanjila već se povećala i to čak oko 43-63 %, što zavisi od načina merenja. 🛑Do ovih podataka je došla NASA-ina svemirska stanica. U poslednje dve godine, led je prekrio područje od 1,7 miliona kilometara kvadratnih, što je oko 43% porasta ledene mase na severnom polu Prema podacima🛑 danskih Instituta za meteorologiju, za dve godine, led se proširio za čak 63%, sa 2,7 miliona kilometara kvadratnih na 4,4 miliona. Satelitski snimci su pokazali da, osim što se ledena masa širi, ona i očvršćava. „Led postaje deblji, pa i automatski otporniji na dalja otapanja“, rekao je prof. Endrju Šepard sa britanskog Univerziteta Lids. „Izgleda da je neobično hladno leto u nekim delovima sveta 2013. godine pozitivno delovalo na širenje lednika“,  Iako nas sa svih strana upozoravaju kako se polovi otapaju zbog globalnog zagrevanja, te kako se oslobađa jako velika količina metana… Čitaj više »

Lucija, prva
3 dana prije

🛑”fenomen poznat kao „echo chambers“, gdje ljudi konzumiraju vijesti koje samo potvrđuju njihove političke stavove, a suprotstavljena mišljenja bivaju izostavljena.

Društvene mreže poput Facebooka, Twittera (X-a) i YouTubea dodatno pojačavaju ovu fragmentaciju.

One omogućuju korisnicima da se okruže ljudima s istim mišljenjima, stvarajući digitalne „mjehuriće“ unutar kojih se suprotni stavovi rijetko čuju.

Uz to, algoritmi društvenih mreža često promoviraju sadržaj koji izaziva EMOCIONALNE REAKCIJE (bijes, strah, ogorčenje), što vodi do jačeg angažmana korisnika, ali i širenja dezinformacija.
🛑Stvara se iluzija da su ekstremniji stavovi dominantniji nego što zaista jesu, čime se jača polarizacija.

Racionalist
2 dana prije

“Chain-of-Thought”. “Monte Carlo Tree Search”. “novi mehanizmi refleksije”.implementacija različitih granularnosti akcija unutar MCTS okvira” “Outcome Reward Modeling”, “Process Reward Modeling”. Kako sve te pizdarije samo učeno zvuče.

Ne bi nitko rekao da se radi o algoritmima koji su programirani da bi koristeći ogromne baze podataka obavljale zadaće koje ili čovječanstvo, odnosno ljudi mogu raditi bolje ili nam uopće nisu ni potrebni. Pri tom se ti algoritmi odnosno programi obavljaju na sustavima veličine nekoliko nogometnih igrališta sa desecima tisuća procesora i petabajtima memorija od kojih svaki troši struje kao oveći grad.

I što je najgore, u svojoj gluposti, naivnosti i lijenosti spremni smo takvim sustavima dopustiti da u potpunosti upravljaju funkcioniranjem naše civilizacije a time i našim životima.

Max
2 dana prije

Zator ljudskom rodu.

© 2024 – Portal Logično

POVEZANE VIJESTI