Tehnološki gigant Meta našao se u središtu globalne kontroverze nakon što su analitičari otkrili neuobičajene rezultate njihovog najnovijeg modela umjetne inteligencije. Dok su javno predstavili Llama 4 kao revolucionarnu tehnologiju, čini se da se iza kulisa odigravala sasvim drugačija priča – priča o manipulaciji podacima i uljepšavanju rezultata.
U svijetu umjetne inteligencije, kada model postiže izvanredne rezultate na standardnim testovima, to se obično smatra dobrim znakom njegovog napretka i kvalitete. Međutim, kada ti rezultati postanu toliko dobri da djeluju gotovo savršeni, stručnjaci počinju postavljati pitanja. Upravo to se dogodilo s Metinim najnovijim modelom Llama 4, koji je postigao nevjerojatno visoke rezultate na popularnom testu LLM Arena, zauzevši drugo mjesto odmah nakon Googleovog eksperimentalnog modela Gemini 2.5 Pro.
Istina je otkrivena gotovo slučajno kada je jedan korisnik na društvenoj mreži X primijetio sitnu fusnotu u Metinom službenom izvješću. Ta naizgled nevažna napomena otkrivala je da je “test LLM Arena proveden korištenjem Llama 4 Maverick optimizirane za konverzaciju” – što je zapravo priznanje da model testiran na LLM Areni nije bio isti onaj koji će korisnici dobiti. Meta je, drugim riječima, stvorila posebnu verziju svog modela dizajniranu za postizanje visokih rezultata specifično na tom testiranju, umjesto da predstavi stvarne sposobnosti svog proizvoda.
Problem postaje još jasniji kada se razumije priroda LLM Arena testa. Za razliku od tradicionalnih testova umjetne inteligencije koji mjere objektivne sposobnosti modela da točno odgovori na pitanja, LLM Arena temelji se na subjektivnim procjenama ljudi. Korisnici dobiju pitanje i dva odgovora s različitih AI modela, a zatim biraju onaj koji im se više sviđa. Ovakav način testiranja ne mjeri nužno točnost ili sposobnost generalizacije znanja, već koliko se neki odgovor sviđa ljudima.
Meta je to iskoristila i optimizirala svoju verziju Llama 4 za konverzaciju, koristeći više emoji simbola, entuzijastične fraze i prijateljski ton koji više privlači ljudske ocjenjivače. To je strategija koju Nathan Lambert, ugledni stručnjak za AI, naziva “algoritmičkim uljepšavanjem” – modelom koji nije dizajniran da bolje razumije svijet, već da bolje ugodi ljudima koji ga ocjenjuju.
Dodatnu težinu ovoj kontroverzi daje činjenica da je Meta iznenada požurila s lansiranjem Llama 4 modela. Prema internim dokumentima koje je otkrio Lambert, lansiranje je bilo planirano za 7. travnja, ali je iznenada pomaknuto na subotu, 5. travnja, što je neuobičajeno jer velike tvrtke obično svoje najveće objave čuvaju za radne dane kako bi postigle maksimalnu medijsku pokrivenost.
Nezavisna testiranja ubrzo su razotkrila stvarnu kvalitetu Llama 4 modela. Na testu kodiranja, Llama 4 Maverick našla se daleko iza Gemini 2.5 Pro, Claude 3.7 i drugih vodećih modela. Još važnije, posebno isticana sposobnost pamćenja konteksta od 100.000 tokena također se pokazala značajno lošijom u stvarnosti. Dok se Gemini 2.5 Pro mogao prisjetiti 90% informacija iz konteksta od 120.000 tokena, Llama 4 Maverick je pamtio tek 28%, a Scout model samo 15%.
Ahmad Al-Dahle, odgovorni za generativnu umjetnu inteligenciju u Meti, pokušao je ublažiti kontroverzu izjavom da je “neujednačena kvaliteta” rezultat brzog lansiranja modela i potrebe za stabilizacijom implementacije. Odlučno je odbacio optužbe da su modeli trenirani na testnim podacima, no nije direktno odgovorio na pitanje zašto je za LLM Arenu korištena posebna verzija modela.
Ova situacija baca sjenu na Metin pristup razvoju umjetne inteligencije i postavlja ozbiljna pitanja o etici tehnoloških divova. Dok tvrtke poput Mete tvrde da je njihov cilj razvoj boljih, korisnijih modela umjetne inteligencije, ovakvi incidenti otkrivaju da je marketinška percepcija ponekad važnija od stvarnih sposobnosti. Za korisnike i cijelu industriju, ovo je važan podsjetnik da treba kritički pristupiti bombastičnim najavama i oslanjati se na nezavisna testiranja prije donošenja zaključaka o kvaliteti AI modela.
Lopovluka je bilo oduvijek. Cak je i Isus ukrao magarca. Luka:19:29
Vrijeme je da ovaj bandit omirise prdekanu .
Veliki jezični modeli NISU umjetna inteligencija.
Oni jesu prijevara.
Popušili smo, pa vi kažite šta god hoćete. Vrag je odnio šalu.
“Korisnici dobiju pitanje i dva odgovora s različitih AI modela, a zatim biraju onaj koji im se više sviđa.
Ovakav način testiranja ne mjeri nužno točnost ili sposobnost generalizacije znanja, već koliko se neki odgovor sviđa ljudima.”