Googleovi šahovski eksperimenti otkrivaju kako povećati snagu umjetne inteligencije

AI - Umjetna inteligencija
17 komentara

Nagrađujući računala koja su kombinirala različite pristupe rješavanju šahovskih zagonetki, Google je stvorio poboljšanu umjetnu inteligenciju koja bi mogla poraziti svog postojećeg prvaka, AlphaZero.

Kada je Covid-19 poslao ljude kući početkom 2020., računalni znanstvenik Tom Zahavy ponovno je otkrio šah. Igrao je kao dijete i nedavno je pročitao Duboko razmišljanje Garryja Kasparova, memoare o mečevima velemajstora 1997. protiv IBM-ovog računala za igranje šaha, Deep Blue. Gledao je šahovske videe na YouTubeu i The Queen’s Gambit na Netflixu.

Unatoč obnovljenom interesu, Zahavy nije tražio načine da poboljša svoju igru. “Nisam sjajan igrač,” rekao je. “Bolji sam u šahovskim zagonetkama” – rasporedi figura, često izmišljeni i malo je vjerojatni da će se dogoditi tijekom prave igre, koji izazivaju igrača da pronađe kreativne načine za postizanje prednosti.

Zagonetke mogu pomoći igračima da izoštre svoje vještine, ali nedavno su pomogle otkriti skrivena ograničenja šahovskih programa. Jedna od najozloglašenijih zagonetki, koju je 2017. osmislio matematičar Sir Roger Penrose, stavlja jače crne figure (poput dame i topa) na ploču, ali u nezgodnim položajima. Iskusan ljudski igrač, igrajući bijelim, mogao je lako dovesti igru do remija, ali moćni računalni šahovski programi rekli bi da je crni u jasnoj prednosti. Ta razlika, rekao je Zahavy, sugerira da iako računala mogu pobijediti najbolje ljudske igrače na svijetu, još uvijek ne mogu prepoznati i rješavati svaku vrstu teškog problema. Od tada su Penrose i drugi osmislili ogromne zbirke zagonetki koje računala teško rješavaju.

Šah je dugo bio kamen testa za testiranje novih ideja u umjetnoj inteligenciji, a Penroseove zagonetke pobudile su Zahavyjevo zanimanje. “Pokušavao sam shvatiti što čini te položaje tako teškima za računala kad barem neke od njih možemo riješiti kao ljudi”, rekao je. “Bio sam potpuno fasciniran.” To je ubrzo preraslo u profesionalni interes: kao znanstvenik-istraživač u Google DeepMindu, Zahavy istražuje kreativne pristupe rješavanju problema. Cilj je osmisliti AI sustave sa spektrom mogućih ponašanja izvan obavljanja jednog zadatka.

Tradicionalni AI šahovski program, obučen za pobjedu, možda nema smisla za Penroseovu zagonetku, ali Zahavy je sumnjao da bi program sastavljen od mnogo različitih sustava, koji rade zajedno kao grupa, mogao napredovati. Stoga su on i njegovi kolege razvili način spajanja više (do 10) sustava umjetne inteligencije za donošenje odluka, od kojih je svaki optimiziran i osposobljen za različite strategije, počevši od AlphaZero, DeepMindovog moćnog šahovskog programa. Novi sustav, izvijestili su u kolovozu, radio je bolje nego sam AlphaZero i pokazao je više vještine—i više kreativnosti—u rješavanju Penroseovih zagonetki. Ove sposobnosti proizašle su, u određenom smislu, iz samo-suradnje: ako je jedan pristup udario u zid, program se jednostavno okrenuo drugom.

Taj pristup u osnovi ima smisla, rekla je Allison Liemhetcharat, računalna znanstvenica u DoorDashu koja je radila s višeagentnim pristupima rješavanju problema u robotici. “S populacijom agenata, postoji veća vjerojatnost da su zagonetke u domeni za koju je barem jedan od agenata bio obučen.”

Rad sugerira da bi se timovi različitih AI sustava mogli učinkovito uhvatiti u koštac s teškim problemima daleko izvan igraće ploče. “Ovo je izvrstan primjer da traženje više od jednog načina za rješavanje problema – poput pobjede u šahovskoj partiji – donosi mnogo prednosti”, rekao je Antoine Cully, istraživač umjetne inteligencije na Imperial Collegeu u Londonu koji nije bio uključen u projekt DeepMind. . Usporedio ga je s umjetnom verzijom ljudskih brainstorminga. “Ovaj misaoni proces vodi do kreativnih i učinkovitih rješenja koja bi promakla bez ove vježbe.”

Jurnjava za neuspjehima

Prije nego što se pridružio DeepMindu, Zahavy je bio zainteresiran za duboko potkrepljeno učenje, područje umjetne inteligencije u kojem sustav koristi neuronske mreže za učenje nekih zadataka putem pokušaja i pogrešaka. To je osnova za najmoćnije šahovske programe (i koristi se u drugim AI aplikacijama kao što su samovozeći automobili). Sustav počinje sa svojom okolinom. U šahu, na primjer, okruženje uključuje ploču za igru i moguće poteze. Ako je zadatak voziti automobil, okolina uključuje sve oko vozila. Sustav tada donosi odluke, poduzima akcije i procjenjuje koliko je blizu cilja. Kako se približava cilju, akumulira nagrade, a kako sustav skuplja nagrade, poboljšava svoju izvedbu. “Duboki” dio ovog pristupa opisuje neuronske mreže koje se koriste za analizu i procjenu ponašanja.

Učenje s pojačanjem je način na koji je AlphaZero naučio postati šahovski majstor. DeepMind je izvijestio da je tijekom prvih devet sati obuke programa, u prosincu 2017., odigrao 44 milijuna igara sam protiv sebe. U početku su njegovi potezi bili nasumično određeni, no s vremenom je naučio birati poteze koji će vjerojatnije dovesti do šah-mata. Nakon samo sati treninga, AlphaZero je razvio sposobnost da porazi bilo kojeg ljudskog šahista.

No, koliko god uspješno učenje s potkrepljenjem moglo biti, ono ne dovodi uvijek do strategija koje odražavaju opće razumijevanje igre. Tijekom proteklih pola desetljeća ili tako nešto, Zahavy i drugi primijetili su porast neobičnih kvarova koji bi se mogli dogoditi na sustavima treniranim metodom pokušaja i pogrešaka. Sustav koji igra video igrice, na primjer, mogao bi pronaći rupu u zakonu i smisliti kako varati ili preskočiti razinu, ili bi jednako lako mogao zapeti u petlji koja se ponavlja. Zagonetke u stilu Penrosea na sličan su način sugerirale neku vrstu slijepe točke ili kvara u AlphaZerou – nije mogao shvatiti kako pristupiti problemu koji nikada prije nije vidio.

Ali možda nisu svi kvarovi samo greške. Zahavy je posumnjao da bi AlphaZero mrtve točke zapravo mogle biti nešto drugo prerušeno – odluke i ponašanja povezani s internim nagradama sustava. Sustavi učenja s dubokim potkrepljenjem, rekao je, ne znaju kako doživjeti neuspjeh – pa čak ni kako prepoznati neuspjeh. Sposobnost neuspjeha dugo se povezivala s kreativnim rješavanjem problema. “Kreativnost ima ljudsku kvalitetu”, napisao je Kasparov u Deep Thinking. “Prihvaća pojam neuspjeha.”

AI sustavi obično nemaju. A ako sustav ne prepozna da nije uspio izvršiti svoj zadatak, tada možda neće pokušati nešto drugo. Umjesto toga, samo će nastaviti pokušavati učiniti ono što je već učinilo. To je vjerojatno ono što je dovelo do slijepih ulica u video igrama – ili do zapinjanja na nekim Penroseovim izazovima, rekao je Zahavy. Sustav je tražio “čudne vrste intrinzičnih nagrada”, rekao je, koje je razvio tijekom svoje obuke. Stvari koje su izvana izgledale kao pogreške vjerojatno su bile posljedica razvijanja specifičnih, ali u konačnici neuspješnih strategija.

Sustav je te čudne nagrade smatrao koracima prema većem cilju, koji zapravo nije mogao postići i nije znao isprobati nešto novo. “Pokušavao sam ih shvatiti”, rekao je Zahavy.

Bolja igra

Dio razloga zašto se ti kvarovi mogu pokazati tako posljedičnim—i tako korisnim—dolazi iz onoga što istraživači prepoznaju kao problem s generalizacijom. Dok sustavi za učenje s potkrepljenjem mogu razviti učinkovitu strategiju za povezivanje dane situacije s određenom radnjom – koju istraživači nazivaju “politikom” – ne mogu je primijeniti na različite probleme. “Ono što se obično događa s učenjem s potkrepljenjem, gotovo bez obzira na metodu, jest da dobijete politiku koja rješava konkretnu instancu problema na kojem ste trenirali, ali ne generalizira”, rekao je Julian Togelius, informatičar na Sveučilištu New York i direktor istraživanja u modl.ai.

Zahavy je vidio da Penroseove zagonetke zahtijevaju upravo ovu vrstu generalizacije. Možda AlphaZero nije mogao riješiti većinu zagonetki jer je bio toliko fokusiran na pobjedu u cijelim igrama, od početka do kraja. Ali taj je pristup uveo slijepe točke izložene nevjerojatnim rasporedom dijelova u Penroseovim zagonetkama. Možda bi, razmišljao je, program mogao naučiti rješavati zagonetku ako bi imao dovoljno kreativnog prostora za razmišljanje i pristup različitim metodama obuke.

Tako su on i njegovi kolege prvo prikupili set od 53 Penroseove zagonetke i 15 dodatnih izazovnih zagonetki. AlphaZero je samostalno riješio manje od 4 posto Penroseovih zagonetki i manje od 12 posto ostalih. Zahavy nije bio iznenađen: mnoge od ovih zagonetki osmislili su šahovski majstori kako bi namjerno zbunili računala.

Kao test, istraživači su pokušali trenirati AlphaZero da igra sam protiv sebe koristeći Penroseovu slagalicu kao početnu poziciju, umjesto pune ploče tipičnih igara. Njegova se izvedba dramatično poboljšala: riješio je 96 posto Penroseovih zagonetki i 76 posto postavljenih izazova. Općenito, kada je AlphaZero trenirao na određenoj zagonetki, mogao je riješiti tu zagonetku, baš kao što je mogao pobijediti kada je trenirao na cijeloj igri. Možda, mislio je Zahavy, ako bi šahovski program nekako mogao imati pristup svim onim različitim verzijama AlphaZero, treniranim na tim različitim pozicijama, onda bi ta raznolikost mogla potaknuti sposobnost produktivnog pristupa novim problemima. Možda bi to moglo generalizirati, drugim riječima, rješavanje ne samo Penroseovih zagonetki, već i bilo kojeg šireg šahovskog problema.

Njegova grupa odlučila je saznati. Izgradili su novu, raznoliku verziju AlphaZero, koja uključuje višestruke AI sustave koji su trenirali neovisno iu različitim situacijama. Algoritam koji upravlja cijelim sustavom djeluje kao neka vrsta virtualnog provodadžija, rekao je Zahavy: algoritam koji je osmišljen kako bi identificirao koji agent ima najbolje šanse za uspjeh kada dođe vrijeme za potez. On i njegovi kolege također su kodirali “bonus raznolikosti” – nagradu za sustav svaki put kada je izvukao strategije iz velikog izbora izbora.

Kad je novi sustav pušten da igra svoje igre, tim je uočio mnogo raznolikosti. Raznovrsni AI igrač eksperimentirao je s novim, učinkovitim otvorima i novim—ali zdravim—odlukama o specifičnim strategijama, kao što je kada i gdje zakazati. U većini mečeva pobijedio je originalni AlphaZero. Tim je također otkrio da raznolika verzija može riješiti dvostruko više izazovnih zagonetki od originala i da može riješiti više od polovice ukupnog kataloga Penroseovih zagonetki.

“Ideja je da umjesto pronalaženja jednog rješenja ili jedne politike koja bi pobijedila bilo kojeg igrača, ovdje [koristi] ideju kreativne raznolikosti”, rekao je Cully.

S pristupom većem broju različitih igara koje se igraju, rekao je Zahavy, raznoliki AlphaZero imao je više opcija za nezgodne situacije kada se pojave. “Ako možete kontrolirati vrstu igara koje vidi, u osnovi kontrolirate kako će se generalizirati”, rekao je. Te čudne intrinzične nagrade (i s njima povezani potezi) mogle bi postati prednosti za različita ponašanja. Tada bi sustav mogao naučiti procjenjivati i vrednovati različite pristupe i vidjeti kada su bili najuspješniji. “Otkrili smo da se ova grupa agenata zapravo može dogovoriti oko ovih pozicija.”

I, što je najvažnije, implikacije sežu izvan šaha.

Kreativnost u stvarnom životu

Cully je rekao da raznoliki pristup može pomoći bilo kojem sustavu umjetne inteligencije, a ne samo onima koji se temelje na učenju s pojačanjem. Dugo je koristio raznolikost za treniranje fizičkih sustava, uključujući robota sa šest nogu kojem je bilo dopušteno istraživati različite vrste pokreta, prije nego što ga je namjerno “ozlijedio”, dopuštajući mu da se nastavi kretati koristeći neke od tehnika koje je prije razvio. “Samo smo pokušavali pronaći rješenja koja su drugačija od svih prethodnih rješenja koja smo do sada pronašli.” Nedavno je također surađivao s istraživačima kako bi iskoristio raznolikost kako bi identificirao obećavajuće nove kandidate za lijekove i razvio učinkovite strategije trgovanja dionicama.

“Cilj je generirati veliku kolekciju potencijalno tisuća različitih rješenja, gdje je svako rješenje vrlo različito od sljedećeg”, rekao je Cully. Dakle—baš kao što je raznovrstan šahist naučio raditi—za svaku vrstu problema cjelokupni sustav može izabrati najbolje moguće rješenje. Zahavyjev AI sustav, rekao je, jasno pokazuje kako “potraga za različitim strategijama pomaže razmišljati izvan okvira i pronaći rješenja.”

Zahavy sumnja da kako bi sustavi umjetne inteligencije razmišljali kreativno, istraživači ih jednostavno moraju navesti da razmotre više opcija. Ta hipoteza ukazuje na neobičnu vezu između ljudi i strojeva: možda je inteligencija samo stvar računalne moći. Za sustav umjetne inteligencije, možda se kreativnost svodi na sposobnost razmatranja i odabira iz dovoljno velikog broja opcija. Kako sustav dobiva nagrade za odabir različitih optimalnih strategija, ova vrsta kreativnog rješavanja problema postaje pojačana i ojačana. U konačnici, u teoriji, mogao bi oponašati bilo koju vrstu strategije rješavanja problema koja je kod ljudi prepoznata kao kreativna. Kreativnost bi postala računski problem.
Liemhetcharat je primijetio da je malo vjerojatno da će raznoliki AI sustav u potpunosti riješiti širi problem generalizacije u strojnom učenju. Ali to je korak u pravom smjeru. “To ublažava jedan od nedostataka”, rekla je.

Praktičnije, Zahavyjevi rezultati odjekuju nedavnim naporima koji pokazuju kako suradnja može dovesti do boljeg učinka na teškim zadacima među ljudima. Većinu hitova na Billboardovoj listi 100 napisali su, primjerice, timovi tekstopisaca, a ne pojedinci. I još ima mjesta za napredak. Raznovrsni pristup trenutno je računalno skup, budući da mora uzeti u obzir mnogo više mogućnosti od tipičnog sustava. Zahavy također nije uvjeren da čak i raznoliki AlphaZero obuhvaća cijeli spektar mogućnosti.

“Još uvijek [mislim] da ima prostora za pronalaženje drugačijih rješenja”, rekao je. “Nije mi jasno da s obzirom na sve podatke na svijetu, postoji [samo] jedan odgovor na svako pitanje.”

AIGoogleumjetna inteligencija
Pretplatiti se
Obavijesti o
17 Komentari
Najstariji
Najnoviji Najviše komentiran
Inline povratne informacije
Pogledaj sve komentare
Max
9 mjeseci prije

Smrt ljudskog roda.

9 mjeseci prije

Šta im je trebalo toliko dugo kad sam to odavno objasnio 😉 Šalu na stranu, tekst zaista ukazuje na budućnost razvija AI kako bi se razvila suštinska inteligencija a šah je odličan primer da se to pokaže. ——————– U tekstu se navodi način učenja AlphaZero-a: prvo je igrao sam sa sobom i tako praktično gradio bazu uspešnih strategija – znači “učenje napamet”. Na taj način se dobija samo savršeniji automat ali ne i kreativnost. Uvođenje “tima” je takođe naprednija automatizacija i ništa više od toga. Rešenje ovog problema se može videti i na ljudima: “binarne osobe” (kod kojih je sve “da” ili “ne”) su krajnje nemaštovite. AlphaZero procenjije neki potez i ako je procena pozitivna onda ga odigra a ako je negativna potpuno je odbacije. Suštinska AI mora da ima i “možda” koji bi joj omogućio da razmatra ono što manje savršen sistem procenjuje kao “ne” i odbacuje dalje razmatranje.… Čitaj više »

Dokurčilomi
9 mjeseci prije

Objavljeni neuspješni pokus gdje je avion sa AI napao zapovjedni centar jer mu je branio i ograničavao pobjedu govori sve. Pametnom dosta.

Biti-ili-ne-biti
9 mjeseci prije

U tekstu ima puno smiješnih izraza koji se ne koriste u šahu: igre – pravi šahovski izraz je partije zagonetke – pravi šahovski izraz je problemi i studije otvori – pravi šahovski izraz je otvaranja Trenutno najjači šahovski program za PC je Stockfish 16.1 i od verzije 13 je nastao spajanjem AlphaZero i klasičnog Stockfish programa. Stockfish je od AlphaZero programa pokupio neuralne mreže, što mu je dodalo snagu od još 150 rejting bodova i taj program danas koriste svi šahisti na PC računalima. “Bakalar” je prvi na svim rejting listama i pobjeđuje skoro na svim računalnim turnirima. TCEC je glavna stranica gdje se može vidjeti kako razni šahovski programi međusobno igraju i na kraju se igra SuperFinale za konačnog pobjednika. Niti jedan velemajstor ili svjetski prvak ne može izvući remi protiv Stockfish, AlphaZero ili nekog drugog šahovskog programa, tako da ispada da su svi ljudi paceri koji pojma nemaju… Čitaj više »

Lucija, prva
9 mjeseci prije

“…područje umjetne inteligencije u kojem sustav koristi NEURONSKE MREŽE za učenje nekih zadataka putem pokušaja i pogrešaka.
To je osnova za najmoćnije šahovske programe (i koristi se u drugim AI aplikacijama kao što su samovozeći automobili). ”

Zapamtite ovo već jednom.

Ovo je kompletno nova osnova.

© 2024 – Portal Logično

POVEZANE VIJESTI