AI je uspio prevariti najbolje što čovječanstvo može ponuditi nakon što je otkrio exploit u klasičnoj arkadnoj igri Q * bert i trčao s njim.
Iako bi ranije verzije AI-ja pravilno igrale Q * bert, u nekom trenutku učenja svog rada, igra otkriva exploit koji mu omogućuje skupljanje ludih bodova. Prirodno, kao što bi to učinio svaki igrač koji lovi na rezultate, ponavlja postupak kako bi mogao poboljšati rezultat na najučinkovitiji mogući način.
U videozapisu ispod možete vidjeti AI kako se kreće oko platformi. U početku izgleda kao da besciljno skače između platformi. Umjesto da vidi kako se igra napreduje u sljedeću rundu, Q * bert zaglavi u petlji u kojoj sve njegove platforme počinju bljeskati - ovdje AI tada može krenuti u bijesan rezultat i skupiti ogromne bodove.
PROČITAJTE DALJE: Napokon je diskreditiran jedan od najkontroverznijih zapisa o igrama
kako dati uloge na neslogu
Kako je AI pobijedio u Q * bertovom ratu
Razbivši dosadašnji rekord u naslovu, AI je postigao nevjerojatno visoke ocjene zahvaljujući svom algoritmu evolucijske strategije. Evolucijske strategije (ES) razlikuju se od uobičajenog učenja pojačavanja (RL) koje tradicionalni AI koristi jer se zbog svog generacijskog učenja smatra skalabilnijim.
Svaka se petlja učenja naziva generacijom i nastavlja svoj zadatak sve dok se ne ispuni postavljeni uvjet (u ovom slučaju, visoki rezultat). Sa svakom uzastopnom generacijom, AI upija znanje prethodne generacije i stoga je bolji u postizanju istog cilja i nadmašivanju. Nastavite i na kraju ćete dobiti AI koji apsolutno nema premca u svom zadatku. Upravo se to ovdje dogodilo s rezultatom Q * bert.
Izneseno u papir , objavljenog prošlog tjedna od strane istraživača sa Sveučilišta Freiburg u Njemačkoj, čini se da greška nije bila poznata količina. Zapravo, iako se nisu previše iznenadili pronalaskom greške, zanimljivo je vidjeti kako je AI zatim išao dalje i naučio ga iskorištavati svaki put kad je igrao kako bi maksimalizirao svoj bodovni potencijal.
PROČITAJTE DALJE: Ova umjetna inteligencija uči svladavati Super Mario Bros
Da bi pronašao bug, agent je prvo morao naučiti gotovo završiti prvu razinu - to nije učinjeno odjednom, već pomoću mnogih malih poboljšanja, objasnili su istraživači za Registar . Sumnjamo da je u jednom trenutku treninga jedno od rješenja za potomke naišlo na grešku i dobilo puno bolji rezultat u odnosu na svoju braću i sestre, što je zauzvrat povećalo njegov doprinos ažuriranju - njegova težina bila je najveća u ponderiranoj srednjoj vrijednosti. To je polako preselilo rješenje u prostor u kojem se sve više i više potomaka počelo susretati s istom bubom.
Ne znamo precizno u kojim se uvjetima pojavljuje bug; moguće je da se pojavi samo ako agent slijedi obrazac koji se čini neoptimalnim, [na primjer kada agent gubi vrijeme ili čak izgubi život]. Ako je to bio slučaj, tada bi bilo izuzetno teško za standardni RL pronaći grešku: ako koristite inkrementalne nagrade, naučit ćete strategije koje brzo donose neku nagradu, umjesto strategija učenja koje neko vrijeme ne donose mnogo nagrada i onda iznenada pobijediti veliki.
Vidi povezano Dragsterov prvak Todd Rogers upravo je izgubio krunu nakon 35 godina Ova umjetna inteligencija već 17 dana uči svladavati Super Mario Bros 1-2 Pogledajte ovaj AI kako uči voziti u GTA V na Twitchu
Međutim, unatoč prekrasnim botovim rezultatima, istraživači ne kažu da je ovo slučaj da se pokaže ES učenje preko RL-a. U stvari, oba sustava imaju svoje probleme, a kombinacija njih dva uglavnom se smatra najboljom opcijom za kretanje naprijed.
Ista ES metoda na ostalim igrama Atari nije donijela ni približno iste pozitivne rezultate. S druge strane, RL je odgovoran za razbijanje rekorda lijevo, desno i po sredini, uključujući pobjedu najboljeg svjetskog igrača GO-a. ES ipak još uvijek ima svoje mjesto u stvarima, i zapravo je to kako Nvidia izvodi puno svog AI treninga jer zahtijeva veću računsku snagu, ali postiže bolje rezultate tijekom duljeg vremenskog razdoblja.
Bez obzira koji će način postati budućnost za razvoj AI, barem ovaj bot koji vara sustav nije toliko loš kao ovaj sada osramoćeni svjetski prvak u video igrama .