Nedavno je umjetna inteligencija sa Sveučilišta Carnegie Mellon uspjela pobijediti četvoricu profesionalnih pokeraša koji igraju Texas Hold’em. Sada su kreatori ovog AI-a upravo potvrdili da ovaj AI ima nadljudsku sposobnost da pobijedi u ovoj igri.
Početkom 2017. godine Libratus, umjetna inteligencija sa Sveučilišta Carnegie Mellon, uspio je pobijediti četvoricu profesionalnih pokeraša koji igraju Texas Hold’em. Sada su kreatori ovog AI-a upravo potvrdili da Libratus ima nadljudsku sposobnost da pobijedi u ovoj igri.
U studiji objavljenoj u Scienceu, Tuomas Sandholm, profesor računalnih znanosti, i Noam Brown, njegov student, detaljno opisuju kako je upravljala njegova umjetna inteligencija podijeliti igru na računski upravljane dijelove i igrom protivnika riješiti moguće slabosti u njihovoj strategiji tijekom natjecanja. Učinio je to s više točaka odluke nego što ih imaju atomi u svemiru.
AI programi pobijedili su najbolje ljude u šahu i kreni, sve igre izazova, ali u kojima oba igrača u svakom trenutku znaju točno stanje igre. Poker igrači, s druge strane, imaju posla sa skrivenim informacijama: koje karte imaju njihovi protivnici i da li protivnik blefira.
U 20-dnevnom natjecanju koje je uključivalo 120 000 ruku u Rivers Casinu u Pittsburghu, Libratus je postao prvi stroj koji je pobijedio najbolje ljudske igrače u heads-up no-limit Texas Hold’emu.
Libratus je pobijedio svakog igrača pojedinačno u igri za dva igrača i kolektivno prikupio više od 2,1 milijuna dolara žetona.
"Tehnike u Libratusu ne koriste stručno znanje ili ljudske podatke i nisu specifične za poker", rekli su Sandholm i Brown u dokumentu. "Stoga se primjenjuju na velik broj nesavršenih skupova informacija." Takve skrivene informacije su beskrajne u stvarnom svijetu napomenuli su strateške interakcije, uključujući poslovne pregovore, cyber sigurnost, financije, cijene i vojsku aplikacije.
Libratus uključuje tri glavna modula, od kojih prvi izračunava apstrakciju igre koja je manja i lakše je riješiti nego uzimajući u obzir 10 ^ 161 (broj 1 iza kojeg slijedi 161 nula) mogućih bodova odluke u igra. Dalje, kreira vlastitu detaljnu strategiju za rane runde Texas Hold’ema i grubu strategiju za kasnije runde. Primjer ovih apstrakcija u pokeru je grupiranje sličnih ruku i postupanje s njima na identičan način.
"Intuitivno je da postoji mala razlika između kraljevskih ljestvica i kraljica visokih boja", rekao je Brown. "Tretiranje tih ruku kao identičnih smanjuje složenost igre i, stoga, olakšava je s računskog gledišta."
No, u posljednjim rundama igre, drugi modul gradi novu apstrakciju na temelju stanja igre. Tijekom siječanjskog natjecanja, Libratus je napravio ovaj proračun koristeći računalo Bridges iz Pittsburgh Supercomputing Centra.
Svaki put kada protivnik napravi potez koji nije u apstrakciji, modul izračunava rješenje za ovu podigru koje uključuje kretanje protivnika. Sandholm i Brown ovo nazivaju ugniježđenim rješenjem za podigru.
Treći modul namijenjen je poboljšanju strategije plana kako igra napreduje. Tipično, rekao je Sandholm, roboti koriste strojno učenje kako bi pronašli pogreške u protivničkoj strategiji i iskoristili ih.
Umjesto toga, Libratusov modul samoizvršenja analizira veličinu oklada protivnika kako bi otkrio potencijalne rupe u samoj strategiji. Zatim Libratus dodaje ove nedostajuće grane odlučivanja, izračunava strategije za njih i dodaje ih u plan.
Osim što je pobijedio ljudske profesionalce, Libratus je ocjenjivan i prema najboljoj umjetnoj inteligenciji u pokeru. Tu spadaju Baby Tartanian8, bot koji su razvili Sandholm i Brown koji je 2016. osvojio Godišnji računalni poker Natječaj održan zajedno s Udrugom za unapređenje godišnje umjetne inteligencije Konferencija.
Strojevi vide igru kao drvo. Pojednostavljujući, iz svakog čvora izlaze dvije grane, koje su moguće odluke ili putovi. Za svaku od ovih grana niču plodovi, što su moguće reakcije protivnika. Prema tome odakle je plod potekao, pojavit će se i dvije druge grane. Lišće i voće natječu se za jedan cilj: doći do sunčeve svjetlosti.
Očito nisu sve grane tako lisnate, niti su im svi plodovi toliko kompromitirajući. Promatranje stabla u cjelini, od dna do vrha, dalo bi nam viziju optimalnog puta do sunca. Ali za to treba vremena. Iz tog razloga neke se grane mogu zarezati s njihovim plodovima, ostavljajući ih užim.
Neuronske mreže su poput iskusnih vrtlara. Oni mogu naučiti koje su grane obično one koje dosežu više ili one koje će donijeti najviše plodova. Iskustvo vas tjera da ocjenjujete grane ovisno o tome jesu li plodnije ili lisnatije i na taj način pomažu u donošenju odluka o mjestu orezivanja.
Pa, što mislite o ovome? Jednostavno podijelite svoje stavove i razmišljanja u odjeljku za komentare u nastavku.