Blog > Komentarze do wpisu

1500 lat na marne

Szachy, AlphaZero

Wielkim odkryciem mijającego roku był dla mnie efekt pisania o szachach. Zająłem się tematem znienacka, natchniony wspaniałym popisem Polaków na olimpiadzie w Batumi, i okazało się, że ludzie chcą o nim czytać. Mamy w redakcji twarde dane – lgnęli i do długiego wywiadu z młodym arcymistrzem z Krakowa, i do trailera meczu o mistrzostwo świata, i do opowieści o triumfie Magnusa Carlsena nad Fabiano Caruaną, zassali nawet podsumowanie o fenomenie królewskiej gry w Norwegii oraz jej kondycji u schyłku drugiej dekady XXI wieku. Frajdę czerpałem z obstukiwania szachownicy klawiaturą niesłychaną, czułem do czytelników autentyczną wdzięczność. I wyrzucałem sobie: dlaczego, łachudro, nie poruszałeś się po łamach ruchem skoczka wcześniej? Dlaczego usiłowałeś zataić przed ludźmi, co jest dobre?

Odkrycie, że szachy intrygują stada homo sapiens, ładnie wpisało się w cały sportowy rok 2018, w którym notorycznie zdarzały się rzeczy teoretycznie nie mające prawa się wydarzyć. Weźmy chociaż znaleziska mundialowe, z dwóch szczególnie mnie interesujących dyscyplin zespołowych.

Oto nasi sąsiedzi zza zachodniej granicy uparli się udowodnić, że futbol to jest taka gra, w której 22 facetów gania za piłką, a na końcu zawsze przegrywają Niemcy. Przerżnęli wszystko, co było do przerżnięcia, nie zastanawiając się, czy przypadkiem nie unicestwią ludzkości, gwałcąc prawa przyrody. Dokonali niemożliwego, wyczynu niepodobnego do niczego z przeszłości, ja właściwie do teraz łapię się na tym, że uważam ich za aktualnych mistrzów świata. W siatkówce natomiast obalili wszystkie prawdy o samych sobie Polacy. Okazało się, że to nasze skłócone, bałaganiarskie nadwiślańskie plemię jest w stanie obronić złoto mundialu. Znów: nic podobnego wcześniej się nie zdarzyło, w żadnej grze drużynowej. Ja wiem, że akurat przez siatkę przeskakiwaliśmy na szczyt podium wcześniej, ale co innego wpaść tam pojedynczo, tym może zarządzić przypadek, a co innego podwójnie, to już wymaga grubszego planowania, sprawnie działającego systemu, może nawet strategii. Sensacyjny wniosek: na środkowym wschodzie musi być jakaś cywilizacja!

Mógłbym usypać wam cały stos incydentów zbyt nieprawdopodobnych, żeby uwierzyć w ich zaistnienie, ale nie mam cierpliwości, muszę biec do meritum, do odkrycia z samego szczytu piramidy nieprawdopodobieństwa. Otóż magazyn „Science” ujawnił całą prawdę o AlphaZero, czyli sztucznej inteligencji, która sama nauczyła się grać w szachy i pojęła je nie tylko lepiej niż ludzkość – to łatwizna – ale też nieporównywalnie lepiej od wszelkich istniejących dotychczas programów. A one nieźle przesuwają figury, Carlsen może im co najwyżej procesory czyścić. Dlatego rywalizują między sobą, w mistrzostwach świata komputerów. Dopiero w zetknięciu z AlphaZero zrobiły się malutkie – najpotężniejszy Stockfish8 wygrał ledwie 6 partii, a przegrał aż 155 (reszta zakończyła się remisem).

Wyczyny inżynierów z Deep Mind śledzę zafascynowany od dawna, bo szachy spotykają się tu z najważniejszym obok zmiany klimatycznej procesem współczesności – rozwijaniem oraz implementowaniem do rzeczywistości sztucznej inteligencji, która coraz przemożniej wpływa na nasze życie, a my niekoniecznie zdajemy sobie sprawę, że zakrada się wszędzie, wkrótce nie będziemy bez niej umieli samodzielnie wybrać płatków śniadaniowych ani rozumieć, dlaczego coś się dzieje tak, a nie siak. Ale w kwestie ogólne nie wnikam, obsługuje mnie zbyt tępy mózg nieelektronowy. Wracajmy do szachów: otóż dzięki AlphaZero wiemy, że one są zupełnie inne, niż sądziliśmy, nasze około 1500 lat analiz i udoskonalania metod wygrywania wygląda tylko trochę bardziej przydatnie niż budka telefoniczna w głównej kwaterze Apple’a.

Upraszczając, software mądrali z Deep Mind tym się różni od tradycyjnych programów szachowych, że tamtym wdrukowaliśmy algorytmy, czyli zdefiniowane czynności prowadzące do celu (wygrania partii), natomiast AlphaZero otrzymała tylko neuronową sieć zdolną się „uczyć”. Tamtych w pewnym sensie zatruliśmy ludzkimi uprzedzeniami i schematami myślenia, a AlphaZero podsunęliśmy szachownice, podaliśmy reguły gry, i pozwoliliśmy samej dochodzić do prawdy. (Proces nazywa się uczenie „reinforcement learning”, opiera się ponoć na systemie „kar” i „nagród”, ale nawet jego twórcy nie wiedzą, co się dzieje i jak to przełożyć na ludzki język).

Skutek jest zniewalający. Wraz z materiałem w „Science” opublikowano kolejne partie rozegrane przez AlphaZero – partie przepiękne, obezwładniające oryginalnością, o przebiegu kwestionującym klasyczne spojrzenie na istotę gry. Każdy może sobie je obejrzeć i posłuchać komentarza ludzkiego arcymistrza, ale uprzedzam, że ciarki oblezą was od stóp do głów, każdy włos stanie na baczność, dotknięcie Tajemnicy, zafundujecie sobie ostatnią scenę „Interstellar” przy własnym biurku. AlphaZero zdaje się mieć w głębokiej pogardzie straty materialne (ewidentnie nie wie, że małpy nadały każdej figurze liczbową wartość), potrafi poświęcić masę pionów dla dalekosiężnego celu, atakuje z totalną elastycznością i nieprzewidywalnością. Ja już ją uczłowieczyłem, myślę o nowej królowej szachów „ona”, choć to raczej wykraczający poza nasz horyzont poznawczy Pan Bóg, tfu, Pani Bogini, zachwyca i przeraża, na pierwszej randce bałbym się wydukać słowo.

Jej bezczelność nie zna zresztą granic. Jak powszechnie wiadomo, wysiłkiem wszystkich pochylonych nad szachownicą pokoleń ustaliliśmy, że wybitnie sensownym ruchem otwierającym partię jest przesunięcie stojącego przed królem piona o dwa pola do przodu. Jest bezdyskusyjnie najpopularniejsze na każdym poziomie, tak zaczęło się 10 z 15 partii rozegranych niedawno przez Carlsena i Caruanę, od ruchu e4.

Gdy AlphaZero gra białymi, nie zaczyna tak nigdy. Jakby wymazywała całą historię królewskiej gry i ogłaszała, że schrzaniliśmy wszystko. Nawet pierwszy ruch trzeba przemyśleć jeszcze raz. To w moim mikrokosmosie najważniejsze odkrycie 2018 roku.

piątek, 07 grudnia 2018, rafal.stec
Komentarze
2018/12/07 18:56:21
Jest pewna zaleta internetu, że można sprawdzić klikalność i żaden mędrzec nie będzie mówił, że paaanie to sie nie sprzeda. (a z hokejem się tak nie da?)
Obejrzałem partię z tego linku i faktycznie bardzo nietypowa.
-
Gość: Adam, *.adsl.inetia.pl
2018/12/07 20:44:24
Myślałem, że sport to rywalizacja między ludźmi.
-
2018/12/07 20:50:12
@Adam
I co się stało, że zmieniłeś zdanie?
-
2018/12/07 22:11:24
Panie Rafale, jak już wcześniej pisałem pod jedną z Pana notek szachowych w tym roku wreszcie ktoś zdecydował kompetentnie zagospodarować wielką lukę w polskim pisaniu o sporcie, co tym ważniejsze, że to jest spory bardzo, bardzo popularny na poziomie masowych lokalnych rozgrywek (m.zd. 2.miejsce w Polsce po piłce nożnej). Może Pan zająć w tej przepastnej niszy czołowe miejsce, atakując znienacka, niczym demoniczny AlphaZero;-)
-
2018/12/08 00:01:16
"na środkowym wschodzie musi być jakaś cywilizacja!" - aż trudno uwierzyć w kontekście ostatnich wydarzeń.
A siatkarzom naprawdę należą się gratulacje. Powtórzyć sukces w sportach zespołowych!

Natomiast nie bardzo rozumiem Twoje zdziwienie Rafale. Zapewniam Cię, że z większą przyjemnością (i myślę, ze nie jestem osamotniony) przeczytałem Twój felieton w Wyborczej o norweskim wariactwie, niż wpis na blogu o argentyńskiej szajbie.

Dzięki za analizę, chociaż jak dla mnie to było za szybko. Wolałbym coś interaktywnego, żebym sam mógł uruchamiać kolejne posunięcia po przemyśleniu. Może dlatego, że jestem szachowym "naturszcikiem", który nigdy nie zgłębiał szachowych teorii. Może też dlatego nie zawsze otwieram białymi pionem na e4, chociaż też mi się zdarza. Ale nic... obejrzę jeszcze parę razy to może połapię się do końca z tymi stratami. Faktycznie niektóre wydają się szokujące.

A AlphaZero faktycznie może przerażać. Mnie przeraziła. Może dlatego, ze ciągle lubię ludzi (chociaż nie wszystkich jednakowo) i aż trudno mi sobie wyobrazić, co "królowa" (chyba w felietonie powinno być "królowej") mogłaby zrobić w rękach głupca. Zwłaszcza, że wielu z nas nie jest jeszcze na poziomie amatorskich szachów.
-
2018/12/08 00:35:57
"nasze około 1500 lat analiz i udoskonalania metod wygrywania". Wydaje mi się, że szachy są starsze, że grali w nie Już starożytni Persowie?
-
2018/12/08 00:46:15
Ja już ją uczłowieczyłem, myślę o nowej królowej szachów ona, choć to raczej wykraczający poza nasz horyzont poznawczy Pan Bóg, tfu, Pani Bogini, zachwyca i przeraża, na pierwszej randce bałbym się wydukać słowo.
Bo toż to jest przecież ziemska personifikacja Caissy :)

Serdecznie chciałem podziękować za kolejny wpis dotykający najpiękniejszej gry pod słońcem.

Warto też wspomnieć, że AlphaZero wygrał z krótszym czasem na partię. Zaczął przegrywać dopiero kiedy stosunek czasu wynosił 30 do 1 na korzyść zdechłej ryby.

Kilka moich własnych i przedyskutowanych spostrzeżeń:
1. Wydaje się, że AlphaZero nie przypisuje arbitralnie bierkom wartości liczbowych. Jeśli już jest to robione to interaktywnie w zależności od pozycji.
2. Aby uzyskać przewagę w realizacji długodystansowej strategii stawia głównie na elastyczność co się mocno wiąże z możliwością przejmowania inicjatywy.
3. I przede wszystkim skomplikowana gra pozycyjna krępująca aktywność i mobilność przeciwnika.
3a. Zostało zauważone, że do tego krępowania pozycji często stosuje mocno wysunięte samotne piony (co zazwyczaj jest traktowane prze ludzkich graczy jako słabość).
-
2018/12/08 01:02:05
"Ja już ją uczłowieczyłem, myślę o nowej królowej szachów ona, choć to raczej wykraczający poza nasz horyzont poznawczy Pan Bóg, tfu, Pani Bogini, zachwyca i przeraża, na pierwszej randce bałbym się wydukać słowo."

Takie teksty to po ilu drinkach ?
:)
-
2018/12/08 01:55:50
@arthy
Haha, to 3a jest niezmiernie ciekawe. Poprzednie punkty też, ale jakby mniej zadziwiają. Jeszcze przypisywanie wartości w zależności od pozycji jednak występuje i w grze ludzkiej. Nie byłoby bez tego tych wszystkich zagadek typu "mat w 6 posunięciach" (nawet jeśli ktoś się zgodzi, że to dalej strata materialna, ale poświęcenie dla celu), nie byłoby też mocnych i słabych gońców przy poblokowaniu danych linii np. przez własne piony nawet przy partiach otwartych ani obiektywnie mocniejszych skoczków przy partiach poblokowanych z potrójną gardą po jednej i po drugiej.

Ale tak sobie jawnie drwić ze wszystkich ekspertów przestrzegających przed "pawn islands" i rekomendujących "pawn chains" zawsze i wszędzie, to już skrajna bezczelność. Rwanie globalnych podręczników szachowych na strzępy. A przecież mówimy o samotnych pionach na tle zasieków, a nie takich, co mają autostradę do hetmana.
-
Gość: , *.dynamic.chello.pl
2018/12/08 02:46:07
@martin.slenderlink
Te wszystkie punkty, no może poza 3a, to jest raczej klarowna recepta na sukces i nie jest to coś wybitnie odkrywczego. W oczy rzuca się to z jaką precyzją i konsekwencją realizowane są te wszystkie założenia i to nie przeciwko jakiemuś patzerowi tylko najlepszemu silnikowi stworzonemu przez człowieka.

Ale tak sobie jawnie drwić ze wszystkich ekspertów przestrzegających przed "pawn islands" i rekomendujących "pawn chains" zawsze i wszędzie, to już skrajna bezczelność. Rwanie globalnych podręczników szachowych na strzępy.
Nie będzie żadnych drwin. Są próby oszacowania ile elo ma Alpha i wychodzi, że nie jest to jakaś kosmiczna przepaść w stosunku do ST. Owszem podejście Alphy do szachów powinno dać do myślenia i zapewne zmieni podejście do szachów na początku najlepszych graczy, a potem reszty. Nie spowoduje to jednak, że całą dotychczasową wiedzę należy odłoży do lamusa. Także te 1500 lat na marne lekkim clikbaitem zalatuje (póki co).

Jak jesteś dobry w te klocki to może mi coś wyjaśnisz, bo nie do końca radzę sobie z tą metodą Monte Carlo. Chodzi mi oto jakim cudem Alpha nie omija jeszcze lepszych wariantów analizując o 2 rzędy wielkości mniej pozycji niż śnięta ryba?
-
2018/12/08 09:40:54
Kilka uwag.
1) Współczesne zasady szachowe - te z hetmanem poruszającym się we wszystkie strony, roszadą, biciem w przelocie itd - mają 500 lat, nie 1500. Mimo wszystko to od nich - razem z zapisem szachowym - zaczęła się budowa jakiejkolwiek sensownej teorii szachowej.
2) AlphaZero najbardziej zwraca uwagę od brak koordynacji pomiędzy figurami Stockfisha. Gdy tylko widzi taką sytuację, od razu zaczyna naciskać, nie patrząc na koszty materialne.
3) Co więcej, zazwyczaj znajduje plan na całą grę na bardzo wczesnym etapie (gdzieś w okolicy 8-10 ruchu) i stara się go egzekwować właściwie do samego końca.

Tak poza tym AlphaZero gra absolutnie cudowne, piękne i przedziwne szachy, jakich właściwie nie grał nikt w historii. Daniel King porównywał je czasem do stylu Szirowa, ale poziom ich dzieli absolutnie przepaść. Kasparow również bardzo ucieszył się i urósł w dumę, widząc szaleńczy, dynamiczny styl gry, z którego sam słynął. I jest to jakaś nadzieja na przyszłość, bo jednak ostatnio szachy wydają się coraz bardziej ostrożne i skostniałe (12 remisów w MŚ!).
Z drugiej strony nie wierzę, że człowiek byłby w stanie grać w podobny sposób co AlphaZero. Za mało mocy obliczeniowej, niestety.
-
2018/12/08 10:33:05
1. Wydaje mi (acz może mnie pamięć mylić), że te artykuły nie były o szachach tylko o szachistach i sporcie szachowym. Można je przeczytać ze zrozumieniem bez znajomości zasad gry. :) Ten już o samej rozgrywce.
2. Stockfish chyba wszystkie partie, które wygrał to te które rozpoczęte zostały od popularnych otwarć. AlphaZero do takich otwarć nie dopuszcza. :)
-
2018/12/08 12:22:30
Reinforcement learning to nie jest jakaś bardzo skomplikowana idea (ani nowa). W uproszczeniu wygląda to tak, że program wybiera jakieś ruchy i ostatecznie wygrywa partię albo nie. Jeśli wygrał to znaczy, że ruchy były dobre i warto nimi dalej grać, a jeśli przegrał to ruchy były złe i będą w przyszłości wybierane z mniejszym prawdopodobieństwem. Oczywiście te oceny ruchów są uśredniane na podstawie wyników wielu partii. Jedną z ważniejszych decyzji w procesie jest znalezienie właściwego balansu między eksploracją (wybieramy ruchy znacząco różne od w-danej-chwili uważanych za optymalne, żeby przeszukać przestrzeń rozwiązań) a eksploatacją (wybieramy z ruchów optymalnych lub bliskich optymalnym, żeby "szlifować" wypracowane rozwiązanie). Takie podejście nie daje jeszcze gwarancji sukcesu - bardzo ważne są sposób reprezentacji i ulepszenia algorytmu. W tym wypadku jest to sztuczna sieć neuronowa. O ile parametry i - do pewnego stopnia - struktura sieci zmienia się automatycznie w czasie uczenia, to część informacji - kodowanie wejść i wyjść sieci, być może również funkcje przejść stanów, liczba warstw, sposób poprawiania wag sieci - są determinowane przez projektanta. Można to zrobić na wiele sposobów i od tego, jak jest to zrobione, zależy czy program osiągnie sukces.

Analogia: można sobie wyobrazić, że szukamy w pagórkowatym terenie najwyższego punktu chodząc z zawiązanym oczami - nie możemy po prostu iść w górę, bo utkniemy na pierwszym napotkanym pagórku, który nie musi być najwyższy. AlphaZero szuka takich "pagórków", ale nie w przestrzeni dwuwymiarowej (chodząc tylko góra-dół i prawo-lewo), ale w przestrzeni N-wymiarowej, gdzie N może iść w setki. (Choć, trzymając się tej analogii, najwyższego "szczytu" szuka wielu agentów, którzy mogą się komunikować ze sobą oraz teleportować.)

Właśnie to, że udało się tak dobrze dobrać meta-parametry sieci i procesu uczenia, żeby osiągnąć takie efekty (parę lat temu prawie wszyscy uważali, że komputer nie wygra z człowiekiem w go *nigdy*) z jednej strony świadczy o umiejętnościach projektantów a z drugiej o potencjale szeroko pojętej AI.

Nie jest też tak, że sposób działania jest dla nas zupełnie niezrozumiały. Albo inaczej - możemy dokładnie i od początku do końca prześledzić sposób rozumowania programu w tym sensie, że możemy wypisać po kolei wszystkie działania matematyczne, które doprowadziły go do podjęcia danej decyzji w danej sytuacji, a także te które doprowadziły do stworzenia takiej a nie innej sieci. (Aczkolwiek te serie działań będą strasznie długie.) Tym co może być bardzo trudne jest ujęcie tych działań w jakieś ludzkie intuicje, tj. stwierdzenie, że np. aktywacja jakiegoś obszaru sieci świadczy o podjęciu decyzji o ataku stroną królowej. Działanie programu może więc pozostać dla nas czarną skrzynką, bo nam - ludziom - zwyczajnie brakuje mocy obliczeniowych, żeby nadążyć za maszynowym rozumowaniem.

Fajne wprowadzenie w temat daje artykuł: arxiv.org/pdf/1712.01815.pdf

A tak poza tym, to też bardzo lubię czytać o szachach, więc obecny trend na blogu (i wyborczej) oceniam bardzo na plus :)
-
2018/12/08 13:15:51
@piotr.markowicz1988
Z drugiej strony nie wierzę, że człowiek byłby w stanie grać w podobny sposób co AlphaZero. Za mało mocy obliczeniowej, niestety.
Bardzo dobrym przykładem na potwierdzenie Twoich słów jest przytoczona przez Rafała partia z poświęceniem bodajże 5 pionów. W mojej skromnej opinii żaden człowiek by tak nie zagrał.
Poza tym bardzo trafne uwagi :)

@ytuch2
2. Stockfish chyba wszystkie partie, które wygrał to te które rozpoczęte zostały od popularnych otwarć. AlphaZero do takich otwarć nie dopuszcza. :)
Kiedy dodano ST książkę otwarć poprawiło to jego wyniki (w oryginalnym tekście użyto słowa "substantial") zwłaszcza gdy grał białymi, ale i tak nie na tyle żeby wygrać cały mecz.

@black_spider
Widzę, że coś ogarniasz w temacie i pewnie takie terminy jak minimax czy monte carlo nie są Ci obce. Ja coś o tym poczytałem dopiero przy okazji osiągnięć Alphy, ale wciąż mam różne pytania - na przykład kiedy piszesz: "wybieramy z ruchów optymalnych lub bliskich optymalnym" to skąd wiemy, które są optymalne? Na bazie eksploracji? A co jeśli nie przeszukałem jeszcze efektywniejszych węzłów? Poza tym widziałem prezentacje MC gdzie prelegent sam przyznawał nie zrozumienie pewnych przejść czy kroków podjętych przez sieć - to miałeś na myśłi pisząc "Tym co może być bardzo trudne jest ujęcie tych działań w jakieś ludzkie intuicje, tj. stwierdzenie, że np. aktywacja jakiegoś obszaru sieci świadczy o podjęciu decyzji o ataku stroną królowej."?
-
2018/12/08 14:54:23
@arthy
Trochę robię przy AI i od czasu do czasu gram w szachy, więc niektóre rzeczy łapię :) Spróbuję odpowiedzieć, jak umiem najlepiej :)

"Optymalnych" w sensie aktualnej (zdobytej do tej pory) wiedzy programu. Na początku treningu oczywiście program nic nie wie poza zasadami, czyli jakie ruchy są prawidłowe. Wtedy jest eksploracja na 100% - po prostu gramy (alpha vs alpha) losowo, bo nic nie wiemy. Gdy partia się kończy to sobie zapisujemy, że te ruchy prowadziły do zwycięstwa, a inne do porażki i czegoś się zaczynamy uczyć. I teraz jest problem - wszystkich pozycji w szachach jest zbyt wiele, żeby je przeanalizować (i tak jak słusznie spytałeś - zawsze jest ryzyko, że są jakieś jeszcze lepsze ruchy, na które program jeszcze nie wpadł), ale staramy się sobie radzić w ten sposób, że działamy dwukierunkowo:
1. eksploracja - szukamy cały czas jakiś nowych rozwiązań (w tej analogii z szukaniem najwyższego punktu/góry - teleportujemy się losowo po terenie i patrzymy czy jesteśmy wysoko czy nisko)
2. eksploatacja - ulepszamy jakieś rozwiązanie, dzięki któremu poprzednio wygrywaliśmy (jak jesteśmy już na zboczu góry, to idziemy w górę) (Albo matematycznie - dążymy do lokalnego maksimum. "Lokalne" jest tu kluczowe - gdzieś obok może być wyższa góra - po to mamy eksplorację.)
Na etapie uczenia nacisk na te dwa sposoby się zmienia. Klasycznie najpierw jest tylko eksploracja, a z czasem przeznaczamy coraz więc mocy na eksploatację. Ale to w dużym uproszczeniu - ogólnie znalezienie jak najlepszego balansu może być niełatwe.
-
Gość: simek, *.dynamic.chello.pl
2018/12/08 14:59:01
Ja jestem szachowym laikiem, jednak trochę nie rozumiem zdziwień i zachwytów grą AlphaZero i tego rzekomego odrzucenia wszelkiej szachowej wiedzy w zetknięciu z komputerem.
Otóż dla mnie od zawsze było oczywiste, że nadejdzie taki moment w historii nauki, gdy program komputerowy rozgryzie CAŁE szachy, tak, że będzie z nim mógł zremisować tylko ten sam program, a wygra z wszystkimi innymi, no i jak widać jesteśmy coraz bliżej tej chwili. Wszystko sprowadza się do mocy obliczeniowej i dobrego zapoczątkowania takiego programu, żeby właśnie mógł sobie grać sam ze sobą albo innym programem biliony partii i określać jakie ruchy i sekwencje ruchów sprawiają, że szanse na wygraną są większe.
Szachy to oczywiście przepiękny sport, ale jakby nie patrzeć - jest on schematyczny i jednak liczba możliwych posunięć, czy układów na szachownicy w ogóle, jest skończona, więc tak jak pisałem - absolutne rozpracowanie gry jest możliwe i to pewnie kwestia kilku lat. Inna kwestia, że niewiele to zmienia w kontekście ludzkich rozgrywek, bo i tak każdego z nas ogranicza niewielka moc obliczeniowa i pamięć mózgu.
-
2018/12/08 15:01:56
Alpha (podobnie jak inne programy) też robi analizę min-max (alfa-beta) czy mówiąc po ludzku analizuje kilka ruchów do przodu (czasem kilkanaście - mocno zależy od sytuacji na szachownicy - im mniej możliwych/sensownych ruchów, tym dalej w przyszłość program może zajrzeć mając określony czas na ruch) zakładając, że przeciwnik zagra najlepiej jak może i ocenia, który ruch prowadzi do najlepszej pozycji.

Zasadniczą różnicą w stosunku do klasycznych programów jak Stockfish jest to, że ocena pozycji w klasycznych programach, to zbiór reguł wprowadzonych przez programistę: przypisujemy każdej posiadanej figurze jakieś punkty (np. pion-1, skoczek,goniec-3, wieża-4, hetman-9), dodajemy do oceny liczbę możliwych ruchów (mobilność), dajemy karę za izolowane piony itp. itd. - cokolwiek tam programiści przy konsultacji z szachistami wprowadzili. Alpha natomiast ocenia inaczej: taka pozycja (albo podobna - wszak wszystkich możliwych pozycji jest za dużo, żeby je przećwiczyć na etapie uczenia; ocena podobieństwa pozycji i w związku z tym wybór odpowiedzi jest głównym zadaniem sieci neuronowej) prowadziła do zwycięstwa częściej niż inne, więc jest lepsza. Żadnych odgórnie wprowadzonych reguł - czysta statystyka (takie podejście zwykle nazywa się Monte-Carlo). Z tego powodu stockfishowi bardzo trudno grać w sposób, który kojarzy nam się z długofalowym planowaniem.

Co do (nie)rozumienia tego co robi komputer, to chodzi o coś takiego: komputer na etapie uczenia (i szukania tych pagórków - czyli dobrych ruchów) znalazł jakiś ruch, który (wg komputera) warto zagrać w określonej sytuacji. Oglądamy sobie partię alpha vs stockfish i alpha gra ten właśnie ruch. Alpha nie podaje jednak żadnego wytłumaczenia - mamy tylko ruch i ewentualnie możemy prześledzić sposób dojścia do tego ruchu w postaci bardzo długiej serii operacji matematycznych. (Te obliczenia są serio na tyle długie, że możliwość prześledzenia dla człowieka jest czysto teoretyczna. Trudno też jakoś interpretować stany pośrednie.) Mamy jednak GMa który komentuje partię i mówi: "Alpha ustawia wieżę naprzeciwko zasłoniętego króla, bo - choć nie daje to natychmiastowego zysku - to może zagrozić królowi w przyszłości, a do tego w tym miejscu jest bardzo mobilna." Ale to zdanie, to jest ludzka interpretacja - GM mówi tak, bo dostrzegł analogię do strategii wypracowanej przez ludzi i zgaduje, że Alpha "myśli" w podobny sposób. Ale Alpha nie "planuje" w "ludzki" sposób. To był ruch, który prowadzi do statystycznie lepszej pozycji. Dlaczego jest lepsza - o tym Alpha nie "myśli" w tej chwili. Dopiero, gdy gra pójdzie dalej, "przypomni" sobie te kolejne etapy. Znów - może być też tak, że wybrany ruch jest dobry (również) z innych powodów, niż zgaduje GM. W momencie jednak, gdy Alpha zagra jakiś ruch, na który ludzie nigdy nie wpadli (bo nigdy nie dostrzegli wynikających z niego korzyści), to wtedy komentatorzy rozkładają ręce: "No zagrał tak. A potem tak jakoś wygrał. Król w pewnym momencie został zamatowany, ale który ruch był naprawdę decydujący, gdzie przeciwnik popełnił błąd, jak mógł zagrać inaczej - tego nie wiemy." Możemy oczywiście sprawdzić jak Alpha by się zachował na miejscu przeciwnika i nawet znaleźć w ten sposób dobrą kontrę, ale nie będziemy rozumieli tej strategii, czyli np. nie będziemy potrafili zastosować jej w innej sytuacji, nie będziemy rozumieli jej ograniczeń. (Swoją drogą, to chyba było szczególnie mocno widoczne, gdy AlphaGo grał pierwsze mecze przeciwko ludzkim arcymistrzom i wygrywał grając bardzo nieortodoksyjnie - delikatnie mówiąc.)
-
2018/12/08 15:13:44
Musiałem poprzednią wiadomość rozbić na dwie, bo była za długa dla bloxa ;)

@simek
Tak "rozwiązano" warcaby, ale w szachach liczba możliwych ruchów i pozycji jest o wiele większa. Shannon estymował, że do rozwiązania szachów obliczenia musiałyby trwać 10^90 lat (tak - jedynka i 90 zer; zwróć uwagę, że w tego typu grach liczba możliwych pozycji rośnie wykładniczo w stosunku do długości partii), co oznacza że licząc z grubsza - nawet mając całą galaktykę superkomputerów pracujących nad tym problemem szybciej wszechświat się skończy niż znajdziemy rozwiązanie. Oczywiście jest teoretycznie możliwy jakiś przełom, który by nam znacznie ograniczył przestrzeń wyszukiwań, ale nikt na razie na taki pomysł nie wpadł. Aktualny stan prac jest dobrze streszczony tutaj: en.wikipedia.org/wiki/Solving_chess
-
2018/12/08 15:15:08
@black_spider
Dzięki za odpowiedź.

Na etapie uczenia nacisk na te dwa sposoby się zmienia. Klasycznie najpierw jest tylko eksploracja, a z czasem przeznaczamy coraz więc mocy na eksploatację. Ale to w dużym uproszczeniu - ogólnie znalezienie jak najlepszego balansu może być niełatwe.
To rozumiem, że za ten balans odpowiada już czynnik ludzki?
-
2018/12/08 16:03:12
@arthy
Tak, to jest decyzja programisty i można to zrobić na wiele sposobów (i raczej nie wiadomo z góry, który będzie lepszy w danym zastosowaniu). W tym artykule o AlphaZero chwalą się, że eksploracja jest uzyskiwana za pomocą dodania szumu, czyli celowo zaburzają wyjście algorytmu. A bardziej po ludzku: algorytm może wybrać rozwiązanie, które - przy jego aktualnej wiedzy - nie wydaje się najlepsze, ale dzięki temu "testuje" inne ruchy. Oczywiście ruchy "trochę gorsze niż optymalne" mają większe prawdopodobieństwo wylosowania niż ruchy "bardzo złe". W AlphaZero programiści dodatkowo zdecydowali, że liczba ruchów możliwych do wykonania w danym momencie również wpływa na wielkość tego szumu. Tu jest trochę więcej o "exploration noise" w ogólności: towardsdatascience.com/whats-new-in-deep-learning-research-knowledge-exploration-with-parameter-noise-98aef7ce84b2
-
2018/12/08 16:40:16
@black_spider
"Trochę robię przy AI"

A teraz przyznaj się, jasnowidze wygrywałeś na dopingu xD

@arthy
" jest przytoczona przez Rafała partia z poświęceniem bodajże 5 pionów. W mojej skromnej opinii żaden człowiek by tak nie zagrał."

Może znajdę szaleńca:
www.youtube.com/watch?v=G90SVhxKeig

Z tym że mocy obliczeniowej, która jest główna przewagę AI, mocno brakuje, Nezhmetdinov nawet do GM nie dobił, ale styl miał imponujący.
-
Gość: f.wspanialy, *.dynamic.gprs.plus.pl
2018/12/08 20:09:47
@black_spider

Z Twojego wpisu (2018/12/08 15:01:56) można by wywnioskować, że AI (przynajmniej w odniesieniu do gier) jest tak naprawdę analitykiem danych i statystykiem i to, co nam mogłoby się wydawać kreatywnością, są - w gruncie rzeczy - rachunki (szybkie i sprawne, ale rachunki). Wyprowadź mnie z błędu, jeśli nie mam racji. I jeszcze jedno - czy w pozostałych obszarach zastosowań algorytm uczenia jest podobny (analiza danych - wybór najbardziej obiecującego zachowania i zapamiętanie go)?
-
2018/12/08 21:21:32
@up
A czym jest "kreatywność"?
Kreatywność proces umysłowy pociągający za sobą powstawanie nowych idei, koncepcji lub nowych skojarzeń, powiązań z istniejącymi już ideami i koncepcjami. Myślenie kreatywne to myślenie prowadzące do uzyskania oryginalnych i stosownych rozwiązań

"Oryginalność" jest względna. To co dla juniora szachowego jest kreatywne dla arcymistrza już nie, a to co jest kreatywne dla arcymistrza nie jest dla AlphaZero, bo już takich partii grało setki tysięcy.
-
2018/12/08 21:38:59
"I jeszcze jedno - czy w pozostałych obszarach zastosowań algorytm uczenia jest podobny (analiza danych - wybór najbardziej obiecującego zachowania i zapamiętanie go)"
"wybór najbardziej obiecującego zachowania" - to określenie wydaje mi się mylące. Można na przykład rozpoznawać obrazy, wtedy nie ma "zachowania", ale jest wynik rozpoznania np. na 12% to krokodyl, na 10% to drzewo.

W programowaniu nie ma magii.
Algorytmy + struktury danych (+ dane) = programy. N. Wirth
-
2018/12/08 22:42:04
Może "w programowaniu nie ma magii", ale w myśleniu chyba jednak jest.
-
2018/12/08 22:43:11
@0twojastara
wydało się ;P a tak serio, to co prawda AI żadnej nie zaprzęgałem, ale zastanawiałem się jaki wynik osiągnął by ktoś, kto po prostu tuż przed deadlinem by zapostował te odpowiedzi, które pojawiały się najczęściej (na zasadzie takiej "wiedzy kolektywnej"). Policzyłem takie coś ze dwa razy i wyszło, że wynik byłby dość przeciętny :) za to wyniki wszystkich uczestników się fajnie układają w rozkład normalny :)

@f.wspanialy
Twoje wnioski są w zasadzie słuszne. Generalnie metody AI działają według schematu:
1. wylosuj jakiś zbiór rozwiązań (algorytmów, sieci neuronowych...)
2. oceń je (alpha gra sama ze sobą, ale w innych zastosowaniach np. klasyfikacji obrazów możesz mieć jakiś zbiór testowy przygotowany przez programistę, który służy do sprawdzenia jakości rozwiązania; są też bardziej nietypowe metody jak novelty search albo open-ended evolution)
3. wybierz najlepsze (albo kilka najlepszych; albo losowo, ale te lepsze z większym prawdopodobieństwem)
4. zmodyfikuj wybrane (zmień niektóre parametry, połącz dwa algorytmy w jedno, itd.) -> masz nowy zbiór rozwiązań
5. z tym nowym zbiorem rozwiązań wracasz do punktu 2 (i tak w kółko)

Oczywiście powyższy schemat jest bardzo ogólny i poszczególne punkty można realizować na bardzo wiele sposobów, ale ogólna idea się do tego sprowadza. Można powiedzieć, że proces uczenia jest odpowiedzialny za generowanie coraz to nowych rozwiązań, ocenianie ich, wykorzystywanie tych ocen do generowania kolejnych rozwiązań itd - ten proces obliczeniowy (trening sieci), to jest ten analityk i statystyk, o którego pytałeś. Najlepsze rozwiązanie (czyli np. ta ostatnia wersja sieci neuronowej użyta przez Alphę do gry) nie ma zwykle świadomości historii procesu nauki - korzysta z wyniku tej analizy (albo inaczej - jest produktem tej analizy).

Co do tego czym jest kreatywność, to nie czuję się kompetentny :) Nie wiemy chyba jeszcze tak do końca, jak dokładnie kodowane są informacje w ludzkim mózgu - z pewnością działa to inaczej niż w [prawie wszystkich] sztucznych sieciach neuronowych stosowanych w informatyce (co wynika z tego, że na krzemie inne rzeczy się liczy łatwo niż na białku ;)). Prace nad modelami bardziej zbliżonymi do biologii (i ludzkich neuronów) jednak trwają (np. spiking neural networks).

Albo spróbuję to ująć jeszcze inaczej - od strony matematycznej wszystkie idee stojące za bardzo szeroko pojętą AI są naprawdę proste. Zauważamy tu jednak ciekawy fenomen - te proste metody przy odpowiednio dużej złożoności (dużej liczbie tych prostych elementów złożonych do kupy) można nauczyć rozwiązywać bardzo złożone problemy, w tym takie, do których nie potrafimy napisać algorytmu (przepisu) analitycznie (wprost). Czyli w sytuacji, w której wiemy co chcemy osiągnąć, ale nie wiemy jak, AI potrafi coraz częściej na to "jak?" odpowiedzieć.
-
2018/12/09 02:33:19
@0twojastara
Śledzę ten kanał od dawna:)
Bardzo podoba mi się postulat jego autora, aby napisać petycję do FIDE o nadanie pośmiertnego tytułu arcymistrza Rashidowi za całokształt, bo patrząc na chociażby przywołaną przez Ciebie partię z pewnością mu się należy.
-
2018/12/09 03:14:14
@black_spider
"mate-in-546" - padłem :))
-
Gość: f.wspanialy, *.dynamic.gprs.plus.pl
2018/12/09 15:32:22
@black_spider
Może kreatywność da się zdefiniować jako stworzenie (wymyślenie, określenie) nowej dziedziny rozwiązań, nie istniejącej (nie odkryte)j do tej pory (na przykład, założenie - wbrew istniejącym dogmatom - że energia ma charakter dyskretny, jest przekazywana w postaci kwantów). AI (przynajmniej tak, jak to robi AlphaZero) wydaje się być poszukiwaczem najlepszego rozwiązania (Wielkim Iteratorem) w dziedzinie już istniejącej.
-
2018/12/09 17:05:11
@f.wspanialy
AlphaZero nie zna "dogmatów" szachowych. Poszukuje najlepszych rozwiązań z DOSTĘPNYCH/MOŻLIWYCH, a nie z "dogmatów". Z "dogmatów" korzysta Stockfish np. baza otwarć.
"w dziedzinie już istniejącej"
W szachach każdy zestaw ruchów już istnieje. Można tylko któryś ruch wybrać. :)
-
2018/12/09 17:20:26
Tu docieramy do granicy, jaką szachy mają - liczba ruchów jest skończona, i być może nadal niepoliczalna dla człowieka, zgodzimy się że policzalna ogółem jest.

Dlatego mnie na ogół doniesienia o "genialnej AI" nie przerażają, nie mam wizji skynetu który opanuje świat, i rzuci ludzi na kolana, bo nadal AI porusza się tu po polach wyznaczonych przez człowieka, a że robi to sprawniej, wynika zwyczajnie z większej, o wiele większej, mocy obliczeniowej, tak i braku ograniczeń typu: zmęczenie. Alpha nadal nie myśli "lepiej" czy "sprytniej" tylko efektywniej.

osobiście większe na mnie wrażenie zrobiło info, o "samouczącej" się AI, która odrzuciła pewne zasady języka angielskiego i poprawiła, by był bardziej efektywny, koherentny. That shit is scary.
-
Gość: f.wspanialy, *.dynamic.gprs.plus.pl
2018/12/09 18:08:13
@ytuch2

Sam piszesz, że program porusza się wśród dostępnych/możliwych rozwiązań i niczego nowego nie wymyśla (gdybyś Ty miał odpowiednio dużo czasu w stosunku do prędkości ludzkich obliczeń, osiągnąłbyś te same wyniki). Planck zapoczątkował zupełnie nowe podejście do badania zjawisk fizycznych (ideę, która wcześniej wydawała się niemożliwa). O tę nowość chodzi i dlatego użyłem wyrażenia "wbrew obowiązującym dogmatom". Gdyby Alpha Zero wymyślił coś na podobieństwo szachów Fischera, wtedy można byłoby powiedzieć, że jest kreatywny.
-
2018/12/09 19:07:51
@f.wspanialy
W tym sensie AlphaZero nie może być kreatywne. Nie takie jest zadanie.
Szachy Fischera nie wynikają z żadnej z jego gier. Czy algorytm może "wymyślić" inną "fajną" grę? Jeśli takie zostanie postawione zadanie to tak.
-
2018/12/09 19:19:24
@arthy
6 partii SF wygrał, ale to były partie rozpoczęte od "znanych" otwarć.

@f.wspanialy
Jeśli chodzi o nowy sposób gry w szachach to A0 nie tyle "nie dba" o piony, ale czasem traktuje swoje piony jako szkodliwe - np. blokujące gońca.
-
2018/12/09 20:22:23
' nie tyle "nie dba" o piony, ale czasem traktuje swoje piony jako szkodliwe - np. blokujące gońca" - bo jest pozbawiona empatii.
Nie przerażają mnie zdolności obliczeniowe, brak zmęczenia, kreatywność (jak byśmy jej nie rozumieli), ale właśnie brak empatii. Jeżeli AI dostanie zadanie przywrócenia równowagi ekologicznej, to ją błyskawicznie przywróci... - zlikwiduje wszystkie źródła emisji, zlikwiduje ograniczające ruchy migracyjne autostrady i koleje, wyburzy promieniujące ciepłem wielkie aglomeracje, a jak uzna (co oczywiste), że zagrożeniem jest przerost naszej populacji, to ją potraktuje "jak własne piony" i zredukuje do poziomu gwarantującego równowagę biologiczną.
-
2018/12/09 21:41:03
@alp67
Nie. Piony to nie istoty żywe tylko elementy gry, tu nikt nie powinien mieć empatii. Pion jest tyle warty co w dyktandzie słowo z błędem... skreślamy je i tyle. Ono nie jest żywe.
-
2018/12/09 22:36:47
@Ytuch

No nie wiem?
-
2018/12/10 06:25:35
Kolejna wspaniała reforma! Jeszcze więcej trzeciorzędnych obcokrajowców i niedouczonych juniorów to na pewno daleko zajedziemy!

"Polski Związek Piłki Nożnej przegłosował rewolucję w polskiej Ekstraklasie. Od sezonu 2019/2020 każda drużyna będzie mieć obowiązek wystawiania co najmniej jednego młodzieżowca w składzie. Zgodnie z uchwałą PZPN, zawodnikiem młodzieżowym jest zawodnik posiadający obywatelstwo polskie, który w roku kalendarzowym, w którym następuje zakończenie sezonu rozgrywkowego kończy 21 rok życia oraz zawodnik młodszy. Czyli, dla przykładu, w obecnym sezonie byłby to piłkarz z rocznika 1998. Jedynym odstępstwem od tego przepisu będzie sytuacja, w której młodzieżowcem jest bramkarz. Jeśli w trakcie meczu dozna kontuzji, będzie mógł go zastąpić piłkarz spoza limitu. W teorii kluby, które są niezadowolone z takiego ograniczenia, a tych nie brakuje, mogłyby wystawiać młodzieżowca na minutę, po czym zmieniać go na swojego nominalnego bramkarza. W praktyce by się jednak kompromitowały."

"Zniesiony został też obowiązujący od sezonu 2016/17 limit dwóch piłkarzy spoza UE. Kluby dość szybko musiały przebudować kadry i ograniczyć ruchy transferowe w krajach spoza 28 państw unijnych (plus Szwajcarii i krajów Europejskiego Obszaru Gospodarczego). PZPN mówi: Na rynku transferowym róbcie, co chcecie. Właściwie już od najbliższego zimowego okna będzie można ruszyć na zakupy poza Unię. Taka sytuacja bardzo cieszy właścicieli klubów zwłaszcza tych walczących o lokaty na podium, a w perspektywie wystepujących w eliminacjach europejskich pucharów. Od momentu wprowadzenia limitu skarżyli się, że taki przepis osłabia ich konkurencyjność w wejście do fazy grupowej Ligi Mistrzów czy Europy. Nasze przepisy były najostrzejsze w Europie, ale to koniec prezesi mają wolną rękę i to od nich zależy, jak z tego skorzystają."

Jaki będzie efekt tej rewolucji?

"Zamiast wielkich emocji i pięknych akcji na boisku, dziesiątki nieudanych podań i bramkowe sytuacje, które można było policzyć na palcach jednej ręki. Lechia Gdańsk bezbramkowo zremisowała z Legią Warszawa i pozostaje liderem tabeli. Cokolwiek napiszemy po spotkaniu Lechii z Legią i tak nie odda to naszego zażenowania poziomem widowiska. Oczywiście patrzyliśmy realnie, nie spodziewaliśmy się zabójczej wymiany ciosów i wygranej którejś ze stron 4:3. Liczyliśmy się z tym, że będą fazy mocno taktyczne i zachowawcze, zwłaszcza na początku. Ale takiej padliny, którą zatrułyby się nawet skuszone nią sępy, jednak się nie spodziewaliśmy. Jeżeli ktoś przy okazji tego meczu chciał się przekonać do Ekstraklasy czy do piłki w ogóle, jest wyleczony po wsze czasy. Tego nie dało się oglądać."

Debil na dole, debil na górze...
-
2018/12/10 23:57:37
@0twojastara
osobiście większe na mnie wrażenie zrobiło info, o "samouczącej" się AI, która odrzuciła pewne zasady języka angielskiego i poprawiła, by był bardziej efektywny, koherentny. That shit is scary.
A propos scary to miałem podobne odczucia jak przeczytałem gdzieś informacje, że 2 AI dostały jakieś zadanie i miały wypluć otrzymany wynik. Zrobiły to i programiści chcieli sprawdzić jak do tego wyniku doszły. Okazało się, że nie da się tego zrobić, bo AI uznały język, który dostały do dyspozycji za mało efektywny i wykształciły swój własny - kompletnie niezrozumiały dla ich twórców i w związku z tym nie dało się podglądnąć o czym sobie te AI gadały. Nie pamiętam wszystkich szczegółów, ale dla mnie ten shit był scary.
-
2018/12/11 02:21:32
Haha. W tym punkcie to przydałaby się oprawa muzyczna. Widzę tu najbardziej jeden utworek na podsumowanie: "Come to daddy" Richarda D. Jamesa a.k.a. Aphex Twin. Tylko zamiast gęby wyglądającej z ekranu starego odbiornika TV gęba wyłażąca z takiej wielgaśnej mocno przegrzanej jednostki AI. Wybaczcie ten mizerny wkład merytoryczny w dyskusję, ale po tych ostatnich komciach to jedyne, co mi się skojarzyło.
-
2018/12/11 07:07:05
@martin.slenderlink
Dziwne komentarze piszesz, gdy my tu poważnie o skynecie rozmawiamy ;)

Bardzo interesującą partię właśnie omówił wspomniany przez @0twojastara agadmator (www.youtube.com/watch?v=Vq0uTq0Z3Xk), świetnie też obrazującą to o czym wspominałem na samym początku, czyli daleko wysuniętego wyizolowanego piona.
W materiale często pojawia się też słowo "creative" - to tak a propos wymiany zdań między @alp67 a @Ytuch.
Jeśli ludź zagrał coś oryginalnego to jest kreatywny, a jakby zagrała to samo maszyna to już odbieramy jej prawo do nazywania się kreatywną, bo matematyka. Patrząc jednak racjonalnie zapewne to prawda, ale jakieś to takie niesprawiedliwe mi się wydaje.

Nad ciekawą rzeczą tez się zastanwia pod koniec materiału, mianowicie jak będą grać ludzie, którzy od dziecka będą uczeni grać w szachy przez Alphę, o ile oczywiście trafi kiedyś pod strzechy. Obecnie starzy mistrzowie uczyli się od jeszcze starszych mistrzów, młodzi arcymistrzowie uczyli się od starych mistrzów i Stockfisha. Następne pokolenie może będzie już wychowane tylko na Alphie i roznieście staruszków w pył, zobaczymy. W każdym razie wraz z rozwojem Alphy ciekawe czasy nas czekają.
-
2018/12/11 16:36:19
Aż ciekawe jak z AZ dawałby sobie radę Carlsen.
-
2018/12/11 17:15:17
@ Bartoszcze

Faktycznie. A chyba jeszcze ciekawsze, czego mógłby się od niego nauczyć.
-
2018/12/11 22:50:27
Tak a propos kreatywności, to Jacek Dukaj napisał jakiś czas temu świetny artykuł w temacie AI a sztuka (więc siłą rzeczy kreatywność też tam jest dyskutowana):
wyborcza.pl/magazyn/7,124059,22602608,youtuberzy-ostatni-artysci-jacek-dukaj-opowiada-o-sztuce-w.html
Tutaj ludzie trzymają się na razie trochę lepiej niż w grach planszowych, ale trend jest ten sam - kolejne ludzkie bastiony padają jeden za drugim :)
-
2018/12/12 04:19:09
Dalej w temacie kreatywnośći:
"AlphaZeros teachings echo what we saw when AlphaGo played the legendary champion Lee Sedol in 2016. During the games, AlphaGo played a number of highly inventive winning moves, including move 37 in game two, which overturned hundreds of years of thinking. These moves - and many others - have since been studied by players at all levels including Lee Sedol himself, who said of Move 37: I thought AlphaGo was based on probability calculation and it was merely a machine. But when I saw this move I changed my mind. Surely AlphaGo is creative.
-
2018/12/13 13:06:13
@kreatywność a probabilistyka
AlphaZero jest algorytmem probabilistycznym. Wystarczy się wczytać w artykuł w Science. Scieć neuronowa czytająca pole gry zwraca wektor prawdopodobieństw ruchów. Z kolei te prawdopodobieństwa są uzyskiwane przy użyciu probabilistycznego, ale losowego (metodą Monte Carlo) przeszukiwania drzewa ruchów. Myślę, że kreatywność AZ jest właśnie skutkiem kreatywnego stosowania losowości ;-). Tzn. przeszukiwanie drzewa decyzji metodą MC, pozwala na znalezienie ruchów lokalnie nieoptymalnych, które jednak mogą prowadzić do znaczącej poprawy sytuacji w dalszej perspektywie. Klasyczne programy używają zachłannych algorytmów, które szukają ruchów optymalnych w lokalnej perspektywie.
-
2018/12/14 15:02:40
aj tam od razu na marne