10.07.2011, 20:37
![[Obrazek: z9227689X.jpg]](http://bi.gazeta.pl/im/9/9227/z9227689X.jpg)
Trzeba zrozumieć, że Watson - poza pokazówką w telewizji - to początek nowej ery w zastosowaniu komputerów. Ery, która niesie ze sobą dużo niebezpieczeństw. Przede wszystkim jakiś procent pracowników, także z wyższym wykształceniem, strukturalnie straci pracę - opowiada prof. Czesław Jędrzejek
Tomasz Grynkiewicz: Kilkanaście lat temu komputer ograł jednego z najlepszych szachistów świata. W tym roku wygrał w teleturnieju Jeopardy (w Polsce był nadawany jako VaBanque)
Prof. Czesław Jędrzejek: Dwa, zupełnie nieporównywalne wydarzenia. Wspólny element był taki, że maszyna pokonała człowieka. Ale algorytmy szachowe były stosunkowo proste, a w rozgrywce niebagatelną rolę odegrała siła obliczeniowa superkomputera Deep Blue.
Czyli, mówiąc językiem laika, VaBanque trudniejszy od szachów?
Z punktu widzenia komputerów, znacznie trudniejszy. Maszyna musi odpowiadać na bardzo złożone zapytania wyrażone w języku naturalnym. A superkomputer o dowolnie dużej mocy obliczeniowej nie będzie w stanie rozwiązać zadań, jeśli nie ma do nich efektywnych algorytmów. Tu cała sztuka polegała na właściwym algorytmie, a od 2005 r., gdy inżynierowie IBM plasowali się w czołówce światowego konkursu ekstrakcji informacji TREC, dokonano ogromnego postępu.
W Watsonie 20-osobowy zespół IBM, wspierany przez grupę uniwersytetów, głównie amerykańskich, połączył około stu technologii analizy języka naturalnego, wnioskowania, generowania i weryfikowania hipotez itd. Pierwsze przymiarki dały 15-proc. trafność odpowiedzi. Ostatecznie Watson, trenowany na zbiorze 200 tys. pytań w formacie Jeopardy, był w stanie udzielić poprawnej odpowiedzi w 70 proc. przypadków. Choć można powiedzieć, że wygrał nie bez wsparcia organizatorów teleturnieju.
Wsparcia???
Proszę zwrócić uwagę na dwie rzeczy. Widzowie słyszeli, że Watson na pytania odpowiada, używając głosu. Ale pytania do analizy dostawał w tekście, nie musiał przetwarzać mowy na tekst, choć mógłby. W ten sposób zyskiwał czas na analizę i unikał błędów na tym etapie. Po drugie, w VaBanque liczy się szybkość, kto pierwszy zareaguje i naciśnie guzik, ten ma szansę odpowiedzieć i zgarnąć punkty. Człowiek musi skojarzyć, że zna odpowiedź i mózg musi wysłać sygnał, by ręka nacisnęła guzik. Mija pół sekundy, może nieco mniej. Watson na to czasu nie tracił. Pytanie, czy to był słuszny handicap. Co jednak w niczym nie ujmuje osiągnięciu naukowców.
Czy to znaczy, że człowiek nauczył maszynę myśleć, rozumować „po ludzku”?
Nie można jeszcze powiedzieć, że komputer myśli. Paradoksalnie Watson, sprzętowo wielkości sześciu lodówek, nie posiada jeszcze mocy obliczeniowej mózgu człowieka. Ale się do niej zbliża. Mózg człowieka i Watson posiadają też porównywalne pamięci, Watson używa odpowiednika 100 mln książek. Ale nie myśli. Maszyna rozumie człowieka w tym obszarze, do którego rozumienia została stworzona. Watson IBM-a nie byłby na przykład w stanie uczestniczyć w konferencji na swój temat, ani demonstrować uczuć. Nie przeszedłby też testu Turinga zaproponowanego w roku 1950 (symulować ludzkie zachowanie konwersacyjne tak, aby człowiek rozmawiający z komputerem nie był w stanie powiedzieć czy rozmawia z człowiekiem czy maszyną). Ciągle nie osiągnęliśmy celu, polegającego na oszukaniu 30 proc. sędziów w czasie pięciominutowego testu. Turing prognozował, że będzie to możliwe w 2000 r.
Równolegle rozwija się kierunek, związany z projektem Blue Brain, który polega na stworzeniu komputera dokładnie symulującego obliczenia dokonywane w ludzkim mózgu. Wyniki spodziewane są za 10 lat. W ramach projektu Future and Emerging Technologies (FET) Unii Europejskiej ruszyła program pilotowy dalszego finansowania Blue Brain i jeśli pokona inne projekty, finansowanie może wynieść 1 mld euro. Sama grupa izraelska (Prof. Idan Segev) już posiada na ten kierunek badań finansowanie w wysokości 130 mln. dol. Dla porównania, całość nakładów na polską naukę wynosi ok. 3 mld. dolarów.
Gdzie człowiek ma jeszcze przewagę nad Watsonem?
Człowiek o wiele bardziej efektywnie potrafi analizować semantykę, czyli kontekst pewnych pojęć, relacji, słów, obrazów czy zdarzeń. Jest w stanie błyskawicznie zauważyć, że osoba na zdjęciu jest kaleka, bo np. nie ma jednej nogi. Watson musiałby mieć zdefiniowaną listę cech, które oznaczają, że osoba jest kaleka i sprawdzić wszystkie te cechy, czy jakaś z nich występuje na zdjęciu.
Generalnie, według klasyfikacji sztucznej inteligencji, Watson reprezentuje „słabą inteligencję”, tzn. taką, w której zachowanie komputera symuluje zachowanie człowieka. Jednak już rozpoczęły się prace pod kierunkiem IBM nad następną wersją, RACR (Reading and Contextual Reasoning, ang. czytanie i zrozumienie kontekstowe). I ten następny system będzie się uczył. Będzie mógł wyszukiwać kolejne asocjacje i rozumieć coraz bardziej złożone konteksty. Trzeba ten proces odróżnić od prostych algorytmów uczenia maszynowego.
Do czego i gdzie nas to doprowadzi?
Zobaczymy. Już dzisiaj działa system NELL (Never-Ending Language Learner) z Carnegie Mellon University. Naukowcy zaczynali od stu podstawowych pojęć słownikowych, stopniowo tworząc między nimi związki, asocjacje. Obecnie [stan na 20 maja 2011 - red.] system rozumie około 614 tys. asocjacji, uczy się w tempie 100 tys. na pół roku. Spróbuję to wytłumaczyć ma przykładzie. Załóżmy, że system ma taką trójkę - hasło „gra_na_instrumencie”, do którego pasuje „muzyk” i „instrument”. I tworzy asocjacje z przykładami tych pojęć, np. hasło „gra_na_instrumencie” skojarzy z parą „John_Lennon”, „gitara”. Z kolei „gra_na_gitarze” to John_Lennon, gitara. System szuka też asocjacji w internecie i może znaleźć, że ktoś gra na pile. Ale czy piła jest instrumentem? Trzeba to jakoś rozstrzygnąć, zapisać w regułach. Tym bardziej, że odpowiedź zależy od kontekstu - jeśli system znajdzie, że ktoś na koncercie grał na pile, to może należy uznać, że to instrument. Ale jeśli takie nagranie pojawi się jako zabawny film na YouTube - niekoniecznie. Inny dylemat - na czym jeszcze można grać? Na nerwach, ale nie jest to gra na instrumencie. Wszystkie te związki są weryfikowane później przez człowieka, obecnie system jest na poziomie precyzji 87 proc., co jest rekordem literaturowym.
Do czego to się może przydać?
Jeśli chodzi o przykład systemu typu RACR, to wystarczy wyobrazić sobie np. system do przygotowania elektronicznego karty pacjenta w szpitalach oraz propozycji diagnozy.
Kiedy pacjent przyjdzie do lekarza i powie co mu dolega, system rozpoznawania głosu zapisze informację w postaci tekstowej, a następnie przekształci do struktur zrozumiałych dla komputera. Pobierze cała historię pacjenta z wielu możliwych źródeł, uporządkuje chronologicznie, usunie duplikujące się wyniki badań. Już ta część jest sporym ułatwieniem, bo lekarz potrzebuje od 10 do 60 minut, aby zrozumieć historie choroby, czasami tracąc ten czas na przedzieranie się przez gryzmoły kolegów.
A system RACR będzie w stanie przeszukać wszystkie możliwe bazy naukowe, wyciągnąć informacje statystyczne, artykuły naukowe z nowymi metodami leczenia, bazy reakcji ludzi na leki, rozważy interferencje możliwych chorób i leków, zanalizuje jak te konteksty mają się do wieku, płci, rasy i ogólnie profilu genetycznego pacjenta i zaproponuje najlepszą metodę leczenia.
Był doktor Watson, będzie doktor House?
To nie będzie jeszcze dr House, bo tam każdy przypadek jest inny, więc system nie miałby się jak uczyć, nie miałby danych, by odkryć precedens. Generalnie system RACR będzie uwzględniał coraz więcej czynników. Odnosząc się do ostatnich wydarzeń - system będzie w stanie analizować z coraz lepszą precyzją przeszłość pacjenta, np. to, że był w Fukushimie w czasie, gdy uderzyło tsunami i być może został napromieniowany.
Wygrana w Jeopardy to show. Ale co w praktyce, w ciągu pięciu czy dziesięciu lat, oznacza pojawienie się Watsona?
Zmniejszenie i to dramatyczne liczby miejsc pracy w dziedzinie przetwarzania danych. I to zarówno w prostych centrach obsługi, jak i w pracy wymagającej głębokiej wiedzy eksperckiej np. wykonywanej przez prawników. Najszybciej może być zagrożony zawód agenta ubezpieczeniowego.
Dlaczego właśnie agenta?
Bo w tym przypadku reguły są najbardziej zamknięte, w odróżnieni od prawa, zwłaszcza polskiego, gdzie przepisy są interpretowane tak, że w zależności od prawnika możemy z jednego przepisu dojść do tez często ze sobą sprzecznych. Ale prawników też ta rewolucja w jakimś stopniu dotknie. Czwartego marca 2011 r. w dzienniku „The New York Times” ukazał się artykuł „Armies of Expensive Lawyers, Replaced by Cheaper Software” [armie drogich prawników zastępowane przez tańsze oprogramowanie]. Podano tam dwa przykłady czegoś, co nazywa się e-discovery. Pod tym pojęciem kryje się wyszukanie i przygotowanie stosownych materiałów niezbędnych do wykonanie określonych zadań potrzebnych w przygotowania dokumentów procesowych. Kiedy w 1978 r. sześć stacji telewizyjnych przygotowywało się do wytoczonego im procesu, sprawdzono 6 milionów dokumentów. Ta analiza kosztowała stacje 2,2 mln dol., głównie na opłacenie pracy ludzi. Dziś firma Blackstone Discovery z Palo Alto analizuje 1,5 mln dokumentów w cenie 100 tys. dol.
Inne narzędzie firmy Autonomy umożliwia jednemu tylko prawnikowi wykonanie e-discovery. Wcześniej trzeba było zaangażować 500 osób.
Twórcy Watsona mówią, że człowieka nie zastąpi, ma być jego asystentem.
W latach osiemdziesiątych powstał na Uniwersytecie w Stanford system Mycin, oparty na 600 regułach (dzisiaj możliwe jest przetwarzanie 80 tys. reguł). Już wówczas, w dość wąskiej specjalizacji, na podstawie wyników badań pacjentów, Mycin lepiej diagnozował choroby niż pracownicy uniwersytetu. Systemu jednak w praktyce nie wdrożono, był zbyt trudny w użyciu. Lekarz musiał w nim odpowiedzieć na wiele pytań, a system nie był zintegrowany z infrastrukturą informatyczno-techniczną szpitala, sensorami, analizatorami, historią choroby zapisaną w karcie pacjenta. Ta sytuacja wkrótce się zmieni.
Zwróćmy uwagę, że Watson wykonuje swoje obliczenia w kilka sekund. Jeśli moglibyśmy czekać na to samo dwie godziny, odpowiedni sprzęt kosztowałby około 30 tys. dol. Ale już za kilka lat nawet w Polsce wielkie szpitale będą sobie mogły pozwolić na Watsona.
Algorytmy będą coraz lepsze, a rozwój sprzętu spowoduje, że systemy będą mogły być używane na coraz to skromniejszych, mniejszych platformach. To wszystko spowoduje głębokie zmiany w zarządzaniu informacją. Jeśli system będzie rozumieć język naturalny, to będzie też w stanie odpowiedzieć na pytania z dowolnej domeny i zdać egzamin teoretyczny z dowolnej dziedziny. Innymi słowy, stanie się teoretycznym ekspertem z danej dziedziny. Proszę sobie wyobrazić Watsona jako specjalistę od ubezpieczeń, albo wrodzonych wad genetycznych. To wszystko nie oznacza jednak, że system, który zdał egzamin dotyczący języka programowania, potrafi w tym języku programować.
To wszystko, czego nie potrafi?
Komputer nie posiada też zdolności osądu, potrzebnego szczególnie w medycynie i dziedzinie prawa, nie mówiąc już o uczuciach. Z drugiej strony warto zauważyć, że w wielu przypadkach nie posiada tej zdolności osądu przeciętny ekspert. W sprawie Olewnika mieliśmy do czynienia ze skierowaniem sprawy przez prokuraturę do wydziału spraw gospodarczych. Zamiast do wydziału ds. walki z przestępczością zorganizowaną!
Jestem przekonany, że psychicznie, i społecznie człowiek musi zacząć się przyzwyczajać, by oddawać kontrolę nad swoim losem komputerom, w sposób automatyczny. Dylematy takie wkrótce staną się ostrzejsze. W dwu dziedzinach: medycynie oraz prawie będzie istniał bardzo duży opór przeciwko autonomicznym systemom zastępującym człowieka.
Trzeba zrozumieć, że Watson - poza pokazówką w telewizji - to początek nowej ery w zastosowaniu komputerów. Ery, która niesie ze sobą dużo niebezpieczeństw. Przede wszystkim jakiś procent pracowników, także z wyższym wykształceniem, strukturalnie straci pracę. Już teraz bardzo wielu ludzi nie rozumie otaczającego ich świata, a obecność „Watsonów” nie poprawi tej sytuacji. Dodajmy, że ten kto będzie miał dostęp do danych oraz zdolności analityczne na najwyższym poziomie, posiądzie bardzo dużą kontrolę nad społeczeństwem. Będą to najsilniejsze państwa, a przede wszystkim firmy globalne. W czasie kryzysu subprime w latach 2007- 2009 w USA niektóre potężne firmy w końca nie rozumiały sytuacji, tak samo jak większość laureatów nagrody Nobla z ekonomii. Ale, pamiętajmy, były wyjątki.
Gdzie w tym wszystkim jest Polska?
Niestety, bardzo daleko. Żaden polski zespół nigdy nie wziął udziału w konkursie TREC
(Text REtrieval Conference), serii warsztatów, podczas których naukowcy mierzą się z zadanymi przez organizatorów problemami dotyczącymi ekstracji informacji. Ani też w kilku innych konkursach o zbliżonej tematyce. Zresztą, o czym tu mówić, skoro w Polsce zmagamy się z dokumentem papierowym, co powoduje dramatyczną nieefektywność administracji publicznej oraz wymiaru sprawiedliwości.
Prof. dr hab. inż. Czesław Jędrzejek jest kierownikiem Zakładu Technologii i Systemów Informatycznych Instytutu Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Zajmuje się semantycznymi systemami analitycznymi z wykorzystaniem metod regułowych.