HAKIA - parę miesięcy po premierze.
Czy używaliście już HAKII, żeby znaleźć informację w sieci?
Hakii, czyli wyszukiwarki, która, zgodnie z deklaracjami twórców, ma zrewolucjonizować podejście do wyszukiwania informacji i przejąć (chyba jeszcze w 2007 roku) ok. 20 % rynku wyszukiwarek? Wyszukiwarki, która ma rozumieć znaczenie naszych pytań i treści stron internetowych?
Hakia wystartowała ze swoją wersją Beta w listopadzie ubiegłego roku. Z założenia, realizuje ona ideę semantycznego przeszukiwania sieci: wyszukiwarka ma zrozumieć nasze pytanie i znaleźć na nie odpowiedzi.
Wygląda to tak, że, gdy postawimy pytanie “ile osób mieszka w Polsce?”, powinniśmy otrzymać wśród wyników strony, na których znajduje się odpowiedź na postawione pytanie, a nie listę stron, na których pojawiają się wymienione w zapytaniu terminy. W podanych wynikach wyszukiwania Hakia wyróżnia kolorem znaczeniowo odpowiadające zapytaniu fragmenty tekstu. Jeszcze wcześniej zaś podsuwa nam gotowe odpowiedzi a nie tylko odnośniki do stron internetowych.
W Hakii zastosowanie znalazła teoria tzw. semantyki ontologicznej Victora Raskina: jedna z prób zbudowania “nici porozumienia” między człowiekiem a komputerem (próba, dodajmy, która jest realizowana w kilku poważnych projektach z dziedziny badań nad sztuczną inteligencją, systemami przekładu maszynowego itp.). Ogólnie rzecz biorąc, jest to idea budowania modelu reprezentacji dla wyrażanych w językach naturalnych różnego rodzaju i różnych stopni ogólności pojęć i zdań oraz relacji między pojęciami. Model takiej “ontologii” powinien mieć swój język formalny, który byłby kodem przedstawiającym ten skonstruowany świat w sposób zrozumiały dla komputerów. Dopełnieniem pozwalającym na zastosowanie zbudowanego modelu byłyby moduły interpretujące np. zadane w języku naturalnym pytanie w modelu skonstruowanej ontologii a potem przetwarzające je na zrozumiały dla komputera język formalny a następnie zwracające wyniki w języku naturalnym.
O wyszukiwarce HAKIA zrobiło się w Polsce głośno po artykule w Gazecie Wyborczej, w którym w kilku słowach wyjaśniono zasadę działania Hakii i poinformowano o planach przejęcia przez nią dużej części rynku wyszukiwarek oraz o zaangażowaniu w ten projekt Prokomu. Komentarze, które można znaleźć na polskich forach dyskusyjnych i blogach po uruchomieniu wersji beta tej wyszukiwarki, są raczej krytyczne. Krytycy zwracają uwagę na trudności związane z np. brakiem odpowiedniego modelu komputerowego języka polskiego, problemami ze zbudowaniem odpowiedniej infrastruktury wymagającej gigantycznych nakładów finansowych a także - co bynajmniej nie jest pozbawione znaczenia - na trudności związane z głęboko już zakorzenionymi przyzwyczajeniami użytkowników sieci: trudno sobie wyobrazić, żeby znacząca część użytkowników sieci zaczęła nagle zadawać wyszukiwarkom pełne pytania zamiast wpisywać listę słów kluczowych. Zdaniem krytyków, jeśli idea wyszukiwania semantycznego miałaby już szansę realizacji, to zajęłaby się tym firma Google: w końcu to produkt Google - Google Translate - został w 2006 roku uznany przez amerykański National Institute of Standards and Technology za najlepszy system przekładu maszynowego. Można zatem sądzić, że prace nad komputerowym przetwarzaniem języka naturalnego są w Google dość zaawansowane. Niewątpliwie Google nie musi też budować od nowa całej infrastruktury.
Zwolennicy nowej wyszukiwarki zwracają zaś uwagę na to, że dzięki Hakii nie będzie konieczne skracanie zapytania do kilku słów kluczowych (mi się to nie wydaje utrudnieniem a wręcz przeciwnie…) i - również dość ogólnie - na potrzebę przezwyciężenia dominacji jednej wyszukiwarki.
Czy HAKIA, z której można korzystać już od dobrych kilku miesięcy jest wyszukiwarką, która mogłaby - przynajmniej w niektórych sytuacjach - dawać wyniki wyszukiwania lepsze niż Google? A może przynajmniej korzystanie z niej mogłoby być wygodniejsze niż z tradycyjnych wyszukiwarek? Można by spróbować przeprowadzić mały test, przy uwzględnieniu kilku ważnych okoliczności:
- próbując porównać wyniki z Google, postaramy się formułować zapytanie w sposób odpowiedni dla badanej wyszukiwarki
- wyniki w języku polskim mogą być niesatysfakcjonujące nie dlatego, że wyszukiwarka jest do niczego, ale dlatego że nie ma jeszcze pełnej obsługi języka polskiego
- twórcy Hakii deklarują, że Hakia będzie znakomitym wsparciem dla naukowców i biznesmenów, że będzie znakomitym narzędziem do poszukiwania odpowiedzi na złożone zapytania biznesowe i naukowe - nasz test będzie musiał zatem objąć także “pytania naukowe” a nie tylko “życiowe”.
- szukanie stron internetowych określonych firm lub instytucji nie wymaga używania wyszukiwarki, która “rozumie” pytanie; warto jednak spróbować, żeby sprawdzić, czy taka prosta funkcja jest spełniana przez Hakię w satysfakcjonujący sposób.
1. Jak używać ekspresu La Pavoni Europiccola?
Nie jest to proste, w ekspresie tym nie wystarczy nacisnięcie odpowiedniego przycisku, żeby otrzymać świetne espresso. Jest to ekspres ciśnieniowy ręczny - przed zakupem warto zmierzyć siły na zamiary, przejrzeć instrukcję obsługi, opinie użytkowników i zastanowić się, czy jesteśmy w stanie nauczyć się go obsługiwać.
Zadajemy Hakii pytanie: How to use La Pavoni Europiccola? i… otrzymujemy niezbyt satysfakcjonującą odpowiedź: przeważają oferty handlowe i ogólne informacje o przygotowywaniu espresso. Drobne przekształcenia zapytania nie pomagają.
Zadajemy pytanie w Google: Europiccola Manual Instruction - na pierwszej stronie (a nawet na pierwszym miejscu) otrzymujemy dokładnie to, czego szukamy - instrukcja w pdf. Potem są różnego rodzaju porady
Jednak fraza: “manual instruction for europiccola” daje także w Hakii rezultaty dość dobre, aczkolwiek nie aż tak dobre, jak w Google.
2. Kto jest premierem Węgier?
Na pytanie “Who is the prime minister of Hungary?” Hakia odpowiedziała mi listą stron o populacji Węgier, geografii Węgier, gospodarce Węgier i na czwartym miejscu - rządzie Węgier. Po tym pytaniu, o cokolwiek odnośnie Węgier nie zapytałem, otrzymywałem na pierwszej stronie baaardzo długą listę tematów związanych z Węgrami. Trzeba było zatem listę wyników wyszukiwania przeszukać…
Jak się zapewne domyślacie odnalezienie takiej informacji przy pomocy Google nie stanowi problemu.
3. Wycieczka w góry Retezat…
Załóżmy, że planujemy wakacje. Chcemy najpierw zdobyć ogólne rozeznanie na temat gór w Rumunii - aktualnie poszukujemy ogólnych informacji o możliwości wyjazdu w góry Retezat.
W obu wyszukiwarkach otrzymujemy na hasło “hiking in Retezat“/”hiking Retezat” na początku dość podobne wyniki - raczej satysfakcjonujące. W bardziej odległych wynikach też raczej nie ma wpadek. Skłonny jestem uznać nawet, że bardziej odpowiednie na początku są wyniki w Hakii. Jednak Google daje większą ilość rezultatów, które zawierają informacje poboczne, aczkolwiek potencjalnie przydatne.
4. What is the rate of unemployment in France?
Hakia, owszem, podaje informację, która jest dobrą odpowiedzią na pytanie, ale lista stron, które podaje niżej… powiedziałbym, że ma dość przypadkowy związek z pytaniem. Zwróćcie uwagę, jakie frazy Hakia podkreśliła, jako wyrażenia znaczeniowo związane z postawionym pytaniem (kliknij, żeby obejrzeć).
Zapytanie: unemployment in France albo unemployment France - zarówno w Google jak i Hakii, daje wyniki satysfakcjonujące. Dostajemy linki do różnego rodzaju artykułów i raportów dotyczących przyczyn i struktury bezrobocia we Francji.
5. Manufacturer of food pumps in Poland
Szukanie takiej fabryki przy pomocy wyszukiwarek nie jest najszczęśliwszym pomysłem, ale może właśnie o to chodziło twórcom Hakii, gdy pisali, że Hakia będzie odpowiadać na pytania gospodarcze?
W każdym razie, wiemy, że istnieją w Polsce fabryki pomp spożywczych. Hakia ich nie odnajdzie: jako odpowiedniki wyrażenia w zapytaniu (ew. wyrażenia nieco zmodyfikowanego, skróconego, ze zmienionym szykiem itp.) pojawiają się: Food Grinder Manufacturers and Food Grinder Supplier - producenci z Azji, Food Processor Manufacturers and Food Processor Supplier - znów z Azji, Natural Food Colour, China suppliers manufacturer supply food machinery itp.
Google także nie daje odpowiednich wyników (tzn. linków do stron producentów), ale daje przynajmniej linki do katalogów firm.
5. Niezbyt skomplikowane pytanie naukowe.
Jak brzmi słynne twierdzenie o niezupełności Gödla?
Pytanie: Gödel’s incompleteness theorem daje w Hakii wyniki niezbyt satysfakcjonujące: na przykład prędzej pojawia się w wynikach link do hasła Tarski’s theorem w Wikipedii, niż do bardziej właściwego Gödel’s theorem. Pierwsze wyniki nie są najbardziej odpowiednie - powiedziałbym, że wręcz przeciwnie: raczej przypadkowe. Pierwsze pozycje na liście wyników zawierają faktycznie hasło “Gödel’s incompleteness theorem” ale strony te nie są bynajmniej poświęcone temu twierdzeniu: raczej nie dowiemy się z nich, jaka jest treść twierdzenia Gödla, jakie są jego konsekwencje i jak wygląda dowód. Po prostu pojawiała się na nich tylko wzmianka o twierdzeniu Gödla.
W dokładnie taki sam sposób zadane pytanie w Google daje dużo lepsze wyniki.
6. Strona internetowa: firma Spomasz Zamość SA, Uniwersytet Opolski, Wydawnictwo Harvard University Press
- Tylko pośrednio w Hakii możemy wpaść na stronę firmy Spomasz Zamość - przez informację na stronach sponsorowanej drużyny piłkarskiej, katalog internetowy itp. W Google (oczywiście korzystamy z Google.com) na pierwszym miejscu.
- Hakia - na pierwszej stronie brak linku do Uniwersytetu Opolskiego. Informacje ogólnie mało ciekawe. Nie ma problemu w Google.
- Harvard University Press w Hakii na piątym miejscu, wcześniej dwukrotnie ta sama strona w Wikipedii i dwie inne strony. W Google znów pierwsze miejsce.
Dobrze działająca wyszukiwarka powinna - moim zdaniem - działać tak:
- przy dość prostym pytaniu powinniśmy otrzymać na pierwszych stronach tylko adekwatne do zapytania odpowiedzi
- ważniejsze wyniki powinny pojawiać się na początku listy
- na liście efektów wyszukiwania otrzymamy znaczącą część istotnych z punktu widzenia naszego problemu wyników.
Hakia tych warunków nie spełnia.
Hakia daje czasami na tyle odmienne rezultaty od wyszukiwarki Google (nawet przy identycznie sformułowanym zapytaniu), że mogłaby być póki co jej (czasem całkiem przydatnym) uzupełnieniem. Przyczyny zróżnicowania wyników niestety nie rozumiem - wydaje się ono wręcz zupełnie przypadkowe, tak jak zupełnie przypadkowe wydaje się często wyróżnienie kolorem fragmentu tekstu, jako odpowiedzi na nasze zapytanie lub jako znaczeniowego odpowiednika frazy w zapytaniu. Zgadzam się z niektórymi krytykami Hakii, że podłożem braku jej skuteczności jest i pewnie jeszcze długo będzie niedopracowanie stosowanej metody semantycznej analizy języków naturalnych.
Czy jednak wyszukiwanie semantyczne ma w ogóle przyszłość? Jestem przekonany, że tak, ale mam poważne wątpliwości, czy Hakia ma przyszłość.








Artur Machlarz



By Beny, listopad 20, 2008 @ 1:42 pm
Mamy listopad 2008 i o Hakii nadal cichutko…….
Jednak matematyka w IT nadal rządzi niepodzielnie (Google etc), a nie jakieś tam rozmyte logiki czy też ontologiczne semantyki.
By Artur Machlarz, listopad 29, 2008 @ 6:46 pm
O Hakii bardzo cichutko nie jest, część marketingowa działa całkiem sprawnie :). No ale fakt, że Hakia nie znalazła - i jak sądzę nie znajdzie - powszechnego uznania, bo i w sumie nie ma się nad czym zachwycać.
A semantyki ontologiczne w gruncie rzeczy mogą być bardzo przydatne - wbrew temu, co mi się niegdyś wydawało. Rozwój sieci semantycznej jest oparty na tych semantykach i na logikach deskrypcyjnych. Teraz już trudno sobie wyobrazić, że można by próbować zacząć od nowa na bazie innej teorii semantycznej. A sieć semantyczna mimo, że nadal uboga, działa. Bardzo słabą stroną Hakii jest zastosowanie semantyki ontologicznej do interpretacji wyrażeń języka naturalnego. Problem Hakii to zresztą problem większości teorii semantycznych: problem metody opisu relacji między modelem interpretacji a różnorodnymi metodami wyrażania znaczeń w językach. Jak się jednak próbuje od zewnątrz “wyłowić” znaczenie tekstu, trzeba taką metodę mieć. Metoda Hakii jest zaś bardzo mało obiecująca. Można o niej poczytać na stronach Hakii.
Zastosowanie semantyki ontologicznej do opisu zawartości stron internetowych działa inaczej. Odpada problem rekonstrukcji znaczeń z wyrażeń języka naturalnego.