banner


W czasie Human Language Technology Days 2012 w Instytucie Podstaw Informatyki PAN w Warszawie spotkali się eksperci od technologii językowych i przedstawiciele biznesu.


Technologie językowe tworzone są dziś głównie dla języka angielskiego, przez co inne języki narodowe Europy zostają w tyle. Jak podkreślał w swoim wystąpieniu Hans Uszkoreit, przedstawiciel europejskiej sieci doskonałości META-NET, jeśli nie zbudujemy technologii językowych dla tych języków, mogą one nie przetrwać w erze cyfrowej. Współczesne osiągnięcia lingwistyki komputerowej wykorzystujemy na co dzień, a najnowsze sukcesy związane z automatycznym odpowiadaniem na pytania stawiane w języku naturalnym zaprezentowali przedstawiciele firm IBM i Google.

Włodzimierz Zadrożny z IBM przedstawił plany dotyczące Watsona – słynnego ostatnio systemu, który wygrał w amerykańskim teleturnieju wiedzy Jeopardy z najlepszymi graczami. Watson potrafi odpowiadać na pytania, kojarząc fakty z różnych źródeł. Szef IBM Research ujawnił, że system jest obecnie przygotowywany do zastosowań praktycznych.

Będzie stosowany do odpowiadania na pytania z dziedziny ochrony zdrowia; wkrótce też będzie adaptowany do użycia w dziedzinie rynków finansowych”. Sztuczna inteligencja jest w stanie coraz lepiej analizować teksty specjalistyczne i będzie ułatwiać pracę lekarzy, analityków finansowych, konsultantów w centrach obsługi telefonicznej.

Na pytania stawiane w języku naturalnym coraz lepiej odpowiada także wyszukiwarka Google. Enrique Alfonseca z Google Research przedstawił technikę analizy pytań przy użyciu „grafu wiedzy”, powstałą z analizy wielu baz danych, w tym Wikipedii. Dzięki temu, Google będzie w stanie lepiej przedstawiać wyniki wyszukiwań. Baza zawiera ponad 500 milionów miejsc, osób i rzeczy i przedstawia o nich informacje w sposób optymalny dla użytkownika. Na razie wdrożono te funkcje tylko dla języka angielskiego. Tu aktualne okazują się uwagi Uszkoreita: bez dobrze zaplanowanych badań na skalę europejską nie można liczyć na to, że technologie te będą dostępne we wszystkich językach Europy.
Sieć META-NET taki strategiczny plan zaprezentowała: należy się skupić na tłumaczeniu automatycznym, inteligencji społecznej (narzędziach umożliwiających elektroniczne uczestnictwo w spotkaniach na żywo) i budowie automatycznych asystentów osobistych wyposażonych w inteligencję społeczną.


Od mowy do języka migowego

Drugi dzień konferencji poświęcony był prezentacji polskich zespołów badawczych zajmujących się technologią językową.

Zespół pod kierownictwem prof. Grażyny Demenko (UAM Poznań) opracował system służący do rozpoznawania mowy polskiej, a informatycy z AGH (zespół prof. W. Lubaszewskiego) – system do odnajdywania wyspecjalizowanej informacji w Internecie (który został m. in. sprawdzony w zadaniu wyszukiwania ogłoszeń dotyczących handlu ludzkimi organami – zadanie to zleciła policja).


Prof. Krzysztof Marasek (PJWSTK, Warszawa) przedstawił prace nad systemem, który w czasie rzeczywistym jest w stanie tłumaczyć mowę w różnych językach. Ma to służyć nie tylko porozumiewaniu się między osobami posługującymi się różnymi językami, ale też np. do oglądania telewizji obcojęzycznej (system przedstawia przetłumaczone dźwięki w formie napisów pod obrazem).

Wiele narzędzi służących do przetwarzania tekstu polskiego przedstawili dr Maciej Piasecki (Politechnika Wrocławska) i prof. Adam Przepiórkowski (IPI PAN). Pierwszy opisywał m. in. Słowosieć (polski Wordnet) – ogromny słownik zawierający zbiory synonimów, antonimów i innych wyrazach połączonych wieloma różnymi relacjami znaczeniowymi. Jest to obecnie największy słownik tego rodzaju na świecie. Drugi przedstawił narzędzia opracowywane do przetwarzania tekstu polskiego, m. in. do analizy składniowej, które mogą zostać wykorzystane do badania poprawności gramatycznej tekstu.

Techniki komputerowe mogą służyć także osobom niepełnosprawnym. Wspominaliśmy o rozpoznawaniu mowy i przepisywaniu jej na tekst, co może być wielkim ułatwieniem dla osób niesłyszących. Podobnie tekst pisany można przetwarzać na polski język migowy przy użyciu translatora automatycznego, który opracował zespół z Politechniki Śląskiej.

Polskie ośrodki zajmujące się komputerowym przetwarzaniem języka naturalnego koncentrują się na różnych aspektach polszczyzny. Często tworzą też narzędzia dwujęzyczne, umożliwiające przekład automatyczny lub zasoby wielojęzyczne (w czym specjalizują się eksperci z Uniwersytetu Łódzkiego). Oczywiście, tworzone są też narzędzia dla samych lingwistów, którzy chcieliby automatycznie analizować lub tłumaczyć teksty w różnych językach (projekt PSI-toolkit prof. Krzysztofa Jassema z UAM).