Rozpoznawanie mowy

Rozpoznawanie mowy – technologia pozwalająca komputerowi lub innemu urządzeniu interpretować mowę ludzką, na przykład do celów transkrypcji lub jako alternatywną metodę interakcji.

Dla języka polskiego (stan na rok 2008) dostępne są programy rozpoznające poprawnie 5–9 na 10^[1] wypowiedzianych słów mowy ciągłej (na współczynnik ten, oprócz jakości algorytmu, wpływają m.in. wyrazistość i zrozumiałość mowy). Wartości skuteczności systemów rozpoznawania mowy bardzo zależą od przyjętego scenariusza testu. Dlatego informacje liczbowe, wbrew intuicji, zwykle nie są dobrym odzwierciedleniem jakości takich systemów. Najskuteczniejszą metodą jest porównanie dwóch lub więcej systemów na takim samym scenariuszu testowym. Jakość systemów może jednak także zależeć od tego jak sygnał jest rejestrowany. Przykładowo wiele z systemów oferowanych dla języka polskiego działa dużo gorzej dla sygnału z sieci GSM. Ogólnie należy przyjąć, że rozpoznawanie mowy polskiej działa poprawnie tylko dla pojedynczych słów lub dla ustalonych zbiorów scenariuszy dialogów (stan na marzec 2014). Próg komercyjnej akceptowalności systemów rozpoznawania mowy zwykle przyjmuje się jako 95% poprawności rozpoznania^[2].

Rodzaje rozpoznawania mowy

Pod względem segmentacji rozpoznawanej wypowiedzi^[3]:

rozpoznawanie pojedynczych fonemów (przy przestarzałych systemach, lub dla słów spoza słownika, modelu języka),
rozpoznawanie izolowanych słów (system wymaga znacznych pauz między wypowiadanymi wyrazami),
rozpoznawanie łączonych słów (wymagane bardzo krótkie odstępy między wyrazami),
rozpoznawanie mowy ciągłej (system sam określa segmentację, mowa prawie jak naturalna, ale określona powtarzalnymi regułami jak przy dyktowaniu/czytaniu),
rozpoznawanie mowy spontanicznej (mowa z różnymi naturalnymi cechami jak różnorodna prędkość, głośność wypowiedzi, brak odstępów między wyrazami, różne partykuły wtrącenia nie do końca poprawne, przerwy na zastanawianie się, fragmenty słów, powtórzenia; stopa błędów co najmniej dwukrotnie wyższa niż dla czytania^[4]).

Pod względem czasu odpowiedzi:

rozpoznawanie mowy w czasie rzeczywistym – system podaje wyniki niemal równolegle z pobieraniem, danych wejściowych, za pomocą urządzenia do próbkowania dźwięku (np. karty dźwiękowej z mikrofonem),
transkrypcja zasobów akustycznych, uprzednio zdigitalizowanych do plików, np. celem indeksowania/przeszukiwania.

Pod względem stopnia zależności od mówcy:

zależne od mówcy,
zależne od grupy mówców,
niezależne od mówcy.

Pod względem rozmiaru słownika:

mały słownik – dziesiątki słów (np. rozpoznawanie cyfr),
średni – setki słów,
duży – tysiące słów,
bardzo duży – dziesiątki tysięcy słów (np. dyktowanie).

Historia

1952 – Fonetograf Drayfusa-Grafa, maszyna zapisująca fonemy
1952 – Davis opracował maszynę rozpoznającą zbiór 10 izolowanych wyrazów – cyfr języka angielskiego
1956 – urządzenie Olsona i Belara służące do zapisywania pod dyktando początkowo 10 sylab, a w 1961 roku 100 sylab
1956 – AUDREY – opracowana w firmie Bell maszyna rozpoznająca cyfry
1960 – opracowano metodę rozpoznawania trzech wyrazów języka rosyjskiego (G. I. Cjemiel)^[5]
1962 – IBM zademonstrował maszynę Shoebox rozpoznającą 16 słów języka angielskiego w tym 10 cyfr^[6]
1975 – propozycja systemu Dragon opartego na własnościach procesów Markowa (J. Baker)^[7]
1976 – CMU Harpy, słownik ok. 1000 wyrazów, pierwsze użycie algorytmu BeamSearch, rozpoznawanie mowy łączonej, odpowiedź kilkanaście razy czas rzeczywisty
koniec lat 1970 – badania nad rozpoznawaniem mowy ciągłej o dużym słowniku, jednak nie w czasie rzeczywistym i nie komercyjne (IBM T.J. Watson Research Center)^[8]
lata 1980 – słowniki rzędu kilku-kilkunastu tysięcy wyrazów, upowszechnione zastosowanie HMM
lata 1990 – pierwsze produkty masowej produkcji, słowniki rzędu kilkudziesięciu tysięcy słów, progres w wydajności procesorów umożliwił rozpoznawanie mowy ciągłej
lata 2000 – stosunkowo niewielki postęp w rozwoju technologii (w porównaniu do poprzedzającej dekady)^[9] słowniki rzędu dziesiątek do kilku setek tysięcy słów dla rozwiązań zależnych od rozpoznawanego mówcy; dla mniejszych słowników niezależnie od mówcy,
wrzesień 2010 demonstracja Google Voice Search dla języka polskiego^[10]
2011 – słownik Google dla języka angielskiego zawiera już około miliona różnych słów, model języka trenowany setkami miliardów zapytań^[11]

Trudności implementacyjne i wdrożeniowe

Pomimo wielu osiągnięć problem automatycznego rozpoznawania mowy jest stale daleko od bycia rozwiązanym^[12]. Najbardziej trudnymi do implementacji kwestiami są^[13]:

duża przestrzeń przeszukiwania (z powodu znacznego rozmiaru niezbędnych danych – szczególnie np. dla języków słowiańskich)
odporność na silną zmienność sygnału wejściowego, w wielu wymiarach (np. zmienność mówcy: zmienność realizacji tej samej wypowiedzi w czasie, płeć, anatomia traktu głosowego, dialekt, akcent, styl, emocje, tempo wypowiedzi; zmienność tła/kanału)
rozumienie mowy, reprezentacja wiedzy
uwzględnianie wielu kontekstów np. mowy ciała
rozwiązywanie problemu niejednoznaczności językowych na wielu poziomach (por. homofonia, homonim, przesłyszenie)
segmentacja mowy, rozpoznawanie mowy ciągłej
mowa naturalna/spontaniczna różni się od języka czytanego/pisanego charakterystycznego dla wielu korpusów/modeli
pomijanie zakłóceń sygnału.

Problemy/limity wdrożeniowe^[14]:

zmęczenie użytkownika ciągłym używaniem głosu
wzajemne przeszkadzanie sobie w pomieszczeniu wypełnionym mówiącymi do swoich komputerów; urządzeń
proces myślenia dla wielu ludzi jest blisko związany z mową, więc trudne jest mówienie/słuchanie i rozwiązywanie problemów w tym samym czasie, zaś mówienie i aktywność fizyczna np. chodzenie są kompatybilne. Dzieje się tak dlatego, że przetwarzanie mowy w ludzkim mózgu odbywa się w tym samym obszarze co rozwiązywanie problemów, więc to zachodzi najlepiej w cichym środowisku. By odciążyć tę część mózgu, wybierane jest w wielu przypadkach ręczne sterowanie za pomocą dżojstików, przycisków i przełączników itp.

Koszty obliczeniowo-pamięciowe a jakość algorytmów

Rozmiar problemów uczenia i wyszukiwania, jaki generuje automatyczne rozpoznawanie mowy, jest źródłem wielu kolejnych wyzwań stawianych przed informatyką^[15] (szczególnie problematyczność ta może wzrastać dla języków z wieloma formami gramatycznymi jak np. słowiańskie, a współcześnie dominujące podejście statystyczne powoduje w tych przypadkach ogromne wymagania pamięciowe dla modeli akustycznych i języka^[16]). Pete Warden z Google Brain opisuje demonstracyjny zbiór danych przeznaczony do rozpoznawania mowy o małym słowniku, w którym zebrano nagrania kilkudziesięciu słów, każde z nich wymawiane przez ponad tysiąc mówców co daje gigabajty danych już dla tak ograniczonego słownika^[17].

Obecnie w zastosowaniach komercyjnych dominują algorytmy oparte o wielowarstwowe (20–30 warstw) sieci neuronowe. Gorsze rezultaty osiągnięto za pomocą samych ukrytych modeli Markova (jako że sygnał mowy jest mało deterministyczny, dekoduje się go m.in. algorytmami z zakresu kryptoanalizy^[18] więc dodatkową trudnością może być, ochrona pokrewnych tematów np. ustawami o eksporcie czy obrocie materiałami podwójnego zastosowania, jak ECRA, EAR itp.^[19]^[20]^[21]) – algorytmy tego typu „przewidują” prawdopodobieństwa słów na podstawie znacznych rozmiarów językowych danych statystycznych informujących o możliwych kombinacjach niezbyt dużych kontekstów (por. N-gram). Znaczną liczbę z danych należy wcześniej odrzucić w oparciu o różne kryteria m.in.: dostępne zasoby, złożoność obliczeniowa, miara nieokreśloności(ang.), dlatego stosowane są algorytmy obcinające (ang. pruning) na wielu poziomach: drzew decyzyjnych, modelu języka, przestrzeni przeszukiwania prawdopodobnego słowa dla danej wypowiedzi (np. algorytm beam search(ang.)).

Interpretacja sygnału mowy tylko z pozoru jest łatwa i daje jasno określone kryteria wydzielania jednostek składowych, w rzeczywistości jest mało deterministyczna, a wysoce zależna od szerszego kontekstu (na każdym kolejnym poziomie)^[22]. Chodzi tu oczywiście głównie o algorytmy rozpoznawania mowy spontanicznej, a także ciągłej, które dawałyby wyniki porównywalne ze „zdolnościami ludzkimi” (na marginesie można dodać, że dla specyficznych kryteriów udało się uzyskać „nad-ludzkie”^[23] wyniki), ogólnie algorytmy te (o bardzo dużym słowniku, działające w czasie rzeczywistym) wymagają znacznej mocy obliczeniowej i pamięci komputerowej o dużej pojemności (stan na rok 2012, szczególnie w trakcie uczenia, dostrajania)^[24]^[25]. Ma to miejsce z powodu powolnego spadku stopy błędów (WER) w zależności od znacznego wzrostu rozmiaru modelu języka^[26]. W wymaganiach systemowych produktów spotyka się sformułowanie: im więcej pamięci komputerowej tym lepiej^[27] dla wydajności, tym większy model języka, wymagania te rosną z kolejnymi wersjami wraz ze wzrostem zasobów sprzętowych możliwych do wykorzystania. Od 2014 roku prace idą w kierunku ograniczenia statystycznych modeli języka (na rzecz większej uwagi co do modeli akustycznych i wymowy – model LAS ang. „Listen, Attend and Spell”)^[28], gdyż są one niepraktyczne w rozwiązaniach mobilnych, ale nie bazujących na zewnętrznym serwerze czy chmurze.

Model języka służy do ukierunkowywania przeszukiwania, ogranicza więc jego złożoność obliczeniową (co oczywiście może skutkować spadkiem jakości i utratą optymalnych rozwiązań w mniej lokalnym sensie). Zasoby zajmowane rosną szczególnie w fazie trenowania modeli i algorytmów (tysiące godzin nagrań transkrybowanej mowy)^[25]. Stosunkowo nowym podejściem jest model języka oparty na metodzie pamięci podręcznej, który umożliwia stopniowe przełączanie się modelu w bardziej lokalny kontekst (dla dużych słowników/kontekstów różnice między słowami na poziomie akustycznym są często zaniedbywalnie małe)^[29]. Duże korpusy dla modeli akustyczno-językowych mają zwykle restrykcyjne licencje, aby ułatwić rozwój rozwiązań otwartych powstał projekt VoxForge^[30] oraz Common Voice^[31].

Innym rozwiązaniem wspomnianych problemów są systemy jedno-dziedzinowe o odpowiednio dostrojonym słowniku/modelu języka. Często także użytkownik ma możliwość dopasowania parametrów do danego ograniczonego zastosowania poprzez moduły uczenia maszynowego. W telefonach komórkowych (i nie tylko, np. także w przeglądarce Google Chrome^[32]/Chromium) nierzadko stosuje się również wysyłanie wstępnie przetworzonych danych do pomocniczej obróbki na serwerze zewnętrznym^[33], niedogodność jest niezauważalna dla użytkownika, jednak w przyszłości wraz ze wzrostem wydajności sprzętowej i ulepszaniem algorytmów może pojawić się więcej używalnych rozwiązań po stronie klienta np. specyfikacja W3C Web Speech API nie ogranicza rozpoznawania mowy jedynie do trybu po stronie serwera^[34].

Na temat ograniczeń modeli czysto statystycznych języka naturalnego zobacz np. w artykule: Noam Chomsky, językoznawstwo, z drugiej strony okazuje się, że często wystarcza samo podejście statystyczne „brute force”, czyli im więcej danych pozyska się dla modelu języka tym system wyszukiwania/rozpoznawania okazuje się być „inteligentniejszy”, mniej (ale także) zależąc od jakości i algorytmów^[35]^[36]^[37] (jakość obniża się często celowo np. poprzez stosowanie wspomnianych powyżej heurystyk obcinania by uzyskać akceptowalny czas odpowiedzi, przechodząc z podejścia dynamicznego w kierunku przypominającego algorytm zachłanny^[38]). Użyteczność metod o dużym modelu języka wyjaśniałyby rozważania psychologiczne już z końca XIX wieku, które wykazały, że ludzka zdolność rozpoznawania mowy opiera się na pamięci o bardzo szerokim kontekście, zaś same dźwięki niosą trudną do zidentyfikowania informacje, to co się usłyszy jest dopiero uzupełniane w znacznym stopniu treścią z własnej pamięci^[39] (zobacz też apercepcja). Obecnie w badaniu uczenia się ludzkiego, także przywiązuje się wagę do faktu, iż nowo pozyskana/usłyszana informacja słowna (w rozpoznawaniu mowy na poziomie cech akustycznych) może często powodować znaczną modyfikację dotychczasowego modelu, więc nie może być dla człowieka całkowicie pomijalna (chodzi o zachowanie równowagi między tymi dwoma trybami por. Jean Piaget). W przyszłości pozostaje więc do spełnienia ważna rola dla coraz bardziej wyszukanych algorytmów uczenia maszynowego stosowanych w rozpoznawaniu mowy^[12] także na poziomie ekstrakcji cech akustycznych.

Algorytmy i modele

ukryte modele Markowa (HMM, zob. też: łańcuch Markowa)
N-gram
algorytm Viterbiego
sieci neuronowe (często jako metoda hybrydowa z modelami Markowa)
dynamiczne sieci Bayesa
analiza cepstralna i mel-cepstralna (zob. też: psychoakustyka)
transformata Fouriera
nieliniowa transformacja czasowa DTW

Zastosowania

Sterowanie – dedykowane silniki nie wymagają zaawansowanych cech jak przełączanie kontekstu, a z racji kilku/kilkunastowyrazowych słowników nie występuje tu problem ujednoznaczniania w środowiskach, w których sygnał mowy jest zakłócony, dlatego też wymagają one znacznie mniej zasobów niż algorytmy rozpoznawania mowy ciągłej.
- w przypadku komputera PC – posiadającego różnorodne kanały komunikacji z użytkownikiem – sterowanie głosem wykorzystywane jest najczęściej przez osoby niepełnosprawne, dla których inne interfejsy interakcji z urządzeniem są niedostępne,
- w urządzeniach – o znacznej miniaturyzacji, przez co ubogich w interfejsy interakcji – proste polecenia głosowe znacznie uefektywniają ich obsługę.
Transkrypcja mowa ciągła-tekst – algorytmy:
- dziedzinowe – o ograniczonym słowniku,
- całościowe – bardziej zaawansowane.
Mówione systemy dialogowe – interfejsy głosowe działające w sposób naturalny dla człowieka, a nie w oparciu o ustalone możliwe opcje.
Translacja pomiędzy językami naturalnymi (ang. speech-to-speech) np. komunikatów głosowych przydatnych w podróży^[40].

Zastosowania dla przedsiębiorstw

Technologie rozpoznawania mowy znalazły praktyczne zastosowanie w telefonicznych biurach obsługi klienta, gdzie zachodzi konieczność obsługi kilkudziesięciu tysięcy dzwoniących na godzinę. Banki, firmy branży informatycznej czy telekomunikacyjnej coraz częściej inwestują w nowoczesne narzędzia oferujące zoptymalizowaną obsługę oraz pozwalające na wzrost zadowolenia klienta. Jednym z takich rozwiązań jest sterowania głosem (ang. Call Steering) w systemie zapowiedzi głosowych IVR. Sterowanie głosem oparte na rozumieniu języka naturalnego przez komputer ułatwia konsumentom komunikowanie się z właściwym operatorem w biurze obsługi. Po zadaniu standardowego pytania „W czym możemy pomóc?” dzwoniący opisuje problem własnymi słowami, bez potrzeby wybierania z rozbudowanego menu kontaktów czy dopasowywania pytania do listy wcześniej zdefiniowanych opcji. Przyspiesza to obsługę klientów, ogranicza liczbę niepoprawnie przekierowanych połączeń oraz prowadzi do wyższego poziomu automatyzacji systemu obsługi IVR poprzez szybkie łączenie dzwoniących z usługą, której potrzebują. Funkcje rozpoznawania naturalnej mowy oraz rozumienia języka naturalnego (NLU) zostały już wdrożone w wielu biurach obsługi klienta na świecie, jak i w Polsce.

Standaryzacje międzynarodowe

Trwają prace standaryzacyjne jednolitych interfejsów programistycznych (API) oraz języków opisu danych wejściowych dla silników rozpoznawania mowy. Następujące instytucje opracowują własne rozwiązania w tym zakresie, w nawiasach podano numer aktualnej wersji oraz rok wydania.

Microsoft:

SAPI – interfejs programistyczny (5.3 z r. 2005 – w Longhorn, oficjalne wydanie 2006/2007 – w Microsoft Windows Vista)

Sun Microsystems:

JSAPI – interfejs programistyczny (1.0 z r. 1998, wersję 2.0 zatwierdzono w maju 2008^[41])
JSGF – język specyfikacji gramatyki

W3C:

Web Speech API – specyfikacja rozszerzeń HTML i JavaScript pod kątem wprowadzania głosowego – 19 10 2012,
PLS – język specyfikacji wymowy (1.0 oczekuje na zatwierdzenie),
VoiceXML – język specyfikacji dialogu głosowego człowiek-komputer (2.1 z r. 2007),
SISR – język semantycznego znakowania gramatyki (1.0 z r. 200),
SRGS – język specyfikacji gramatyki (oparty na XML lub BNF) (1.0 z r. 2004),
SLM(N-gram)S – język specyfikacji stochastyczengo modelu języka (roboczy szkic z r. 2001),
NLSML – język specyfikacji interpretacji semantycznej mowy (1.0-beta z r. 2000).