Rozpoznawanie mowy

Rozpoznawanie mowy – technologia pozwalająca komputerowi lub innemu urządzeniu interpretować mowę ludzką, na przykład do celów transkrypcji lub jako alternatywną metodę interakcji.

Dla języka polskiego (stan na rok 2008) dostępne są programy rozpoznające poprawnie 5–9 na 10[1] wypowiedzianych słów mowy ciągłej (na współczynnik ten, oprócz jakości algorytmu, wpływają m.in. wyrazistość i zrozumiałość mowy). Wartości skuteczności systemów rozpoznawania mowy bardzo zależą od przyjętego scenariusza testu. Dlatego informacje liczbowe, wbrew intuicji, zwykle nie są dobrym odzwierciedleniem jakości takich systemów. Najskuteczniejszą metodą jest porównanie dwóch lub więcej systemów na takim samym scenariuszu testowym. Jakość systemów może jednak także zależeć od tego jak sygnał jest rejestrowany. Przykładowo wiele z systemów oferowanych dla języka polskiego działa dużo gorzej dla sygnału z sieci GSM. Ogólnie należy przyjąć, że rozpoznawanie mowy polskiej działa poprawnie tylko dla pojedynczych słów lub dla ustalonych zbiorów scenariuszy dialogów (stan na marzec 2014). Próg komercyjnej akceptowalności systemów rozpoznawania mowy zwykle przyjmuje się jako 95% poprawności rozpoznania[2].

Rodzaje rozpoznawania mowy

Pod względem segmentacji rozpoznawanej wypowiedzi[3]:

  • rozpoznawanie pojedynczych fonemów (przy przestarzałych systemach, lub dla słów spoza słownika, modelu języka),
  • rozpoznawanie izolowanych słów (system wymaga znacznych pauz między wypowiadanymi wyrazami),
  • rozpoznawanie łączonych słów (wymagane bardzo krótkie odstępy między wyrazami),
  • rozpoznawanie mowy ciągłej (system sam określa segmentację, mowa prawie jak naturalna, ale określona powtarzalnymi regułami jak przy dyktowaniu/czytaniu),
  • rozpoznawanie mowy spontanicznej (mowa z różnymi naturalnymi cechami jak różnorodna prędkość, głośność wypowiedzi, brak odstępów między wyrazami, różne partykuły wtrącenia nie do końca poprawne, przerwy na zastanawianie się, fragmenty słów, powtórzenia; stopa błędów co najmniej dwukrotnie wyższa niż dla czytania[4]).

Pod względem czasu odpowiedzi:

  • rozpoznawanie mowy w czasie rzeczywistym – system podaje wyniki niemal równolegle z pobieraniem, danych wejściowych, za pomocą urządzenia do próbkowania dźwięku (np. karty dźwiękowej z mikrofonem),
  • transkrypcja zasobów akustycznych, uprzednio zdigitalizowanych do plików, np. celem indeksowania/przeszukiwania.

Pod względem stopnia zależności od mówcy:

  • zależne od mówcy,
  • zależne od grupy mówców,
  • niezależne od mówcy.

Pod względem rozmiaru słownika:

  • mały słownik – dziesiątki słów (np. rozpoznawanie cyfr),
  • średni – setki słów,
  • duży – tysiące słów,
  • bardzo duży – dziesiątki tysięcy słów (np. dyktowanie).

Historia

  • 1952 – Fonetograf Drayfusa-Grafa, maszyna zapisująca fonemy
  • 1952 – Davis opracował maszynę rozpoznającą zbiór 10 izolowanych wyrazów – cyfr języka angielskiego
  • 1956 – urządzenie Olsona i Belara służące do zapisywania pod dyktando początkowo 10 sylab, a w 1961 roku 100 sylab
  • 1956 – AUDREY – opracowana w firmie Bell maszyna rozpoznająca cyfry
  • 1960 – opracowano metodę rozpoznawania trzech wyrazów języka rosyjskiego (G. I. Cjemiel)[5]
  • 1962 – IBM zademonstrował maszynę Shoebox rozpoznającą 16 słów języka angielskiego w tym 10 cyfr[6]
  • 1975 – propozycja systemu Dragon opartego na własnościach procesów Markowa (J. Baker)[7]
  • 1976 – CMU Harpy, słownik ok. 1000 wyrazów, pierwsze użycie algorytmu BeamSearch, rozpoznawanie mowy łączonej, odpowiedź kilkanaście razy czas rzeczywisty
  • koniec lat 1970 – badania nad rozpoznawaniem mowy ciągłej o dużym słowniku, jednak nie w czasie rzeczywistym i nie komercyjne (IBM T.J. Watson Research Center)[8]
  • lata 1980 – słowniki rzędu kilku-kilkunastu tysięcy wyrazów, upowszechnione zastosowanie HMM
  • lata 1990 – pierwsze produkty masowej produkcji, słowniki rzędu kilkudziesięciu tysięcy słów, progres w wydajności procesorów umożliwił rozpoznawanie mowy ciągłej
  • lata 2000 – stosunkowo niewielki postęp w rozwoju technologii (w porównaniu do poprzedzającej dekady)[9] słowniki rzędu dziesiątek do kilku setek tysięcy słów dla rozwiązań zależnych od rozpoznawanego mówcy; dla mniejszych słowników niezależnie od mówcy,
  • wrzesień 2010 demonstracja Google Voice Search dla języka polskiego[10]
  • 2011 – słownik Google dla języka angielskiego zawiera już około miliona różnych słów, model języka trenowany setkami miliardów zapytań[11]

Trudności implementacyjne i wdrożeniowe

Pomimo wielu osiągnięć problem automatycznego rozpoznawania mowy jest stale daleko od bycia rozwiązanym[12]. Najbardziej trudnymi do implementacji kwestiami są[13]:

  • duża przestrzeń przeszukiwania (z powodu znacznego rozmiaru niezbędnych danych – szczególnie np. dla języków słowiańskich)
  • odporność na silną zmienność sygnału wejściowego, w wielu wymiarach (np. zmienność mówcy: zmienność realizacji tej samej wypowiedzi w czasie, płeć, anatomia traktu głosowego, dialekt, akcent, styl, emocje, tempo wypowiedzi; zmienność tła/kanału)
  • rozumienie mowy, reprezentacja wiedzy
  • uwzględnianie wielu kontekstów np. mowy ciała
  • rozwiązywanie problemu niejednoznaczności językowych na wielu poziomach (por. homofonia, homonim, przesłyszenie)
  • segmentacja mowy, rozpoznawanie mowy ciągłej
  • mowa naturalna/spontaniczna różni się od języka czytanego/pisanego charakterystycznego dla wielu korpusów/modeli
  • pomijanie zakłóceń sygnału.

Problemy/limity wdrożeniowe[14]:

  • zmęczenie użytkownika ciągłym używaniem głosu
  • wzajemne przeszkadzanie sobie w pomieszczeniu wypełnionym mówiącymi do swoich komputerów; urządzeń
  • proces myślenia dla wielu ludzi jest blisko związany z mową, więc trudne jest mówienie/słuchanie i rozwiązywanie problemów w tym samym czasie, zaś mówienie i aktywność fizyczna np. chodzenie są kompatybilne. Dzieje się tak dlatego, że przetwarzanie mowy w ludzkim mózgu odbywa się w tym samym obszarze co rozwiązywanie problemów, więc to zachodzi najlepiej w cichym środowisku. By odciążyć tę część mózgu, wybierane jest w wielu przypadkach ręczne sterowanie za pomocą dżojstików, przycisków i przełączników itp.

Koszty obliczeniowo-pamięciowe a jakość algorytmów

Rozmiar problemów uczenia i wyszukiwania, jaki generuje automatyczne rozpoznawanie mowy, jest źródłem wielu kolejnych wyzwań stawianych przed informatyką[15] (szczególnie problematyczność ta może wzrastać dla języków z wieloma formami gramatycznymi jak np. słowiańskie, a współcześnie dominujące podejście statystyczne powoduje w tych przypadkach ogromne wymagania pamięciowe dla modeli akustycznych i języka[16]). Pete Warden z Google Brain opisuje demonstracyjny zbiór danych przeznaczony do rozpoznawania mowy o małym słowniku, w którym zebrano nagrania kilkudziesięciu słów, każde z nich wymawiane przez ponad tysiąc mówców co daje gigabajty danych już dla tak ograniczonego słownika[17].

Obecnie w zastosowaniach komercyjnych dominują algorytmy oparte o wielowarstwowe (20–30 warstw) sieci neuronowe. Gorsze rezultaty osiągnięto za pomocą samych ukrytych modeli Markova (jako że sygnał mowy jest mało deterministyczny, dekoduje się go m.in. algorytmami z zakresu kryptoanalizy[18] więc dodatkową trudnością może być, ochrona pokrewnych tematów np. ustawami o eksporcie czy obrocie materiałami podwójnego zastosowania, jak ECRA, EAR itp.[19][20][21]) – algorytmy tego typu „przewidują” prawdopodobieństwa słów na podstawie znacznych rozmiarów językowych danych statystycznych informujących o możliwych kombinacjach niezbyt dużych kontekstów (por. N-gram). Znaczną liczbę z danych należy wcześniej odrzucić w oparciu o różne kryteria m.in.: dostępne zasoby, złożoność obliczeniowa, miara nieokreśloności(ang.), dlatego stosowane są algorytmy obcinające (ang. pruning) na wielu poziomach: drzew decyzyjnych, modelu języka, przestrzeni przeszukiwania prawdopodobnego słowa dla danej wypowiedzi (np. algorytm beam search(ang.)).

Interpretacja sygnału mowy tylko z pozoru jest łatwa i daje jasno określone kryteria wydzielania jednostek składowych, w rzeczywistości jest mało deterministyczna, a wysoce zależna od szerszego kontekstu (na każdym kolejnym poziomie)[22]. Chodzi tu oczywiście głównie o algorytmy rozpoznawania mowy spontanicznej, a także ciągłej, które dawałyby wyniki porównywalne ze „zdolnościami ludzkimi” (na marginesie można dodać, że dla specyficznych kryteriów udało się uzyskać „nad-ludzkie”[23] wyniki), ogólnie algorytmy te (o bardzo dużym słowniku, działające w czasie rzeczywistym) wymagają znacznej mocy obliczeniowej i pamięci komputerowej o dużej pojemności (stan na rok 2012, szczególnie w trakcie uczenia, dostrajania)[24][25]. Ma to miejsce z powodu powolnego spadku stopy błędów (WER) w zależności od znacznego wzrostu rozmiaru modelu języka[26]. W wymaganiach systemowych produktów spotyka się sformułowanie: im więcej pamięci komputerowej tym lepiej[27] dla wydajności, tym większy model języka, wymagania te rosną z kolejnymi wersjami wraz ze wzrostem zasobów sprzętowych możliwych do wykorzystania. Od 2014 roku prace idą w kierunku ograniczenia statystycznych modeli języka (na rzecz większej uwagi co do modeli akustycznych i wymowy – model LAS ang. „Listen, Attend and Spell”)[28], gdyż są one niepraktyczne w rozwiązaniach mobilnych, ale nie bazujących na zewnętrznym serwerze czy chmurze.

Model języka służy do ukierunkowywania przeszukiwania, ogranicza więc jego złożoność obliczeniową (co oczywiście może skutkować spadkiem jakości i utratą optymalnych rozwiązań w mniej lokalnym sensie). Zasoby zajmowane rosną szczególnie w fazie trenowania modeli i algorytmów (tysiące godzin nagrań transkrybowanej mowy)[25]. Stosunkowo nowym podejściem jest model języka oparty na metodzie pamięci podręcznej, który umożliwia stopniowe przełączanie się modelu w bardziej lokalny kontekst (dla dużych słowników/kontekstów różnice między słowami na poziomie akustycznym są często zaniedbywalnie małe)[29]. Duże korpusy dla modeli akustyczno-językowych mają zwykle restrykcyjne licencje, aby ułatwić rozwój rozwiązań otwartych powstał projekt VoxForge[30] oraz Common Voice[31].

Innym rozwiązaniem wspomnianych problemów są systemy jedno-dziedzinowe o odpowiednio dostrojonym słowniku/modelu języka. Często także użytkownik ma możliwość dopasowania parametrów do danego ograniczonego zastosowania poprzez moduły uczenia maszynowego. W telefonach komórkowych (i nie tylko, np. także w przeglądarce Google Chrome[32]/Chromium) nierzadko stosuje się również wysyłanie wstępnie przetworzonych danych do pomocniczej obróbki na serwerze zewnętrznym[33], niedogodność jest niezauważalna dla użytkownika, jednak w przyszłości wraz ze wzrostem wydajności sprzętowej i ulepszaniem algorytmów może pojawić się więcej używalnych rozwiązań po stronie klienta np. specyfikacja W3C Web Speech API nie ogranicza rozpoznawania mowy jedynie do trybu po stronie serwera[34].

Na temat ograniczeń modeli czysto statystycznych języka naturalnego zobacz np. w artykule: Noam Chomsky, językoznawstwo, z drugiej strony okazuje się, że często wystarcza samo podejście statystyczne „brute force”, czyli im więcej danych pozyska się dla modelu języka tym system wyszukiwania/rozpoznawania okazuje się być „inteligentniejszy”, mniej (ale także) zależąc od jakości i algorytmów[35][36][37] (jakość obniża się często celowo np. poprzez stosowanie wspomnianych powyżej heurystyk obcinania by uzyskać akceptowalny czas odpowiedzi, przechodząc z podejścia dynamicznego w kierunku przypominającego algorytm zachłanny[38]). Użyteczność metod o dużym modelu języka wyjaśniałyby rozważania psychologiczne już z końca XIX wieku, które wykazały, że ludzka zdolność rozpoznawania mowy opiera się na pamięci o bardzo szerokim kontekście, zaś same dźwięki niosą trudną do zidentyfikowania informacje, to co się usłyszy jest dopiero uzupełniane w znacznym stopniu treścią z własnej pamięci[39] (zobacz też apercepcja). Obecnie w badaniu uczenia się ludzkiego, także przywiązuje się wagę do faktu, iż nowo pozyskana/usłyszana informacja słowna (w rozpoznawaniu mowy na poziomie cech akustycznych) może często powodować znaczną modyfikację dotychczasowego modelu, więc nie może być dla człowieka całkowicie pomijalna (chodzi o zachowanie równowagi między tymi dwoma trybami por. Jean Piaget). W przyszłości pozostaje więc do spełnienia ważna rola dla coraz bardziej wyszukanych algorytmów uczenia maszynowego stosowanych w rozpoznawaniu mowy[12] także na poziomie ekstrakcji cech akustycznych.

Algorytmy i modele

Zastosowania

  • Sterowanie – dedykowane silniki nie wymagają zaawansowanych cech jak przełączanie kontekstu, a z racji kilku/kilkunastowyrazowych słowników nie występuje tu problem ujednoznaczniania w środowiskach, w których sygnał mowy jest zakłócony, dlatego też wymagają one znacznie mniej zasobów niż algorytmy rozpoznawania mowy ciągłej.
    • w przypadku komputera PC – posiadającego różnorodne kanały komunikacji z użytkownikiem – sterowanie głosem wykorzystywane jest najczęściej przez osoby niepełnosprawne, dla których inne interfejsy interakcji z urządzeniem są niedostępne,
    • w urządzeniach – o znacznej miniaturyzacji, przez co ubogich w interfejsy interakcji – proste polecenia głosowe znacznie uefektywniają ich obsługę.
  • Transkrypcja mowa ciągła-tekst – algorytmy:
    • dziedzinowe – o ograniczonym słowniku,
    • całościowe – bardziej zaawansowane.
  • Mówione systemy dialogowe – interfejsy głosowe działające w sposób naturalny dla człowieka, a nie w oparciu o ustalone możliwe opcje.
  • Translacja pomiędzy językami naturalnymi (ang. speech-to-speech) np. komunikatów głosowych przydatnych w podróży[40].

Zastosowania dla przedsiębiorstw

Technologie rozpoznawania mowy znalazły praktyczne zastosowanie w telefonicznych biurach obsługi klienta, gdzie zachodzi konieczność obsługi kilkudziesięciu tysięcy dzwoniących na godzinę. Banki, firmy branży informatycznej czy telekomunikacyjnej coraz częściej inwestują w nowoczesne narzędzia oferujące zoptymalizowaną obsługę oraz pozwalające na wzrost zadowolenia klienta. Jednym z takich rozwiązań jest sterowania głosem (ang. Call Steering) w systemie zapowiedzi głosowych IVR. Sterowanie głosem oparte na rozumieniu języka naturalnego przez komputer ułatwia konsumentom komunikowanie się z właściwym operatorem w biurze obsługi. Po zadaniu standardowego pytania „W czym możemy pomóc?” dzwoniący opisuje problem własnymi słowami, bez potrzeby wybierania z rozbudowanego menu kontaktów czy dopasowywania pytania do listy wcześniej zdefiniowanych opcji. Przyspiesza to obsługę klientów, ogranicza liczbę niepoprawnie przekierowanych połączeń oraz prowadzi do wyższego poziomu automatyzacji systemu obsługi IVR poprzez szybkie łączenie dzwoniących z usługą, której potrzebują. Funkcje rozpoznawania naturalnej mowy oraz rozumienia języka naturalnego (NLU) zostały już wdrożone w wielu biurach obsługi klienta na świecie, jak i w Polsce.

Standaryzacje międzynarodowe

Trwają prace standaryzacyjne jednolitych interfejsów programistycznych (API) oraz języków opisu danych wejściowych dla silników rozpoznawania mowy. Następujące instytucje opracowują własne rozwiązania w tym zakresie, w nawiasach podano numer aktualnej wersji oraz rok wydania.

Microsoft:

Sun Microsystems:

  • JSAPI – interfejs programistyczny (1.0 z r. 1998, wersję 2.0 zatwierdzono w maju 2008[41])
  • JSGF – język specyfikacji gramatyki

W3C:

  • Web Speech API – specyfikacja rozszerzeń HTML i JavaScript pod kątem wprowadzania głosowego – 19 10 2012,
  • PLS – język specyfikacji wymowy (1.0 oczekuje na zatwierdzenie),
  • VoiceXML – język specyfikacji dialogu głosowego człowiek-komputer (2.1 z r. 2007),
  • SISR – język semantycznego znakowania gramatyki (1.0 z r. 200),
  • SRGS – język specyfikacji gramatyki (oparty na XML lub BNF) (1.0 z r. 2004),
  • SLM(N-gram)S – język specyfikacji stochastyczengo modelu języka (roboczy szkic z r. 2001),
  • NLSML – język specyfikacji interpretacji semantycznej mowy (1.0-beta z r. 2000).

Rozpoznawanie mowy polskiej

Prace badawcze i wdrożenia:

  • Ogólnopolski projekt[42] prowadzony jest przez, podległe MSWiA, służby bezpieczeństwa publicznego we współpracy z uczelniami wyższymi[43] w ramach Polskiej Platformy Bezpieczeństwa Wewnętrznego. Przetwarzanie mowy występuje docelowo w dwóch (S3, S8)[44] z ośmiu funkcjonalnych modułów zintegrowanego systemu wsparcia zarządzania bezpieczeństwem i przeciwdziałania przestępczości w Unii Europejskiej,
  • Instytut Monitorowania Mediów wdrożył system umożliwiający wyszukiwanie felietonów na podstawie słów kluczowych[45],
  • Wersje polskiego oprogramowania do rozpoznawania mowy SkryBot:
    • dla biznesu, serwery rozpoznawania mowy (monitoring, indeksowanie i wyszukiwanie tekstem multimediów radia i telewizji),
    • dla użytkowników komputerów osobistych, systemy Windows XP, Vista, 7[46][47],
    • portal rozpoznawania mowy przez internet SkryBot.TV[48].
  • System Rozpoznawania i Zamiany Mowy na Tekst – MagicScribe[49]:
    • MagicScribeMedical – rozpoznawanie mowy dla medycyny[50],
    • MagicScribeLegal – rozpoznawanie mowy dla prawa[51],
  • System rozpoznawania mowy Sarmata, Zespołu Przetwarzania Sygnałów AGH kierowanego przez profesora Mariusza Ziółko[52],
  • Spikit – innowacyjne narzędzie wykorzystujące mowę do sterowania komputerem osobistym[53],
  • Google Voice Search – od 15 września 2010 dla użytkowników mobilnych w języku polskim[54]. Wymaga połączenia z Internetem.
  • Google Web Speech API – dostępne w języku polskim w fazie beta[55] za pośrednictwem przeglądarki Google Chrome (wykorzystanie np. do dyktowania w języku polskim[56] czy nauki języka angielskiego[57]). Istnieją też aplikacje nieoficjalne korzystające bezpośrednio z Google API (spoza przeglądarki)[58][59]. Wymaga połączenia z Internetem.
  • Dragon Dictation i Dragon Search firmy Nuance dla użytkowników mobilnych, systemów iOS, dostępne w języku polskim od października 2011, wymagają połączenia z Internetem[60].
  • Primespeech – polska firma wyspecjalizowana w produkcji portali głosowych, także opracowująca system do transkrypcji mowy[61].

Rozwiązania komercyjne:

  • SpeechStorm[62] – producent aplikacji do IVR opartych m.in. na technologii rozpoznawania mowy.
  • Techmo TTS i Techmo ASR[63] – Oprogramowanie wykorzystywane w większości wdrożeń on premise w Polsce począwszy od 2018 roku.

Rozpoznawanie mowy angielskiej

Zobacz też

Przypisy

  1. Tomasz Grynkiewicz. Komputer pojął Gierka, a z Kaczyńskim miał problem. „Gazeta Wyborcza”. Nauka, s. 22, 2008-12-08. Agora SA. (pol.). 
  2. Bartosz Ziółko, Mariusz Ziółko: Przetwarzanie mowy. Kraków: Wydawnictwa AGH, 2011. ISBN 978-83-7464-441-9. (pol.).
  3. Stephen Cook: Speech Recognition HOWTO. Linuxdoc.org, 2002-04-19. [dostęp 2016-05-14]. (ang.).
  4. Krzysztof Marasek: Od rozpoznawania do tłumaczenia mowy polskiej. PJWSTK, 2012-09-26. [dostęp 2014-02-19]. (pol.).
  5. M.A. Sapożkow: Sygnał mowy w telekomunikacji i cybernetyce. Warszawa: WNT, 1966. (pol.).
  6. IBM Shoebox. IBM. [dostęp 2014-02-19]. (ang.).
  7. J. Baker. The DRAGON system – An overview. „IEEE Transactions on Acoustics, Speech and Signal Processing”. 23 (1), s. 24–29, luty 1975. DOI: 10.1109/TASSP.1975.1162650. ISSN 0096-3518. (ang.). 
  8. Garfinkel, 1998, History of Speech Recognition and Transcription Software.
  9. Melanie Pinola: Speech Recognition Through the Decades: How We Ended Up With Siri. International Data Group Inc, 2011-11-03. [dostęp 2014-02-19]. [zarchiwizowane z tego adresu (2014-02-22)]. (ang.).
  10. https://www.pcworld.pl/news/Google-Voice-Search-od-dzis-w-jezyku-polskim,361977.html.
  11. Jonathan Strickland: Expert Stuff: Google’s Mike Cohen. HowStuffWorks, Inc, 2011-03-16. [dostęp 2014-02-19]. (ang.).
  12. a b J. M. Baker, L. Deng, J. Glass, S. Khudanpur, Chin-Hui Lee, N. Morgan, and D. O’Shaughnessy „Research Developments and Directions in Speech Recognition and Understanding” IEEE SPM maj 2009.
  13. M. Forsberg, „Why is speech recognition difficult?” Chalmers University of Technology, 2003, s. 9 i poprzednie.
  14. B. Shneiderman, „The limits of speech recognition” Communications of the ACM, t. 43, nr 9, s. 63–65, wrzesień 2000.
  15. Speech Recognition Lectures, Mehryar Mohri, 2012.
  16. CMU Sphinx, 2011-09-23 Russian Audiobook Morphology-Based Model.
  17. Pete Warden, 2018, Google Brain, Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition.
  18. L. R. Rabiner, B. H. Juang, An Introduction to Hidden Markov Models, w: 1986 IEEE ASSP Magazine, styczeń 1986, s. 13.
  19. Federal Register :: Review of Controls for Certain Emerging Technologies, www.federalregister.gov [dostęp 2020-04-13].
  20. Jak niektóre zastosowania Ukrytych Modeli Markowa np. do analizy manuskryptu Voynicha, źródło: René Zandbergen, Voynich Manuscript analysis.
  21. M. E. D’Imperio, 1979, An Application of PTAH to the Voynich Manuscript, National Security Agency Technical Journal.
  22. Basic concepts of speech. CMU Sphinx, 2010. [dostęp 2014-03-11]. (ang.).
  23. John R. Hershey et al. „Super-human multi-talker speech recognition: A graphical modeling approach” styczeń 2010.
  24. CHANDRA, DHRUBA „Speech Recognition Co-Processor” strona 3 (16)., North Carolina 2007.
  25. a b CMU Sphinx na SourceForge.Net, 23-12-2012.
  26. B. Harb et al. Back-off Language Model Compression. 2009.
  27. Stephen Cook, Speech Recognition HOWTO (ang.), Linuxdoc.org, 2002-04-19.
  28. William Chan, Navdeep Jaitly, Quoc V. Le, Oriol Vinyals, 2015, „Listen, Attend and Spell”.
  29. R. Kuhn, R. De Mori, czerwiec 1990. „A Cache-Based Natural Language Model for Speech Recognition”. IEEE TPAMI.
  30. VoxForge.
  31. Common Voice, voice.mozilla.org [dostęp 2019-06-29] (ang.).
  32. (ang.) Google Chrome: How to Use the Web Speech API, maj 2013.
  33. Chip Mulligan: Nuance brings voice recognition to mobile phones. [w:] The Inquirer [on-line]. Incisive Media, 2007-02-07. [dostęp 2014-02-22]. [zarchiwizowane z tego adresu (2014-02-28)]. (ang.).
  34. Web Speech API Specification 19 października 2012.
  35. Google Is All About Large Amounts of Data, 2007-12-16, googlesystem.blogspot.com.
  36. Juan Carlos Perez, 2007-10-23, Google wants your phonemes.
  37. C. Chalba et al., 2012, Language Modeling for Automatic Speech Recognition Meets the Web: Google Search by Voice.
  38. C. Wilt, J. Thayer, W. Ruml, 2010, „A Comparison of Greedy Search Algorithms”, AAAI.
  39. J.R. Pierce, 1969, Whither Speech Recognition? za: Talks to Teachers on psychology… s.159 William James 1899.
  40. www.smartertravel: Five Translation Apps Put to the Test, 01-06-2013.
  41. Oficjalna strona JCP (JSR #113 JavaTM Speech API 2.0 Final Approval Ballot), 5 maja 2008.
  42. Laboratorium Technologii Języka i Mowy. speechlabs.pl. [zarchiwizowane z tego adresu (2008-12-07)].
  43. www.ppbw.pl: Projekty badawcze. ppbw.pl. [zarchiwizowane z tego adresu (2014-02-22)].
  44. Koncepcja PBW (…) w ramach projektu „Nowoczesne metody naukowego wsparcia zarządzania bezpieczeństwem publicznym w Unii Europejskiej”. ppbw.pcss.pl. [zarchiwizowane z tego adresu (2014-02-23)]., Poznań, 2005.
  45. Arkadiusz Wolski: Rozpoznawanie mowy – monitoring TV i radia. New Europe Events Sp. z o.o, 2006-10-26. [dostęp 2014-02-22]. [zarchiwizowane z tego adresu (2007-04-30)]. (pol.).
  46. SkryBot doMowy rozpoznawanie mowy polskiej.
  47. Polskie Centrum Technologii Rozpoznawania Mowy.
  48. Rozpoznawanie mowy przez internet, tworzenie i wyszukiwanie napisów.
  49. MagicScribe – Rozpoznawanie mowy i zamiana na tekst. Unikkon Integral Sp. z o.o. [dostęp 2014-11-17]. (pol.).
  50. System Rozpoznawania i Zamiany Mowy na Tekst – MagicScribeMedical. Unikkon Integral Sp. z o.o. [dostęp 2014-11-17]. [zarchiwizowane z tego adresu (2011-10-04)]. (pol.).
  51. System Rozpoznawania i Zamiany Mowy na Tekst – MagicScribeLegal. Unikkon Integral Sp. z o.o. [dostęp 2014-11-17]. [zarchiwizowane z tego adresu (2012-04-04)]. (pol.).
  52. Zespół Przetwarzania Sygnałów AGH. dsp.agh.edu.pl. [zarchiwizowane z tego adresu (2014-02-27)].
  53. Strona spikit.pl.
  54. Maciej Kluk, Google Voice Search od dziś w języku polskim, www.pcworld.pl, 15-09-2010.
  55. support.google.com Pisanie za pomocą rozpoznawania mowy (beta).
  56. Voice Dictation – Online Speech Recognition, dictation.io [dostęp 2019-06-29].
  57. Jak to działa? ⋆ Kurs języka angielskiego online Speakingo, www.speakingo.pl [dostęp 2019-06-29] [zarchiwizowane z adresu 2017-11-07] (pol.).
  58. wiki.openmoko.org: Google Voice Recognition.
  59. www.linux.com: Inside Palaver: Linux Speech Recognition that Taps Google’s Voice Technology 28-03-2013.
  60. Sebastian Brzuzek, Dragon Dictation i Dragon Search ze wsparciem języka polskiego, 03-10-2011.
  61. Tomasz Grynkiewicz, „Polak i komputer, dwa bratanki”, Gazeta Wyborcza, 19-08-2010.
  62. Strona SpeechStorm.
  63. Technologie głosu i dźwięku, Techmo (pol.).
  64. Strona Nuance Dragon Naturally Speaking.
  65. Strona SkryBot doMowy.
  66. Strona Nuance Call Steering.

Linki zewnętrzne