Rozpoznawanie mówcy

Rozpoznawanie mówcy (biometryka głosu) – proces automatycznej identyfikacji mówcy za pomocą szczegółowych informacji na jego temat, zawartych w falach głosowych, w celu weryfikacji tożsamości osoby korzystającej z systemu. Umożliwia to kontrolę dostępu do różnych usług za pomocą głosu^[1]^[2]^[3].

Proces rozpoznawania mówcy polega na tworzeniu modeli wykorzystujących akustyczne cechy mowy (model matematyczny danego głosu przechowywany w systemie biometrycznym), które dają możliwość znalezienia różnic między ludzkimi głosami. Wzorce akustyczne odzwierciedlają zarówno anatomię (np. wielkość, kształt gardła i jamy ustnej), jak i zachowania (np. intonacja głosu, styl mówienia). Rozpoznawanie mówcy bywa stosowane w tworzonych systemach bezpieczeństwa oraz podczas przeprowadzania wieloosobowych konferencji.

Próbki głosu nagrywa się mikrofonem. By wyeliminować możliwe użycie nagranej próbki głosu innej osoby stosuje się syntezator mowy, który dyktuje użytkownikowi tekst do powtórzenia. Jednocześnie rozpoznawanie mowy sprawdza czy użytkownik powtarza poprawnie podyktowany przez syntezator mowy tekst.

Systemy rozpoznawania mówcy można podzielić ze względu na trzy różne charakterystyki:

identyfikacja i weryfikacja mówcy
systemy zależne lub niezależne od treści
systemy ze zbiorem zamkniętym lub otwartym^[4]

Weryfikacja i identyfikacja mówcy

System rozpoznawania mówcy ma możliwość pracy na dwóch różnych modelach – weryfikacji mówcy lub jego identyfikacji.

W systemie weryfikacji mówcy, użytkownik musi najpierw podać swoją tożsamość, a następnie system sprawdza czy jest ona prawidłowo rozpoznana za pomocą analizy głosu mówcy. Weryfikacja mówcy może być stosowana w celu uzyskiwania uprawnień. Na przykład w przypadku używania kart bankomatowych, karta może zawierać zapisaną tożsamość głosową użytkownika. Jeśli bankomat posiadałby moduł rozpoznający mowę, poprzez głos może on sprawdzić, czy karta jest używana przez prawowitego właściciela, czy też przez osobą podszywającą się pod niego. W przypadku weryfikacji mówcy system zwraca odpowiedź binarną – wejściowy sygnał głosowy jest porównywany do modelu powiązanego z tożsamością weryfikowanego użytkownika. Oznacza to, że system rozpoznający mowę wykonuje jedno porównanie, a następnie podejmuje jedną decyzję bazującą na wyniku tego porównania.

Z drugiej strony, w systemie identyfikacji mówcy, użytkownik nie musi udowadniać tożsamości. Zamiast tego, gdy użytkownik wprowadza sygnał głosowy do systemu, ten decyduje, który model mówcy jest najbardziej zbliżony do mowy wejściowej. W tym przypadku system przeprowadza N porównań, gdzie N jest liczbą modeli mówców w bazie systemu. Każde porównanie tworzy ocenę wiarygodności, z których system może wybrać model powiązany z tożsamością najbardziej prawdopodobnego mówcy. Przykładem decyzji może być „mówca i”, gdzie i=1 … N.

Oczywistym jest, że problem identyfikacji mówcy jest bardziej złożony niż jego weryfikacji, dlatego też wyniki uzyskane w systemach identyfikacji mówcy mogą być gorsze niż w weryfikacji^[5].

Systemy zależne i niezależne od treści

W zależności od możliwości i potrzeby, systemy można podzielić ze względu na istotę przekazywanych treści w sygnale głosowym, czyli na systemy zależne, bądź niezależne od treści.

Systemy zależne od treści są systemami wykorzystującymi z góry ustaloną sentencję lub słowo, nazywane hasłem, w celu treningu systemu i ostatecznego rozpoznawania. Przykładowo, użytkownik systemu, w celu potwierdzenia swojej tożsamości może być poproszony o odczytanie przypadkowo wybranej sekwencji liczb.

W systemach niezależnych od treści nie ma żadnych ograniczeń związanych z wypowiadanymi przez użytkownika słowami. Zatem treść wypowiedzi z nagrań treningowych oraz sentencje wypowiadane podczas testu mogą być kompletnie inne, a system musi wziąć pod uwagę niedopasowanie fonetyczne.

Rozpoznawanie niezależne od treści jest znacznie trudniejsze od rozpoznawania zależnego od wypowiadanych słów. Systemy nie zmieniają swojej skuteczności ze względu na informacje zawarte w wejściowym sygnale głosowym. System opiera swe działanie na atrybutach głosu mówcy, nie skupiając się na sekwencji wypowiadanych przez niego słów.

Model niezależny od wypowiadanego tekstu, przez brak ograniczeń dotyczących wypowiadania jakiegokolwiek hasła, jest bardziej elastyczny. Jest też najbardziej klarownym systemem, ponieważ model rozpoznawania mówcy może być jasno oddzielony od modelu rozpoznawania mowy w przeciwieństwie do rozpoznawania zależnego od treści^[6]^[7].

Systemy otwarte i zamknięte

Ostatnia metoda klasyfikacji systemów rozpoznawania mówcy rozróżnia możliwość działania na sprecyzowanej grupie użytkowników, bądź też system może być otwarty na każdego świadomego, lub też nie, użytkownika. Jest to podział na zamknięte i otwarte systemy^[8].

Zamknięty system rozpoznawania mówcy może rozważać czy użytkownik, który próbuje uzyskać dostęp do systemu należy do grupy znanych użytkowników. W tym przypadku odpowiedzią systemu na uzyskany sygnał wejściowy jest najbardziej prawdopodobny mówca zawarty w bazie danych.

Model w systemie otwartym rozważa możliwość, że użytkownik, który próbuje uzyskać dostęp za pomocą swojego głosu, może być nieznany. Oznacza to, że model nie jest powiązany z użytkownikiem, a zatem decyzja podjęta przez system może być negatywna, a użytkownik określony jako intruz. Istnieje kilka metod rozwiązania problemu „nieznanego użytkownika”. Jedną z nich jest powiększenie bazy o użytkowników, których system nie wykrywa. Kolejną jest ustalenie progu prawdopodobieństwa – jeżeli model mówcy nie osiągnie wyniku przekraczającego dany próg, system nie powiąże sygnału wejściowego ze znanymi mu modelami mówców. Ostatnią możliwością jest odpowiednie połączenie poprzednich metod.

Systemy ze zbiorem otwartym są bardziej złożone i posiadają więcej możliwości w codziennym użytkowaniu^[9].

Przykładowe zastosowania

Technologie związane z rozpoznawaniem mówcy w dzisiejszych czasach są stosowane na wielu płaszczyznach przez przedsiębiorstwa komercyjne. Wykorzystywane są przez przedsiębiorstwa zajmujące się telekomunikacją, finansami, przez opiekę zdrowotną oraz służby porządkowe i specjalne. Systemy mogą być stosowane w fonoskopii oraz systemach bezpieczeństwa. Przykładami zastosowań jest odzyskiwanie, bądź zmiana hasła przez telefon, transkrybowanie wielu mówców naraz, bankomaty bez kart, wykrywanie mowy modulowanej oraz sprawdzanie autentyczności i ciągłości nagrań^[10].

Znane przedsiębiorstwa zajmujące się systemami rozpoznawania mówcy:

PerSay – przedsiębiorstwo oferujące systemy identyfikacji zależnej i niezależnej od treści^[11]
SentryCom – czołowe przedsiębiorstwo zajmujące się biometrią głosu i jego zdalną identyfikacją
Nuance – producent programów dotyczących rozpoznawania mówcy oraz sterowania głosem^[12]
Maxxar – przedsiębiorstwo oferujące usługi w zakresie finansów i bankowości, m.in. głosowe centra obsługi telefonicznej, weryfikację i identyfikację głosową mówcy oraz syntezę mowy
Intervoice – producent rozwiązań dotyczących sterowania głosowego i w systemach bezpieczeństwa^[13]
KayPentax – przedsiębiorstwo specjalizujące się w oprogramowaniu badającego głos, jego patologii i leczenia^[14]
SpeechStorm – producent rozwiązań automatyzujących telefoniczną obsługę klienta^[15]

Zobacz też

Przypisy

↑ Furui, S. (1991) “Speaker-Independent and Speaker-Adaptive Recognition Techniques,” in Furui, S. and Sondhi, M. M. (Eds.) Advances in Speech Signal Processing, New York: Marcel Dekker, s. 597-622.
↑ Furui, S. (1997) “Recent Advances in Speaker Recognition”, Proc. First Int. Conf. Audio- and Video-based Biometric Person Authentication, Crans-Montana, Switzerland, s. 237-252.
↑ Furui, S. (2000) Digital Speech Processing, Synthesis, and Recognition, 2nd Edition, New York: Marcel Dekker.
↑ Rodríguez, D.S. “Text-Independent Speaker Identification”, Kraków 2008, s. 4.
↑ Rodríguez, D.S. “Text-Independent Speaker Identification”, Kraków 2008, s. 5-6.
↑ Tomi Kinnunen, Haizhou Li (2009) An Overview of Text-Independent Speaker Recognition: from Features to Supervectors.
↑ Rodríguez, D.S. “Text-Independent Speaker Identification”, Kraków 2008, s. 6.
↑ B. Ziółko, M. Ziółko (2011)“Przetwarzanie mowy”, s. 289-293.
↑ Rodríguez, D.S. “Text-Independent Speaker Identification”, Kraków 2008, s. 7.
↑ B. Ziółko, M. Ziółko (2011) “Przetwarzanie mowy”, s. 293-296.
↑ Strona Persay. persay.com. [zarchiwizowane z tego adresu (2014-01-11)]..
↑ Strona Nuance.
↑ Strona Intervoice.
↑ Strona KayPentax.
↑ Strona SpeechStorm.

Linki zewnętrzne

Technologia mowy. dsp.agh.edu.pl. [zarchiwizowane z tego adresu (2014-02-01)]. (materiały dydaktyczne AGH)
Scholarpedia.org – Speaker recognition
[przetwarzaniemowy.pl] - strona cytowanej książki B. Ziółko, M. Ziółko, "Przetwarzanie mowy", 2011.

[1] Furui, S. (1991) “Speaker-Independent and Speaker-Adaptive Recognition Techniques,” in Furui, S. and Sondhi, M. M. (Eds.) Advances in Speech Signal Processing, New York: Marcel Dekker, s. 597-622.

[2] Furui, S. (1997) “Recent Advances in Speaker Recognition”, Proc. First Int. Conf. Audio- and Video-based Biometric Person Authentication, Crans-Montana, Switzerland, s. 237-252.

[3] Furui, S. (2000) Digital Speech Processing, Synthesis, and Recognition, 2nd Edition, New York: Marcel Dekker.

[4] Rodríguez, D.S. “Text-Independent Speaker Identification”, Kraków 2008, s. 4.

[5] Rodríguez, D.S. “Text-Independent Speaker Identification”, Kraków 2008, s. 5-6.

[6] Tomi Kinnunen, Haizhou Li (2009) An Overview of Text-Independent Speaker Recognition: from Features to Supervectors.

[7] Rodríguez, D.S. “Text-Independent Speaker Identification”, Kraków 2008, s. 6.

[8] B. Ziółko, M. Ziółko (2011)“Przetwarzanie mowy”, s. 289-293.

[9] Rodríguez, D.S. “Text-Independent Speaker Identification”, Kraków 2008, s. 7.

[10] B. Ziółko, M. Ziółko (2011) “Przetwarzanie mowy”, s. 293-296.

[11] Strona Persay. persay.com. [zarchiwizowane z tego adresu (2014-01-11)]..

[12] Strona Nuance.

[13] Strona Intervoice.

[14] Strona KayPentax.

[15] Strona SpeechStorm.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Navigation

Nawigacja

Portale tematyczne