Normalizacja tekstu
Normalizacja tekstu – proces przetwarzania tekstów, nadający mu spójną formę, ułatwiającą dalszą interpretację. Często stosowana jako etap wstępny do późniejszego parsowania. Założeniem normalizacji jest zmiana formy przetwarzanego tekstu z formy pisanej na mówioną. W takim ujęciu zagadnienie to przypomina tłumaczenie automatyczne, gdzie tłumaczony jest tekst pisany na tekst mówiony.
Rodzaje normalizacji
- zmiana wielkości liter (na małe lub wielkie),
- normalizacja skrótów,
- normalizacja wyrażeń numerycznych,
- normalizacja znaków specjalnych,
- zmiana znaków interpunkcyjnych,
- usuwanie (lub zmienianie) znaków diakrytycznych.
Przykłady
Zam. na os. Jana III Sobieskiego 45A/2.
- Zamieszkały na osiedlu Jana trzeciego Sobieskiego czterdzieści pięć A przez dwa.
Ile to jest: 2+2*2?
- Ile to jest: dwa plus dwa razy dwa?
7 IV odbędzie się 4. Olimpiada Matematyczna dla dzieci w wieku od 11-16 lat.
- Siódmego kwietnia odbędzie się czwarta Olimpiada Matematyczna dla dzieci w wieku od jedenastu do szesnastu lat.
telefon: (+48) 12-12-12
- telefon: plus czterdzieści osiem dwanaście dwanaście dwanaście
1000$
- tysiąc dolarów
Wykorzystanie korpusów
Ciągi znaków zamieniane są na wyrazy w oparciu o uprzednio zdefiniowane reguły. Problem jednak stanowią ciągi znaków o wielu interpretacjach, czyli homografy. W takim przypadku, nie znając kontekstu, dany ciąg znaków może być niepoprawnie zinterpretowany. Przykładowo, skrót p. może oznaczać zarówno pan jaki i patrz, a 10 08 94 może przedstawiać datę lub numer telefonu. W celu klasyfikacji takich ciągów znaków, wykorzystywane są drzewa decyzyjne budowane etapami:
- Wydobycie wszystkich wystąpień homografu z korpusu.
- Oznaczenie każdego wystąpienia jego klasą.
- Wydobycie wszystkich cech kontekstowych które zidentyfikują obecną klasę.
- Tworzenie drzewa klasyfikacji (albo listy decyzji) do klasyfikowania wystąpień.
Zastosowanie
- generowanie syntezy mowy,
- tłumaczenie automatyczne,
- optymalizacja baz danych,
- kompresja
Linki zewnętrzne
- Wstępne przetwarzanie tekstu w German Festival (IMS Stuttgart). staff.amu.edu.pl. [zarchiwizowane z tego adresu (2008-03-19)].
- Przykład zastosowania normalizacji