Normalizacja tekstu

Normalizacja tekstu – proces przetwarzania tekstów, nadający mu spójną formę, ułatwiającą dalszą interpretację. Często stosowana jako etap wstępny do późniejszego parsowania. Założeniem normalizacji jest zmiana formy przetwarzanego tekstu z formy pisanej na mówioną. W takim ujęciu zagadnienie to przypomina tłumaczenie automatyczne, gdzie tłumaczony jest tekst pisany na tekst mówiony.

Rodzaje normalizacji

Przykłady

Zam. na os. Jana III Sobieskiego 45A/2.

Zamieszkały na osiedlu Jana trzeciego Sobieskiego czterdzieści pięć A przez dwa.

Ile to jest: 2+2*2?

Ile to jest: dwa plus dwa razy dwa?

7 IV odbędzie się 4. Olimpiada Matematyczna dla dzieci w wieku od 11-16 lat.

Siódmego kwietnia odbędzie się czwarta Olimpiada Matematyczna dla dzieci w wieku od jedenastu do szesnastu lat.

telefon: (+48) 12-12-12

telefon: plus czterdzieści osiem dwanaście dwanaście dwanaście

1000$

tysiąc dolarów

Wykorzystanie korpusów

Ciągi znaków zamieniane są na wyrazy w oparciu o uprzednio zdefiniowane reguły. Problem jednak stanowią ciągi znaków o wielu interpretacjach, czyli homografy. W takim przypadku, nie znając kontekstu, dany ciąg znaków może być niepoprawnie zinterpretowany. Przykładowo, skrót p. może oznaczać zarówno pan jaki i patrz, a 10 08 94 może przedstawiać datę lub numer telefonu. W celu klasyfikacji takich ciągów znaków, wykorzystywane są drzewa decyzyjne budowane etapami:

  1. Wydobycie wszystkich wystąpień homografu z korpusu.
  2. Oznaczenie każdego wystąpienia jego klasą.
  3. Wydobycie wszystkich cech kontekstowych które zidentyfikują obecną klasę.
  4. Tworzenie drzewa klasyfikacji (albo listy decyzji) do klasyfikowania wystąpień.

Zastosowanie

Linki zewnętrzne