Stylometria

Podkast serii Nauka XXI wieku pod tytułem „Stylometria”, rozmowa z Tomaszem Staniszem

Stylometria – metoda analizy dzieła sztuki dla ustalenia statystycznej charakterystyki stylu autora. Służy głównie rozstrzyganiu kwestii autorstwa dzieł anonimowych bądź chronologii przekazu. Założenia stylometrii przedstawił w roku 1890 Wincenty Lutosławski, w pracy „Principes de stylometrie”.

Historia

W 1439 roku Lorenzo Valla udowodnił, że dokument „Donacja Konstantyna” jest falsyfikatem, dowód opierając na porównaniu łaciny tam użytej z dokumentami z epoki. Można to uznać za prapoczątek stylometrii, pierwszy udokumentowany przypadek zastosowania analizy porównawczej dla ustalenia autentyczności. Jednak prawdopodobnie współczesna stylometria bierze swój początek w sugestii Augusta de Morgana, który w 1851 r. postawił tezę, iż możliwa jest identyfikacja autorów tekstów biblijnych na podstawie analizy długości słów używanych przez poszczególnych autorów.

Początkowo stylometria stosowana była do analizy tekstów literackich. Metodę wykorzystał do analizy greckich dzieł Platona. Analiza polegała na ustaleniu liczbowych rozkładów stylemów (elementarnych jednostek językowo-stylistycznych): charakterystycznych słów, zwrotów, wyrażeń, kolokacji oraz form fleksyjnych. W ten sposób ustalono względną chronologię dzieł Platona oraz potwierdzono jego autorstwo w stosunku do jednych a wykluczono je w stosunku do kilku innych dzieł wątpliwych. W późniejszym okresie z sukcesem wykorzystywano analogiczne metody w filologii angielskiej do badania dzieł Szekspira, w filologii klasycznej do określania autorstwa ksiąg Nowego Testamentu, przypisywanych św. Pawłowi oraz w orientalistyce – np. w indologii do badania dzieł przypisywanych Śankarze i Patańdżalemu, w arabistyce do badania tekstu Koranu, oraz w sinologii do badania rękopisów z Mawangdui. Badania stylometryczne z użyciem komputerów pozwalają na badanie wielkich korpusów językowych oraz na uzyskanie większej pewności osiągniętych wyników.

W Instytucie Filologii Angielskiej Uniwersytetu Jagiellońskiego są prowadzone badania stylometryczne poświęcone językowi amerykańskich kazań kolonialnych[1].

Oprogramowanie

Zastosowanie komputerów umożliwiło także zastosowanie stylometrii do badań utworów muzycznych i malarstwa. Tutaj w ustaleniu charakterystyki stylu wykorzystywane są: analiza fraktalna, analiza głównych składowych, algorytm genetyczny oraz sieci neuronowe[2]. Oprogramowanie takie jak Signature[3] (bezpłatny system opracowany przez Dr Peter Millicana z Oxford University), JGAAP[4] (the Java Graphical Authorship Attribution Program– bezpłatny system opracowany przez Dr Patrick Juola z Duquesne University), czy Stylene opracowany dla języka holenderskiego (system opracowany przez Waltera Daelmansa z University of Antwerp oraz Véronique Hoste z University of Ghent) umożliwia analizę stylometryczną nawet przez osoby niebędące ekspertami w tej dziedzinie. Voyant tools[5] umożliwiają analizę tekstu ze strony sieciowej.

Program stylo[6][7], opracowany przez Macieja Edera, Jana Rybickiego oraz Mike Kestemonta, jest bezpłatnym systemem napisanym w języku programowania R umożliwiającym różnorodne analizy stylometryczne, łącznie z atrybucją autora tekstu. Program ten umożliwia analizę tekstu w różnych językach (także w języku polskim).

Programy do stylometrii wymagają korpusu, czyli tekstów wejściowych używanych do poszukiwania podobieństw. Przykładem programu do konwersji pomiędzy formatami jest calibre.

Przypisy

  1. PAP Nauka w Polsce, Badają literacki styl jak linie papilarne | Aktualności o polskiej nauce, badaniach, wydarzeniach, polskich uczelniach i instytutach badawczych, naukawpolsce.pap.pl [dostęp 2017-08-03].
  2. Jeremi K. Ochab: Stylometria i atrybucja autorska: co mierzy i dlaczego działa. (ang.). W: Praca magisterska [on-line]. 15 czerwca 2006. [dostęp 2016-01-30]. [zarchiwizowane z tego adresu (4 sierpnia 2016)].
  3. The Signature Stylometric System (ang.). PhiloComp. [dostęp 2014-01-03]. [zarchiwizowane z tego adresu].
  4. JGAAP (ang.). JGAAP, 2012-09-04. [dostęp 2012-10-15].
  5. Stéfan Sinclair i Geoffrey Rockwell: Voyant Tools, a web-based text analysis and reading environment. (ang.). W: strona sieciowa [on-line]. 2016.
  6. stylo: R package for stylometric analyses (ang.). [dostęp 2020-12-09].
  7. Maciej Eder, Jan Rybicki, Mike Kestemont: Stylometry with R: A Package for Computational Text Analysis (ang.). W: The R Journal [on-line]. 2015. [dostęp 2016-01-30]. [zarchiwizowane z tego adresu (2016-02-04)].

Media użyte na tej stronie

NXXI-86-Stylometria.mp3
Autor: Borys Kozielski, Licencja: CC BY 4.0
Odcinek podkastu Nauka XXI wieku. Rozmowa z Tomaszem Staniszem z Instytutu Fizyki Jądrowej w Krakowie. Adres oficjalnej strony odcinka podkastu: http://nauka.podkasty.info/86 Plik został zamieszczony jako wynik pracy dzięki Wikigrantowi Stowarzyszenia Wikimedia Polska https://pl.wikimedia.org/wiki/WG_2019-11