W ubiegłym tygodniu pisałem o stylometrii – czyli metodzie analizy tekstu, która umożliwia ustalenie autorstwa tekstu. Dziś przedstawię jedno z komputerowych narzędzi do analizy stylometrycznej.
Proste narzędzie do analizy stylometrycznej może przydać się do próby ustalenia autorstwa niektórych tekstów. Można taką analizę wykorzystać np. na studiach filologicznych do określenia autorów anonimowych tekstów literackich. Jedno z takich narzędzi zostało przygotowane przez CLARIN.
WebSty to aplikacja dostępna on-line, do której możemy przesłać kilka plików w standardowych formatach (np. docx, odt, pdf) i porównać je pod kątem wybranych cech.
Lista cech do wyboru jest bardzo bogata, zawiera m.in. różne typy imiesłowów, liczebników, schematów składniowych, interpunkcję etc. Można także wybrać np. na ile grup mają zostać podzielone analizowane teksty. Ja analizuję dwanaście tekstów trzech autorów, więc wybieram trzy grupy oraz wszystkie możliwe cechy porównawcze. Aplikacja potrafi także wizualizować wyniki analizy na kilka sposobów.
Aplikacja pokazuje wyniki w formie drzewa. Niestety w przypadku mojej próby podział nie jest precyzyjny. Analiza słusznie wykazała odrębność tekstów autora KW (teksty KW1 – KW4), jednak teksty KO1 – KO4 i KP1 – KP4 zostały pomieszane.
Jednak przy innej metodzie wizualizacji – skalowaniu wielowymiarowym – widać trzy grupy tekstów, które układają się zgodnie z autorstwem. Zapewne większy korpus tekstów pozwoliłby dokonać precyzyjniejszej analizy.