Analiza stylometryczna – CLARIN-PL

W ubiegłym tygodniu pisałem o stylometrii – czyli metodzie analizy tekstu, która umożliwia ustalenie autorstwa tekstu. Dziś przedstawię jedno z komputerowych narzędzi do analizy stylometrycznej.

Proste narzędzie do analizy stylometrycznej może przydać się do próby ustalenia autorstwa niektórych tekstów. Można taką analizę wykorzystać np. na studiach filologicznych do określenia autorów anonimowych tekstów literackich. Jedno z takich narzędzi zostało przygotowane przez CLARIN.

WebSty to aplikacja dostępna on-line, do której możemy przesłać kilka plików w standardowych formatach (np. docx, odt, pdf) i porównać je pod kątem wybranych cech.

Lista cech do wyboru jest bardzo bogata, zawiera m.in. różne typy imiesłowów, liczebników, schematów składniowych, interpunkcję etc. Można także wybrać np. na ile grup mają zostać podzielone analizowane teksty. Ja analizuję dwanaście tekstów trzech autorów, więc wybieram trzy grupy oraz wszystkie możliwe cechy porównawcze. Aplikacja potrafi także wizualizować wyniki analizy na kilka sposobów.

Wizualizacja wyników analizy w formie drzewa
Wizualizacja wyników analizy w formie drzewa

Aplikacja pokazuje wyniki w formie drzewa. Niestety w przypadku mojej próby podział nie jest precyzyjny. Analiza słusznie wykazała odrębność tekstów autora KW (teksty KW1 – KW4), jednak teksty KO1 – KO4 i KP1 – KP4 zostały pomieszane.

Wizualizacja wyników przy pomocy skalowanie wielowymiarowego
Wizualizacja wyników przy pomocy skalowanie wielowymiarowego

Jednak przy innej metodzie wizualizacji – skalowaniu wielowymiarowym – widać trzy grupy tekstów, które układają się zgodnie z autorstwem. Zapewne większy korpus tekstów pozwoliłby dokonać precyzyjniejszej analizy.


Źródła:

WebSty

System do klasyfikacji tekstu i analizy stylometrycznej

Dodaj komentarz