A szerzői "ujjlenyomat" stilometriai koncepciója Jókai Mór prózájának szövegterében

A szerzői "ujjlenyomat" stilometriai koncepciója Jókai Mór prózájának szövegterében

A szerzői "ujjlenyomat" stilometriai koncepciója Jókai Mór prózájának szövegterében A szerzői "ujjlenyomat" stilometriai koncepciója Jókai Mór prózájának szövegterében
Timári Mária - Bajzát Tímea Borbála -
Nemeskey Dávid - Palkó Gábor
A kutatás előzménye
A Jókai kritikai kiadást készítő kutatócsoport megkeresése -> néhány mű szerzőségének azonosítása
A stilometriában alkalmazható távolságmérések és beállítások ismerete a magyar nyelvre és Jókai prózájára vonatkozóan
Aktuális cél:
Jókai Mór szövegeinek nyelvezetéről egy széles körű stilometriai elemzés készítése nyelvstatisztikai vizsgálatok alapján tehát Jókai Mór szerzői ujjlenyomatának megalkotása
Korpuszok
I. Jókai-korpusz
Unikornis kiadó Jókai-sorozata + Révai testvérek kiadásai (1847 - 1907)
TXT formátum
66 regény, 6 elbeszélés, 14 további kötet (447 novella, elbeszélés, rege, mese)
II. Referencia korpusz
1846 - 1907 között keletkezett regények (Jókai Mór életművével párhuzamos)
56 szerző; 132 regény
A vizsgálatokhoz alkalmazott korpuszok
Jókai Mór szerzői ujjlenyomatának nyelvstatisztikai vizsgálatához:
I. 15 szöveges korpusz (TXT formátum)
3 Jókai-regény
4 szerzőtől további 12 regény
II. 69 szöveges korpusz (TXT formátum)
3 Jókai-regény
22 szerzőtől további 66 regény
A fastText szóvektoros vizsgálathoz alkalmazott korpusz (TXT formátum)
Jókai-korpusz (66 regény, 6 elbeszélés, 14 további kötet) + 8 naplórészlet/cikk, 2 útleírás, 9 korábbi kiadású novella
Referencia korpusz teljes anyaga (132 regény 55 szerzőtől)
Duplum-szűrés
Ismétlődő szövegek a kötetekben -> duplumok szűrése
Minden novella és elbeszélés csak egyszer forduljon elő a korpuszban
Intratextusok (ismétlődő szövegrészletek) bennhagyása (nagyrészt útleírások)
A duplum-szűréshez felhasznált kódot szeretnénk továbbfejleszteni azért, hogy az ELTE BTK Irodalomtudományi Intézete és a Digitális Bölcsészet Tanszék által létrehozott Stilometriai Kutatócsoportban az intertextus és az intratextus azonosítására tudjuk felhasználni más kutatásokban is.
A vizsgálat
Stylo
Előzetes vizsgálatok: manuálisan, a különböző paramétereket egyesével beállítva
Kevéssé átlátható
Nem megoldható benne minden távolságmérés
Pystyle
Mike Kestemont által készített, de már sok éve nem frissített, python programnyelvre átírt implementációja a Stylonak
Pydelta
Dokumentációval rendelkező kód
Kód és narráció
A Stylo-tól való ellépés és a Python-ban való futtatás előnyei:
Automatizálás, több száz beállítás lefuttatásának lehetősége.
Ellenőrizhetőség, megismételhetőség, átláthatóság.
Openscience elvek, kódok közzététele.
Stylo-ban nem elérhető beállítások futtatása.
Feature-ök keverése
Beállítások
MFW: A rövidítés a Most Frequent Words (leggyakoribb szavak) szóhármasra utal, ugyanakkor ezek nem feltétlenül szavakat jelentenek, hanem inkább szövegelemeket.
N-gram: Egy adott szöveg- vagy beszédminta N elemének egybefüggő sorozata.
Nem csupán szó n-gramokkal, de karakter n-gramokkal is tudunk számolni.
Culling: Az itt megadott szám jelentése, hogy a szó- vagy betűkombinációnak a korpuszban található szövegek hány százalékában kell előfordulnia ahhoz, hogy felhasználásra kerüljön az elemzés során.
Felhasznált távolságmértékek
Burrows deltája az egyik leggyakrabban használt távolságmérték. A 𝜇𝑖 és a 𝜎𝑖 a vizsgált szó átlagos előfordulását és szórását jelöli az egész korpuszban.
Eder deltája a Burrows-delta egy módosított verziója. Valamelyest megnöveli a gyakoribb szavak súlyozását, a ritkábbakét pedig csökkenti.
Az 𝑛𝑖 a vizsgált i-edik szó helye a listában, felülről.
A Koszinusztávolság (Cosine) szintén egy jól ismert, gyakran használt távolságmérték.
Két N dimenziójú vektor közötti hasonlóság mértéke a vektorok közötti szög koszinuszának
Eredmények
Korpusz: 15 szöveg
Culling: 10%
Feature: char 3-gram
Korpusz: 69 szöveg
Culling: 10%
Feature: char 3-gram
Korpusz: 15 szöveg
Culling: 10%
Feature: word 2-gram
Korpusz: 69 szöveg
Culling: 10%
Feature: word 2-gram
Vektortér - szóbeágyazás
Tóth Krisztina a Könyves Magazinban megjelent interjújában kifejtette, hogy mivel a gyermekek az iskolában olvasott művekből építik fel, milyenek a nemi szerepek, Jókai Mór Az aranyember című regényét ki kellene venni a kötelező olvasmányok közül.
"Tímea nem szereti a férjét, de engedelmesen szolgálja. Soha nincs egy rossz szava sem. Noémi szerelmes, de osztozik a férfin, sose kérdez, csak örül. Nem lázadozik hanem csinosan várja Tímárt, amikor az éppen ráér."
Hansági Ágnes a következőket írja Jókaival kapcsolatban:
"Timea ráadásul kifejezetten modern, emancipált nővé válik a regény végére."
"Jókai egyébként az egyik leginkább nőpárti írónk volt. A nőírókról folyó vitában kiállt mellettük."
Vektortér - szóbeágyazás
Felhasznált korpuszok:
Jókai-korpusz (66 regény, 6 elbeszélés, 14 kötet) + 8 naplórészlet, 2 útleírás, 9 korábbi kiadású novella
Referencia korpusz teljes anyaga (132 regény 55 szerzőtől)
Eredmények:
Köszönjük a figyelmet! magyar

#magyar irodalom#műelemzés#Jókai Mór (1825-1904)#statisztika#vizsgálat
Forrás
Videotorium
Kapcsolódó
Megtekintés a DKA oldalán