Automatikus kézírás-felismertetés Kiss József levelezésén

Automatikus kézírás-felismertetés Kiss József levelezésén

Automatikus kézírás-felismertetés Kiss József levelezésén Automatikus
kézírás-felismertetés Kiss József levelezésén
Networkshop 2021.04.08.
Szűcs Kata Ágnes - Mihály Eszter
Kiss
József-projekt
Pilot projekt
Borbás Andrea; Horváth Dániel; Mészáros Tiborné; Mihály Eszter; Szűcs Kata Ágnes; Tóth Dóra; Török Sándor Mátyás; Vétek Bence
https://resolver.pim.hu/gyujtemeny/levelek/media/csatolt/"Kiss József1843-1921"
Szűrési lehetőségek
TEI XML publikáció
Mindeközben: kézírásfelismerő modell építése
Első magyar publikus kézírásfelismerő modell
Folyamatban: vegyes kézírásmodell
+ egyéb modellek
Terv:
egyre általánosabb modellek építése
szótárak készítése
I.A Transkribus-ról röviden
Vázlat
Mi az a Transkribus
Mit tudunk az automatikus kézírás-felismertetésről
Milyen eredményeket értünk el eddig.
Transkribus
Text Region
Base Line
Line
II. A kézírás-felismertetésről
Hivatalos How-to-k a Transkribus oldalán
https://transkribus.eu/wiki/images/3/34/H owToTranscribe_Train_A_Model.pdf
Mi kell hozzá?
Adott nyelvhez kötődő HTR modell
Min. 5000-15000 szót tartalmazó átírt kéziratos dokumentum
HTR modell készítés
Trainig set (90%)
Validation set (10%)
A Validation set CER értéke:
20-30%-kal Keyword Spotting
10% alatti modell már jónak számít
5% alatti modell kevés energiaráfordítással javítható
Modellépítés - eredmények
III. Tapasztalatok
Mitől lesz "jó" egy modell?
egy kéz által írt szövegek
korban egymáshoz közel keletkezett szövegek
egyféle forrástípus (pl. napló, levelezés, számadáskönyv, stb.)
Első fázis
Második fázis
tollal/ceruzával/írógéppel/nyomtatottan írt levelek külön kezelésének megszüntetése
Harmadik fázis
Értelmezési lehetőségek
a felosztás módja: automatikus vagy manuális
felosztás jellege: reprezentatív
az alapmodell használata javít a modell teljesítményén, és lerövidíti a training idejét
használatakor el kell kerülni a bias lehetőségét
fontos az epochok számának megfelelő meghatározása
Javítási lehetőségek
adatmennyiség növelése
Base Model használata (nagyobb korpusznál)
szótárak beépítése
polygon-ok alakjának manuális módosításával / eredeti alakjának megőrzésével
a túltanulás és a bias elkerülése
reprezentatívabb training és validation set-ek válogatása
epochok számának növelése (időigényes lehet)
nyelvi modell használata (futtatáskor)
A HTR modell ismeretlen szövegen
Kitekintés - lehetőségek
Következő lépések
A letisztított, végleges modell későbbi alapmodell lesz egy vegyes
kézírás-modellhez
Beépítés workflow-ba
Újabb modellek létrehozása (pl. Móricz-levelezés)
Egyre jobb általános magyar nyelvű modell építése
Modellek közzététele (folyamatban)
Modellek
Köszönjük a figyelmet! magyar

#automatizált munka#kézírás#felismerés#levelezés#kéziratos levél
Forrás
Videotorium
Kapcsolódó
Megtekintés a DKA oldalán