A Digitális Örökség Nemzeti Laboratórium internetes újságcikk-kereső és archiváló szolgáltatása

A Digitális Örökség Nemzeti Laboratórium internetes újságcikk-kereső és archiváló szolgáltatása

A Digitális Örökség Nemzeti Laboratórium internetes újságcikk-kereső és archiváló szolgáltatása A Digitális Örökség Nemzeti Laboratórium internetes újságcikk-kereső és archiváló szolgáltatása
Sárközi-Lindner Zsófia, Indig Balázs
2021, Budapest
NWS2021
Cikk-kereső
ELTE BTK TI Digitális Bölcsészet Tanszék / Webaratás projekt
Digitális Örökség Nemzeti Laboratórium / Magyar nyelvű anyagok webaratása
Elsődleges céljaink:
archiválás
anyagok tisztítása, metaadatolása, repozitóriumba szervezése
kutatható formában való közzététel
jogi háttér tisztázása
Bevezetés
digitális térben keletkező kulturális örökség
a jövő történeti dokumentumai
nyomtatott sajtó digitalizálása és közzététele vs. online hírportálok
kereshetőség
Az ELTE DH webaratás projektje
webcrawler: saját fejlesztés, szabad szoftver
célzott webaratás = előre meghatározott weboldalak specifikus bejárása
lényege: kevés paraméter konfigurációjával, több ismétlődő szint elemzésére épít.
előnye: duplikáció minimalizálása, alacsony erőforrásigény, fenntarthatóság
Az archiválás formátuma: WARC (Internet Archive, ISO szabvány.)
hitelesített "pillanatfelvételek"
legfontosabb szempontok, előnyök:
eltűnéstől, módosulástól való védelem
az eredeti anyagok bármikor elérhetőek, a hibák utólag javíthatóak
a feldolgozott anyagok reprodukálhatóak és hitelességük az archivált forráskódok segítségével ellenőrizhető
A feldolgozás kimeneti formátuma: TEI XML
Text Encoding Initiative által karbantartott XML szabvány
a bölcsészettudományok különböző szövegeinek modellezésére fejlesztették ki
metaadatokat és a dokumentumtörzs strukturálisan egy fájlban
A Schema.org metaadat-szabvány:
webes erőforrásokkal kapcsolatos információk tárolására tervezték
kompatibilis a szemantikus web technológiával
A szövegtörzs kódolása
a TEI ajánlásokat, szabályokat követve testreszabott sémában
az online cikkek sajátos strukturális-tartalmi egységeit tükrözi
a különböző portálok egységesítésével
Az archivált anyag átdolgozása
A normalizálás, a konzisztencia megteremtése során figyelmet fordítunk:
deskriptív szövegek, multimédiás tartalmak, tipográfiai elemek
releváns szövegegységek és tagolók megkülönböztetése
külső-belső hivatkozási rendszert alkotó linkek megőrzése
"zajos" normalizált, konzisztens, valid
Alapozás: sablonszűrés
Az aktuális portál sémájának feltérképezése: címkekészlet, felépítés kivonata
Kiértékelése: sablonszűrés finomítása, címkekészlet megfeleltetése a használt szövegegység típusoknak
Konvertálás: a konfigurációs fájlok + a kimeneti séma szabályai alapján automatizáltan.
A módszer előnyei és hátrányai
- több időt igényel, mint egy általános, automatikus eszköz
- több karbantartást igényel (konfigurációs fájlok kezelése)
+ teljes kontroll a szövegek kezelése felett
+ a kül. portálok közötti konzisztencia megteremtése ('emberi' szempontok alapján)
+ pontosabb, széleskörűbb metaadatolás
+ a crawling során keletkezett hibák, hiányosságok gyorsabb, pontosabb detektálása (szövegminőség, hiányzó oldalak, további szintek)
+ a tapasztalatok felhasználásával a feldolgozás ideje redukálható, a folyamat automatizálhatóbb
Repozitórium: Zenodo
nyílt hozzáférésű repozitórium, European OpenAIRE program keretében fejlesztették ki, a CERN működteti
tanulmányok, dokumentumok, adatkészletek, szoftverek etc.
minden feltöltött objektumhoz szabványos DOI-t biztosít
50 GB/objektum méretű feltöltéseket tesz lehetővé
A learatott és feldolgozott anyag repozitálásának szisztémája :
(portálonként 3 objektum-típusban reprezentálva)
WARC fájlok + dokumentáció / crawling folyamat (portálonként több objektum)
TEI XML fájlok + konfigurációs fájlok + log-ok 3)
A fenti 2 vagy több objektumot összefogó, azok viszonyát tisztázó "meta-objektum"
Az aratástól a keresőig
A kereső felülete
Technikai háttér: SQL adatbázis, PHP lekérdezőfelület
szabadszöveges + metaadatokban való keresés
kiküszöböli az egyes portálok archívumainak különbségeit
Szerzői jogi szempontok:
a kereső csak a metaadatokat jeleníti meg
linkkel hivatkozik az eredeti cikk URL-jére
a letöltött anyag és a kereső csak kutatók számára, non-profit céllal érhető el
https://cikk-kereso.elte-dh.hu/
Összefoglalás és jövőbeli tervek
Folyamatosan bővülő, hiteles anyag gondozottan, repozitóriumba gyűjtve
Nyílt, átlátható, testreszabható know-how.
Metaadat kereső
A kutatók számára azonnal elérhető!
Szemantikus adatgazdagítás (NLP, NER, Wikifikáció)
Nagyobb automatizálás, kevesebb emberi interakció
https://zenodo.org/communities/elte-dh/
https://github.com/elte-dh
Magyar nyelvű anyagok webaratása - DH-LAB
https://cikk-kereso.elte-dh.hu/
Köszönöm a figyelmet ! magyar

#könyvtárügy#tartalomszolgáltatás#keresőszolgáltatás#újságcikk#archivált példány#on-line katalógus#web#metaadat#jogszabály
Forrás
Videotorium
Kapcsolódó
Megtekintés a DKA oldalán