Webarchívum mint a tudományos kutatások tárgya
Németh Márton
Országos Széchényi Könyvtár
Webarchívum mint a
tudományos kutatások tárgya
A kutatás digitális forrásai
Az archivált webes anyagok önmagukban is a tudományos kutatás tárgyául szolgálhatnak.
Könyvtárosok, levéltárosok, információtudósok, digitális bölcsészeti szakemberek, adattudósok és informatikus szoftverfejlesztők dolgozhatnak együtt nagymennyiségű webes adattömegek strukturális és tartalmi alapú vizsgálatában.
A legutóbbi tíz évben új tudományos diszciplínák születnek - pl. webtörténelem.
Fő témakörök
Web történelem és web historiográfia
Webarchívumok és nagymennyiségű adatok (big data)
Webarchívumok és a szemantikus világháló
Web történelem és web historiográfia
Digitális Bölcsészet
(Nyílt hozzáférésű tudományos folyóirat)
A kutatás tárgya
A világháló műszaki infrastruktúrájának története;
A világháló kommunikációs és publikációs felületének története;
Egy adott témakör, esemény, intézmény, személy stb. világhálós történeti lenyomatának vizsgálata;
Szöveges vagy vizuális webes tartalmak illetve webes naplófájlok mint a big data elemzés tárgyai (pl. gépi tanulás a felhasználói szokások, viselkedés elemzésére).
A világháló műszaki infrastruktúrájának története;
A világháló kommunikációs és publikációs felületének története;
Egy adott témakör, esemény, intézmény, személy stb. világhálós történeti lenyomatának vizsgálata;
Szöveges vagy vizuális webes tartalmak illetve webes naplófájlok mint a big data elemzés tárgyai (pl. gépi tanulás a felhasználói szokások, viselkedés elemzésére).
A kutatás szintjei
Egyedi fájlok vagy weboldalak;
Egyedi webhely(ek);
Egyedi domén(ek);
Az egész világháló
Kihívások, problémák
Hiányos memento, archívum vagy megjelenítési hibák;
Temporal drift és live web leakage (egy adott weboldal vagy webhely egyes részeinek különféle időszakokban archivált részei amelyek egységes keretben jelennek meg)
Az archivált fájlok hitelessége;
Duplikátumok és URL cím megváltozása;
Egy adott domén tartalmának teljes megváltozása, stb.
A nemzeti webarchívumok közös kereshetőségének, kutatási infrastruktúrájának megteremtése - Niels Brügger EU-projekt terve -Transnational Research Use of Web ARChives (TRUeWARC).
Webarchívumok és a nagymennyiségű adatok kezelése
A webarchívumok mint nagyméretű webes korpuszok számos adattudományi projekt középpontjában állnak.
A nyílt kapcsolt adatok koncepciója kapcsán a webarchívumokban tárolt, részben strukturált adatok feldolgozása, illetve rejtett, releváns információk feltárása.
Újfajta együttműködési lehetőségek közgyűjtemények, webarchiváló szakemberek és adattudósok között.
Adattípusok és adatbányászati tevékenységek fajtái
Webtranzakciós adatok (pl. naplófájlok, geolokáció);
Strukturált adatok (pl. linkgráfok) ;
A tartalomhoz kötődő adatok (pl. szöveges vagy vizuális információk).
Adatbányászat és webhasználat;
Adatbányászat és webes struktúrák;
Adatbányászat és webes tartalmak.
Példa: BUDDAH (Big UK Domain Data for the Arts and Humanities)
65 TB begyűjtött tartalom
Az .uk domain 1996 és 2013 között;
SHINE történeti keresőmotor;
Trendek vizsgálata;
Információ vizualizáció ...
honlap: buddah.projects.history.ac.uk
Webarchívumok és a szemantikus web
Az archivált tartalmak hatékony és a tartalmi jelentésre irányuló visszakeresési módszereinek hiánya komoly akadálya annak, hogy a webarchívumokat használható és hasznos információforrássá lehessen alakítani.
Jelentős információtudományi kihívás a szemantikus webes módszerek és eszközök meghonosítása a webarchívumok környezetében.
A webarchívumoknak részévé kell válniuk a nyílt, kapcsolt adatok univerzumának, fejlett lekérdezési és adatintegrációs képességekkel. Meg kell teremteni a webarchívumok lekérdezésének lehetőségét külső rendszerek, szoftvereszközök által is.
Néhány lehetséges módszer
Entitások kinyerése;
RDF tripletek generálása;
Entitások gazdagítása külső erőforrásokból;
Kapcsolt adatok publikálása;
Szemantikus alapú fejlett lekérdezési lehetőségek és rangsorolási módszerek kialakítása
SolrMIA ( a magyar demo webarchívum keresőmotorja)
webadmin.oszk.hu/solrmia
Solr-alapú teljesszövegű index;
Metaadat alapú szűrés és találati listák megjelenítése;
Jövőbeni tervek:
Entitások kinyerése;
Metaadat gazdagítás névterekből és tezauruszokból.
Köszönjük a figyelmüket! Kérdések?
Magyar webarchiválási projekt: http://mekosztaly.oszk.hu/mia/
Demo webarchívum: http://mekosztaly.oszk.hu/mia/demo/
Válogatott bibliográfia a webarchiválás témakörében: http://mekosztaly.oszk.hu/mia/doc/webarchivalas-irodalom.html
e-mail: mia@mek.oszk.hu magyar