Kísérleti webaratás projekt az OSZK-ban

Drótos László - Németh Márton
Kísérleti webaratás projekt az OSZK-ban
"404 Not Found -
Ki őrzi meg az internetet?"
workshop
Országos Széchényi Könyvtár
Budapest, 2017. október 13.
Mi lenne a cél?
egy leendő, üzemszerűen működő, fenntartható magyar internet archívum műszaki, emberi, szervezeti és jogi feltételeinek megteremtése
az internetes tartalmak mentéséhez szükséges tudás elterjesztése a hazai közgyűjteményekben és helyi archívumok indításának ösztönzése
bekapcsolódás a webarchívumok közötti nemzetközi együttműködésbe
Mit csináltunk eddig?
tervezés: koncepció, ütemterv, forrásigény, munkamegbeszélések, gyűjtőkör
munkatársak: informatikus, webkönyvtáros, webadminisztrátor, témafelelős, (rendszergazda?)
hardver: KIFÜ-s aratószerver (20 TB); OSZK-s teszt- és adminisztrátori szerver, MEK-es tanulószerver
szoftver: Heritrix, Open Wayback, Web Curator Tool (további tesztek: HTTrack, WAIL, Webrecorder.io, Webrecorder Player, WARCreate, GrabThemAll)
formátum: WARC tárolóformátum, CDX indexfájlok
tesztaratások: nagyobb méretű terhelési tesztek, válogatások (könyvtárak, múzeumok, levéltárak, egyetemek, e-periodikák), az OSZK saját felületei
ismeretszerzés: szakirodalom áttekintése, bibliográfia összeállítása, szabványok és szakkönyv beszerzése (Könyvtártudományi Szakkönyvtár), dán PhD szeminárium
ismeretterjesztés: ideiglenes projekt honlap (mekosztaly.oszk.hu/mia), wiki, levelező lista, belső tájékoztató, előadások (pl. MEK Egyesület közgyűlése,
"A jövő könyvtára felé..." webinárium, MKE Vándorgyűlés, Coginfo.com, terv: MUZEUM@DIGIT), tanulmányok és szemlék (pl. TMT, Könyvtári Figyelő, Digitális Bölcsészet)
kapcsolatépítés: hazai partnerek megkeresése (pl. közgyűjtemények, egyetemi tanszékek), külföldi kapcsolatok (pl. holland, belga, dán, osztrák, szlovák, szlovén), IIPC csatlakozás kezdeményezése
Mit tervezünk még?
nyilvános demó: mentések ellenőrzése, engedélykérések, szolgáltatófelület
új hardver: konfiguráció megtervezése, beszerzés indítása
további szoftverek: NetarchiveSuite, Brozzler, Crawljax, Webrecorder (saját szerveren), WAIL (Linux alatt)
szelektív archiválás: tematikus és eseményalapú gyűjtések (videók nélkül!) és ezek metaadatolása partnerintézmények és internetezők bevonásával
domain szintű aratás: reprezentatív szintű mentés a .hu
alatt bejegyzett szerverek (több mint 700 ezer) nyilvános tartalmáról évente kétszer (zárt archívum)
statisztikák: adatok és grafikonok a mentett tartalomról
ajánlás: tanácsok jól archiválható webhelyek kialakításához
Mit tervezünk még?
tanfolyam: a Könyvtári Intézet által szervezett 30 órás továbbképzés közgyűjteményi dolgozóknak
szabályozás: belső szabályzatok (pl. hozzáférés, személyi adatok védelme) és jogszabály-módosítási javaslatok
integrálás: a webarchívum illesztése a leendő új könyvtári rendszerhez és munkafolyamatokhoz (metaadatolás, jogkezelés, közös kereső, hosszú távú megőrzés)
távlati tervezés: egy üzemszerűen működő magyar internet archívum rendszerterve és fenntarthatósági terve
együttműködés: kutatókkal (hasznosítás), magyar és külföldi archívumokkal (pl. Memento-alapú közös kereső)
retrospektív archiválás (pl. Internet Archive, Common Crawl, PetaByte Kft. anyaga, winchesterek a "padláson") magyar