Az OSZK webarchívumának újdonságai

Drótos László
Az OSZK
webarchívumának újdonságai
"404 Not Found - Ki őrzi meg az internetet?" workshop
Országos Széchényi Könyvtár
Budapest, 2019. november 14.
A web egy hipermédia dokumentum?
https://boon.hu/kozelet/helyi-kozelet/uj-gazdara-talalhatnak-a-lomjaink-3875754/
208 fájlkérés
29 doménről
15-féle fájlformátum
15 megabájt összméret
157 kimenő link
58 domén irányába
9-féle bitsüti
A web egy hipermédia dokumentum?
CMS: WordPress 5.0.3
Widget: Facebook, Twitter
Analytics: Google Analytics, Gemius,
Chartbeat
Blog: WordPress 5.0.3
Captcha: reCAPTCHA
Font Script: Google Font API
Web Framework: Bootstrap
Miscellaneous: Twitter Emoji (Twemoji),
HTTP/2
Cache Tool: Varnish5.0
Programming Language: PHP
CDN: CloudFlare
Database: MySQL
Advertising Network: Adverticum
SEO: Yoast SEO9.4
JavaScript Libraries: jQuery 1.12.4, jQuery Migrate 1.4.1, jQuery UI 1.12.1
Egy mai weboldal részben már szoftver, melyet a webszerver és a böngésző együttesen futtat.
Az OSZK webarchívuma
indulás 2017-ben az Országos Könyvtári Rendszer projekt keretében;
ideiglenes szerverek a KIFÜ-nél (zárt archívum) és az OSZK-ban (nyilvános demó);
használt/tesztelt szoftverek: Heritrix, WAIL, WCT, NAS, Brozzler, Webrecorder, WARCreate, Warcit, Wget, HTTrack, Web ScrapBook, PyWb, OpenWayback, SolrWayback, Webrecorder Player, Nimbus, Grab Them All, Puppeteer ...;
2017-2019 közötti aratások
téma szerint: közgyűjtemény, felsőoktatás, kutatás/tudomány, kormányzat/önkormányzat, vallás/egyház, közművelődés/kultúra általában, szépirodalom, egyéb művészet
(előkészítés alatt: könyvkiadás/könyvkereskedelem);
esemény szerint: téli olimpia, országgyűlési/EP/önkormányzati választás, Rákóczi-emlékév;
intézmény szerint: az Országos Széchényi Könyvtár online szolgáltatásai;
műfaj szerint: elektronikus periodikák;
a .hu domén szerint: az első 2018 szeptemberében (291 ezer domén), a következő várhatóan 2019 decemberében (az eddig mentett weboldalakban linkelt további .hu végű domének és aldomének is);
zárt gyűjtemény: válogatott webhelyek száma: kb. 20 ezer, az archívum összmérete:
29 terabájt, a lementett fájlok/URL-ek száma közel 500 millió;
nyilvános gyűjtemény: 186 honlap, blog és időszaki kiadvány + 44 OSZK-s webhely
(teljes szövegű keresővel).
Az OSZK webarchívuma
Periodikák weboldalainak archiválása
Periodikák weboldalainak archiválása
Periodikák weboldalainak archiválása
Periodikák weboldalainak archiválása
A projekt egyéb újdonságai
A projekt egyéb újdonságai
A projekt egyéb újdonságai
Ismeretterjesztés
Ismeretterjesztés
Ismeretterjesztés
Nemzetközi kapcsolatok
Nemzetközi kapcsolatok
Nemzetközi kapcsolatok
Nemzetközi kapcsolatok
magyar tartalom átvétele az ArchiveTeam gyűjteményéből (626 gigabájt WARC fájl);
javaslatok az IIPC felé (pl. ajánlás az archiválást segítő mikroformátumokra) és válaszok a kérdőívekre (pl. az OpenWayback használatáról);
archiválási célból magyar linkek gyűjtése az IIPC tagok számára (pl. a christchurchi terrorista támadás, a Notre Dame leégése, klímaváltozás, mesterséges intelligencia, az EP választások);
szoftvertesztek és javaslatok a fejlesztőknek (pl. WCT, SolrWayback, Memento Tracer);
személyes kapcsolatok szlovák, cseh, osztrák, holland, belga, dán ... webarchiváló kollégákkal;
EU-s COST Action projekt-javaslatok támogatása: Transnational Research Use of Web ARChives (TRUeWARC) és Web ARChive Studies Network Researching Web Domains and Events (WARCnet);
részvétel és előadások külföldi konferenciákon (pl. IIPC WAC, IFLA, BOBCATSSS, CDA, Colloquium of Library and Information Experts of the V4+ Countries);
jövő évi terv: közép-európai együttműködés kezdeményezése a környező országok webarchívumai között (pl. közös portál és keresőfelület).
Középtávú tervek
tananyag a személyes webarchiválásról;
új tematikus gyűjtemények (pl. történelem/helytörténet, média, sport, közoktatás);
a nyilvános gyűjtemény bővítése és metaadatolása;
az RDA-alapú metaadatolás előkészítése;
új infrastruktúrára költözés;
új honlap, böngésző- és keresőfunkciókkal;
kapcsolódás az OKP moduljaihoz (pl. partner nyilvántartás, jogkezelés, hozzáférés kezelés, discovery eszköz, hosszú távú megőrzés, MNB), a Nemzeti Névtérhez (pl. települések honlapjai) és a többi digitális gyűjteményhez (pl. periodikák archivált weboldalainak kereshetősége az EPA-ban);
együttműködés a KDS pályázat nyerteseivel és más közgyűjteményekkel, egyetemekkel és kutatóintézetekkel, stb.
Rákóczi-emlékév webarchívum
Rákóczi-emlékév webarchívum
Rákóczi-emlékév webarchívum
Rákóczi-emlékév webarchívum
Rákóczi-emlékév webarchívum
Köszönöm a figyelmet! magyar