Web harvesztelés

Webharvesztelés Automatikus módszerekkel Web harvesztelés Automatikus módszerekkel
Kovács Péter
Országos Széchényi Könyvtár

Miről lesz szó?
Mi is az a web harvesztelés?
Mire és hol használjuk? Miért hasznos?
Saját megvalósításaink

Mi a web harvesztelés? (web aratás)
Interneten található weboldalak begyűjtése, majd az adatok feldolgozása (Pl.: kereshetővé tétele)
Lépések
Adatok begyűjtése (crawl)
Feldolgozás (index)
Közzététel (search)

Nem egy új keletű dolog

Mire és hol használjuk a szolgáltatást, miért hasznos?
Főként keresésre használjuk
Otthon, munkahelyen, iskolákban – mindenhol, ahol internet van
Hasznos
Gyors, egyszerű keresés
Szűrési lehetőségek („” , site: stb.)
Tárolt változat

Hasznosak, ingyenesek, DE…
Nem a sajátunk, ezért
Nem azt aratjuk, amit mi szeretnénk
Nem akkor aratunk, amikor mi szeretnénk
Forráskód nincs a birtokukban, ez fejlesztési szempontból hátrány
Harvesztelt adatok sincsenek a birtokunkban
Kulturális értékeket meg kell őrizni, ennek a legjobb módja, ha eltároljuk őket

Saját megoldások
Szerettünk volna olyan megoldást, ahol MI irányítjuk a harvesztelést + adott esetben fejleszteni is tudjuk a szolgáltatást
3 dolog hiányzott: Szerver, tárhely, ember.
Open Source programokat kerestünk
Ingyenesek
Forráskód, beállítások elérhetők
Segítség (Forum, wiki, howto)

Szerver
Teszteléshez használt konfiguráció (Hp Proliant ML350)
2 magos Intel Xeon Processzor (32 bit)
2 GB RAM
SCSI merevlemez
Javasolt szerver konfiguráció (Ideális esetben 3 szerver)
2*2 vagy 1*4 magos processzor (64 bit)
8 GB RAM
SAS vagy SSD merevlemez

Operációs rendszer
Debian linux 5.0 (Lenny)
Linux disztribúciók közül az egyik legjobb
Vannak tapasztalataink
Gyors, stabil, biztonságos
Ingyenes

Felhasznált programok
Crawler – adatok begyűjtését végzi
Indexer - fulltext kereséshez
Indexer – URL kereséshez
Java alap kereső felületekhez használjuk

Folyamat
Adat gyűjtés (Crawl)
Adatok indexelése (Fulltext és URL kereséshez)
Központi adattároló (Storage)
Kereső felületek

Heritrix
Aktuális stabil verzió: 3.0.0
Weboldalak begyűjtését végzi (crawl)
Warc.gz fájlokban tárolja az adatokat
WARC (Web ARChive) fájl – képeket, dokumentumokat stb. is a fájlban tárolunk
Tömörített fájl – helymegtakarítás fontos a nagyobb harveszteléseknél
Szabványnak köszönhetően más programok gond nélkül kezelik

WARC fájl – timestamp (időbélyeg)
Fájl névben van egy időbélyeg – mikor készült a fájl
Minden egyes url mellé a Heritrix szintén hozzáad egy időbélyeget
Pl.: 20090914123124 – Egyedi
Fontos szerepe van

Heritrix - GUI

nutchwax
Jelenlegi stabil verzió 0.13
Begyűjtött adatokat indexeljük vele
I/O műveletek miatt magas memória és gyors merevlemez igény
Index adatbázisban keresünk
Fulltext keresés
Mindent leindexel ami a warc fájlban van
Szöveges dokumentumokban (PDF, DOC, RTF stb.) is kereshetek
Képek, videók, flash fájlok stb nevére kereshetek

Nutchwax - Search
Java alapú kereső, Apache Tomcat alatt fut
Java miatt lassú, nem könnyű szerkeszteni

Nutchwax - Opensearch
Nem kell hozzá Java, HTML alapú
Gyors, könnyű beágyazni weblapokba

Nucthwax – search vs. opensearch

Opensearch - all versions

Wayback machine
Jelenlegi stabil verzió 1.4.2
Szintén a begyűjtött adatokat indexeljük vele
Index adatbázisában keresünk (kisebb méret)
URL-ek keresésére használjuk
Kezeli az időbélyegeket
Azonos URL címek között különbséget tesz
Verziókövetésre kiváló

Timestamp példa
http://www.oszk.hu/index.html aratva lett:
20090914123124 = 2009.09.14 12:31:24
20091023092522 = 2009.10.22 09:25:22
Bár az URL cím ugyanaz, az időbélyeg, mint egy egyedi azonosító megkülönbözteti a 2 harvesztelést

Wayback kereső

www.oszk.hu/index.html - 2009.09.14
www.oszk.hu/index.html - 2009.10.22

Heritrix vs. Google

Hol tartunk, tervek
Tesztelési fázis
Kell még tesztelni
Új szerver – 6.0-ás Debián tesztje
Tervek
Teljes magyar domain (.hu) fél évenkénti, illetve különböző oldalak - események időszakos harvesztelése
Két további szerverre lenne szükség, ezzel kapcsolatban már fordultunk a fenntartókhoz

Forrásanyagok
http://crawler.archive.org/
http://archive-access.sourceforge.net/projects/nutch/
http://www.archive.org/web/web.php
http://tomcat.apache.org/

Köszönöm a figyelmet
kovacs.peter@oszk.hu magyar

#internet #alkalmazás #web #weblap #adatgyűjtés #adatfeldolgozás

Forrás

Networkshop

Kapcsolódó

Drótos László: Mi a MIA? Javaslat egy Magyar Internet Archívum létrehozására

Megtekintés a DKA oldalán