A szemantikus adatpublikáció gyakorlati kérdései - tények és mítoszok

"A szemantikus web technológiájának alkalmazása sok közgyűjtemény számára többoldalú kihívást jelent. Új szemléletmódot, a könyvtári feldolgozás munkafolyamatának teljes átalakítását. Valójában a könyvtártudomány és informatika nagyon szerencsés egymásra találásának vagyunk szemtanúi, amely két szempontból is gyümölcsöző a könyvtárosok számára. Az előadás áttekintést adott a fejlődési folyamat legfontosabb mérföldköveiről, amelyek előkészítették a napjainkban is zajló változást. A könyvtárak előtt álló feladatokról és választási lehetőségekről is szó esett."(Forrás: https://ki.oszk.hu/hir/kutatasi-es-szervezetfejlesztesi-osztaly/korkep-az-egyetemi-kutatasokrol-elerheto-prezentaciok) A szemantikus adatpublikáció gyakorlati kérdései
Tények és mítoszok
Hubay Miklós humáninformatikus Petőfi Irodalmi Múzeum ELTE ITDI
Num necesse est horrere?
Z39.50
OAI SRU/SRW SWORD
a szemantikus web technológiája
Adatok átadása más felhasználóknak, szolgáltatásépítés céljából
Szemantikus (értelemmel teli) web
A jelenlegi világhálót kiegészítő, új réteg, amelynek alapegysége a dokumentum helyett az adat és a kapcsolat
Nyikolaj Szemjonovics Rubasov
Winston Smith
Ezerkilencszáznyolcvannégy
Sötétség délben
Arthur Koestler
George Orwell
198, [2] oldal
Franklin Társulat
1948
963-7994-98-X
Az Ezerkilencszáznyolcvannégy főhőse Winston Smith
A Sötétség délben szerzője Arthur Koestler
Az Ezerkilencszáznyolcvannégy megjelenési éve
1948
Hogy érti meg a gép?
Egységes azonosító (URI)
Tim Berners-Lee javaslata: HTTP-formátum
Nem dokumentumra mutat, hanem azonosít!
Szükség esetén azonban rendelhető hozzá további információ
http://963-77999944-9988-X
https://viaf.org/viaf/95155403 (Orwell)
http://www.geonames.org/719819 (Magyarország)
És a kapcsolat?
Egységes azonosító (URI)
http://id.loc.gov/ontologies/bibframe/title http://id.loc.gov/ontologies/bibframe/translationOf http://id.loc.gov/ontologies/bibframe/dimensions
Egy terület (pl. a könyvtártudomány) relációi összegyűjtve: szótár / ontológia
BIBFRAME / bibliotek-o / PMO / BIBO / DCRDF / ...
Kiegészíthetik egymást!
Kapcsoljuk össze!
RDF - Resource Description Framework
leíró keretrendszer
A Sötétség délben - szerzője - Arthur Koestler
Adat1 - kapcsolat - Adat2
URI - URI - URI
Három URI összetartozásának formalizálása ún. állítások formájában történik, ezeket az állításokat tripleteknek nevezzük
Az informatikai háttér összefoglalása
Azonosítók (URI-k) a dolgoknak -> névterekből (pl. VIAF, GeoNames, Magyar Nemzeti Névtér, Getty, stb.)
Azonosítók (URI-k) a kapcsolatoknak -> szótárakból (pl. BIBFRAME)
Összekapcsolás az RDF segítségével -> tripletek -> adathálózat (web of
data, linked data) -> ~ szemantikus web
Az állítások közzététele, szolgáltatása a fogadónak megfelelő formátumban
(RDF/XML, JSON-LD, stb.)
Miért jó a könyvtárnak?
Általános, közérthető, webes szabvány -> kiszélesíti a választható informatikai
megoldások körét (pl. adatvizualizáció)
Általános, közérthető, webes szabvány -> az adatok konverzió után jóval
szélesebb felhasználói körhöz juthatnak el, mint a MARC használatával
Új, kiterjesztett felhasználói élményt biztosító discovery-szolgáltatások építését
teszi lehetővé
Lehetővé teszi a funkcionális modellek (FRBR, FRAD, FRSAD -> LRM) és az ezeken
alapuló RDA katalogizálási szabályzat a mainál jóval hatékonyabb alkalmazását
Felhasználható a keresőbe jutáshoz
A MARC tupírozható, de...
Az összetett entitásszerkezet és kapcsolati háló
megfelelő megjelenítésére nem képes
RDF - Resource Description Framework leíró keretrendszer
URI-k beszúrása a megfelelő almezőkbe -> a saját entitások összepárosítása közismert névterekkel
Mit lehet már ma?
Adatkihozatal, konverzió -> szolgáltatás gráfadatbázisból (triplestore)
Integrált könyvtári platformok (Alma, OliSuite, ...)
RDF-nézet
Szolgáltatás API-n keresztül (választható szótár szerint)
A teljes halmaz publikálása (választható szótár szerint)
Online metaadat-beviteli felületek (CEDAR, Sinopia, OSZK Tudástár...)
Tetszés szerint, több szótár alapján konfigurálható űrlapok
MARC-alapú OPAC-ok gazdagítása entitás-információkkal
Magyar Nemzeti Múzeum Könyvtára - a MARC mellett gráfadatbázis is szolgáltat
Discovery felületek
SHARE-VDE - entitások mentén történő keresés (művek, ágensek), névtér-kapcsolatokkal, névformákkal
Adatvizualizációs megoldások
Petőfi Irodalmi Múzeum - a MARC-ból érkező adatok szemantikus jelölése alapján
https://developers.exlibrisgroup.com/alma/integrations/linked_data/BIBFRAME/
CEDAR, Stanford (Center for Expanded Data Annotation and Retrieval)
https://cedar.metadatacenter.org/dashboard?folde rId=https:%2F%2Frepo.metadatacenter.org%2Ffold ers%2Fd1f8d529-1759-4d3b-93e3-70d97c775727
MNM Könyvtár Relációs és gráf-adatbázis együttműködése
SHARE-VDE.org (Virtual Discovery Environment)
A Petőfi Irodalmi Múzeum vizualizációs megoldása
http://resolver.pim.hu/auth/PIM53067
BIBFRAME a gyakorlatban - konverzió az Országos Széchényi Könyvtárnak
Kiinduló feladat
Redundancia
337 (médiatípus, RDA)
és 007/00 (anyag kategóriája)
és 000/06 (rekordtípus)
338 (hordozótípus, RDA)
és 007/01 (specifikus anyagmegjelölés)
és 008/23 (példányforma (item form))
Részleges redundancia
000/18 alapján
Inkább központozási adatok
Művek tulajdonságai a rögzített hosszúságú mezők alapján
Megjelenési formák tulajdonságai a rögzített hosszúságú mezők alapján
MarcKey, MatchKey, SortKey, Label
A BFLC „hivatalos” kiegészítésében definiált tulajdonságok a személyek/testületek, valamint címek megfelelő konverziójához
Főszabály: az almezők sorrendjének megtartása, majd…
MatchKey – indikátorértékek és almezőjelek eldobása
MarcKey – indikátorértékek és almezőjelek
megtartása
rdfs:label – indikátorértékek és almezőjelek eldobása
titleSortKey – rdfs:label + a második indikátorban
jelzett kihagyandó karakterek eldobása
name00MarcKey name00MatchKey name10MarcKey name10MatchKey name11MarcKey name11MatchKey
primaryContributorName00MatchKey primaryContributorName10MatchKey primaryContributorName11MatchKey
title00MarcKey title00MatchKey title10MarcKey title10MatchKey title11MarcKey title11MatchKey title30MarcKey title30MatchKey title40MarcKey title40MatchKey
titleSortKey
A $0 értékek problémája
=710 2
$a Franklin Társulat Magyar Irodalmi Intézet és Könyvnyomda
$e kiadó
$4 pbl
$9 60166
Nem szerepeltek $0 értékek (azonosítók) a téves űrlap- beállítás miatt
A keresőbe jutás mítosza
A keresőbe jutás mítosza
Az oldalaknak állandó URL-je van (linkfeloldás)
Oldaltérkép / robots.txt segíti az indexelőrobot munkáját
Az oldalakra linkek mutatnak (linkcsere pl. Wikidatával, Wikipediával) általános, a keresők által is használt szótár, könyvtári dokumentumokra is alkalmazható
az OPAC megjelenítő sablonjában kell elhelyezni
több discovery szoftver már tudja automatikusan
https://kifu.videotorium.hu/hu/recordings/24689/online-katalogusok-felhozasa-a-felszini-webre
Köszönöm a figyelmet! magyar