Az e-mailek hosszú távú megőrzése

Az e-mailek hosszú távú megőrzése 404 Not Found - "Ki őrzi meg az internetet?" videokonferencia és workshop
Országos Széchényi Könyvtár, 2021
Az e-mailek
hosszú távú megőrzése
Dr. Kalcsó Gyula
Petőfi Irodalmi Múzeum
Digitális Bölcsészeti Központ
Vázlat
A digitális megőrzés problémái és az e-mail
Az e-mailek megőrzésének módjai
Az OAIS és megőrzés csomagban
A Mailbag
A PIM workflow-ja
1. A digitális megőrzés problémái és az e-mail
Born digital - azaz digitálisan született
Olyan digitális objektum, amelynek nincs analóg előzménye, és nem is készíthető pontos analóg másolat róla (de nem feltétlenül digital exclusive!).
Objektum: lehet egy vagy több fájl és/vagy könyvtár halmaza.
A digitális megőrzés alapproblémái
A kezelésükkel kapcsolatos problémák a digitális létmódjukból adódnak:
a nagy mennyiség,
a heterogenitás,
a gyors elavulás,
az értelmezhetőség fenntartása.
Az e-mail mint szabvány
Az első e-mailt Ray Tomlinson küldte el magának 1971-ben (50 éve!)
Az Internet Engineering Task Force (IETF) 1981 óta szabványosítja.
Ezeket a dokumentumokat Request for Comments-nek hívják (RFC).
A jelenlegi standardot az üzenetformátumra vonatkozóan az RFC 5322 (IMF - Internet Message Format), az üzenetküldésre vonatkozóan az RFC 5321 (SMTP - Simple Mail Transfer Protocol) tartalmazza.
A fentiek mellett a hozzáférést szabályozó protokollok az Internet Message Acces Protocol (IMAP) és a Post Office Protocol v3 (POP3), továbbá a csatolmányokat szabályozó Multipurpose Internet Mail Extensions (MIME).
A szabványos formátumok
EML: az RFC 5322-re épülő fájlformátum, az elküldött e-mailek formátuma.
MBOX: szintén az RFC 5322-re épül, konténerformátum, több EML-fájlt tartalmaz legalább egy mappában.
Az e-mailek archiválása
2. Az e-mailek megőrzésének módjai
2016-tól működik
5 almunkacsoportja van
A fő feladata egy jelentés kidolgozása volt, amelyben javaslatokat is tesznek az e-mail-archiválás standardjaira
Az e-mailek megőrzése
1. Bitszintű megőrzés
2. Konverzió
3. Emuláció
Szoftverek
3. Az OAIS és megőrzés csomagban
Open Archival Information System Referenciamodell
A 2012-es Magenta Book -> ISO-szabvány (14721:2012)
Magas szintű elméleti modell a digitális környezetben keletkező adat/információ hosszú távú megőrzésére.
Csomagok
A digitális megőrzés (Digital Preservation) kulcsfontosságú tevékenységei
Ingest = bejuttatás/bevitel ~ befogadás/átvétel/gyarapítás
Preservation, Administration = megőrzés, adminisztráció
Access = hozzáférés
Különféle információs csomagokat ír elő
Submission Information Package (SIP) = átadás/átvétel
Archival Information Package (AIP) = megőrzés, adminisztráció
Dissemination Information Package (DIP) = szolgáltatás
Előírja azt is, hogy milyen típusú metaadatokat kell az információs csomagoknak tartalmazniuk.
Csomagok: Bagit
Bagit-csomagszerkezet
4. A Mailbag
Mailbag (University at Albany, SUNY)
A Mailbag-csomagszerkezet
5. A PIM workflow-ja
A PIM Mailbagjei: SIP
A PIM Mailbagjei: AIP
Előfeldolgozás, "adattriage"
"Törvényszéki" lemezképkészítés (biztonságos bitszintű másolat)
Fájlrendszerelemzés és -jelentés készítése (validáció, hasonlósági jelentés, vírus- és malware-ellenőrzés, duplumszűrés stb.)
Érzékeny adatok kiszűrése
Technikai és egyéb metaadatok előállítása
SIP-csomag készítése stb.
OAIS-kompatibilis repozitóriumok
Legyen képes SIP-csomagot fogadni, abból AIP- és DIP-csomagot előállítani.
Legyen képes az ezekhez szükséges műveletek elvégzésére, vagy legalább alkalmassá lehessen erre tenni.
Tudja kezelni a METS-et, a PREMIS-t, valamint tetszőleges metaadatsémát, továbbá OAI-PMH-kompatibilis legyen.
Legyen API-ja, testreszabható legyen.
Összekapcsolható legyen más rendszerekkel.
Lehetőleg nyílt forráskódú és ingyenes legyen.
A PIM born digital workflow-ja
(Mohay Anikó)
Köszönöm a figyelmet!
Dr. Kalcsó Gyula
kalcso.gyula@dbk.pim.hu magyar