Inhaltsverzeichnis
Archivsysteme (Stand Ende 2015)
- es existieren viele digitale Findmittel
http://ariadne.uni-greifswald.de/images/Ariadne/index.html - für MV, enthält keine Dokumente
deutsche digitale bibliothek: https://www.archivportal-d.de/
Stadtarchiv Rostock hat teilweise digitalen Index: http://www.stadtarchiv-rostock.findbuch.net/
- vollständig digitaliserte Inhalte von Archiven sind selten
- Vorreiter z.B. Köln nach Einsturz, Crowdsourcing von Urkunden
digitale Archivaliensoftware
semantic mediawiki
- Bsp.:
- entwickelt durch: Institut für Angewandte Informatik und Formale Beschreibungsverfahren (AIFB) Karlsruhe; Weiterentwicklung durch EU- und firmenprojekte
- webbasiert
- einfache Benutzung und ist trotzdem maschinenlesbar
- schnell Übersichten erstellbar
- Bsp.:
sinnvolle erweiterungen: https://www.mediawiki.org/wiki/Semantic_Bundle
ICARUS
- betreiben:
- monasterium (400.000 mittelalterliche Urkunden)
- sehr gut dokumentiert
unterstützt durch http://coop-project.eu/
- monasterium (400.000 mittelalterliche Urkunden)
Topothek
- Firma die online Portal anbietet
ICA-AtoM
accesstomemory
- (noch) keine deutsche übersetzung
Namenforschung
- nutzen exist DB und typo3 Anbindung - aufwändig
Referenzverwaltung
https://en.wikipedia.org/wiki/Comparison_of_reference_management_software
- Zotero
multiuser Synchronisation - looft
- Export als rdf, csv;
https://github.com/urschrei/pyzotero - Python API
Digitalisierung
vom Bild zum Text zum Onlinearchiv
- Vorlage scannen
- Scans in ähnliche Formate bringen
- Texterkennung der Scans
- Text + Scan in archivierbares Format konvertieren
- Indizierung der Inhalte
- Suchmaske für Index
Scan
Texterkennung
https://help.ubuntu.com/community/OCR - Überblick
- tesseract
- cuneiform
- scantailor
- unpaper
tesseract
Artikel als jpg speichern und mittels tesseract Text extrahieren:
tesseract artikel.jpg artikel -l deu -psm 1
der Vorgang lässt sich gut parallelisieren:
parallel -j 2 tesseract {} {.} -l deu -psm 1 ::: /pfad/zu/bildern/*.jpg
Dateiformate
für bild+text -> pdf/a
- erzeugen:
Indizierung + Volltextsuche
- recollindex
- webrecoll