Inhaltsverzeichnis

Archivsysteme (Stand Ende 2015)
digitale Archivaliensoftware
Referenzverwaltung
Digitalisierung
vom Bild zum Text zum Onlinearchiv

Archivsysteme (Stand Ende 2015)

es existieren viele digitale Findmittel
- http://ariadne.uni-greifswald.de/images/Ariadne/index.html - für MV, enthält keine Dokumente
deutsche digitale bibliothek: https://www.archivportal-d.de/
Stadtarchiv Rostock hat teilweise digitalen Index: http://www.stadtarchiv-rostock.findbuch.net/
vollständig digitaliserte Inhalte von Archiven sind selten
- Vorreiter z.B. Köln nach Einsturz, Crowdsourcing von Urkunden

digitale Archivaliensoftware

semantic mediawiki

http://archiv.twoday.net/stories/97042331/
Bsp.:
- http://archiv.ub.uni-stuttgart.de/UAMatrikel/index.php/Hauptseite
- http://encyclopedia.1914-1918-online.net/project/faq/
entwickelt durch: Institut für Angewandte Informatik und Formale Beschreibungsverfahren (AIFB) Karlsruhe; Weiterentwicklung durch EU- und firmenprojekte
webbasiert
einfache Benutzung und ist trotzdem maschinenlesbar
schnell Übersichten erstellbar
Bsp.:
sinnvolle erweiterungen: https://www.mediawiki.org/wiki/Semantic_Bundle

ICARUS

http://icar-us.eu/
betreiben:
- monasterium (400.000 mittelalterliche Urkunden)
  - sehr gut dokumentiert
  - https://github.com/icaruseu/mom-ca/wiki
  - unterstützt durch http://coop-project.eu/

Topothek

http://www.topothek.at/
Firma die online Portal anbietet

ICA-AtoM

http://wiki.archivesportaleuropefoundation.eu/index.php/Main_Page

accesstomemory

http://accesstomemory.org
(noch) keine deutsche übersetzung

Namenforschung

http://www.namenforschung.net
nutzen exist DB und typo3 Anbindung - aufwändig

Referenzverwaltung

https://en.wikipedia.org/wiki/Comparison_of_reference_management_software
Zotero
- multiuser Synchronisation - looft
- Export als rdf, csv;
- https://github.com/urschrei/pyzotero - Python API

Digitalisierung

vom Bild zum Text zum Onlinearchiv

Vorlage scannen
Scans in ähnliche Formate bringen
Texterkennung der Scans
Text + Scan in archivierbares Format konvertieren
Indizierung der Inhalte
Suchmaske für Index

Scan

Texterkennung

https://help.ubuntu.com/community/OCR - Überblick
- tesseract
- cuneiform
- scantailor
- unpaper

tesseract

Artikel als jpg speichern und mittels tesseract Text extrahieren:
```
tesseract artikel.jpg artikel -l deu -psm 1
```

der Vorgang lässt sich gut parallelisieren:

parallel -j 2 tesseract {} {.} -l deu -psm 1 ::: /pfad/zu/bildern/*.jpg

Dateiformate

für bild+text -> pdf/a
erzeugen:

Indizierung + Volltextsuche

recollindex
webrecoll

Geschützte Seite
Kommentare
Diskussion
Info
Dateianhänge
Weitere Aktionen:

Ein systemausfall.org Wiki - angetrieben durch MoinMoin

Creative Commons Lizenzvertrag

This page is licensed under a Creative Commons Attribution-ShareAlike 2.5 License.