Unterschiede zwischen den Revisionen 1 und 2
Revision 1 vom 2016-03-18 10:12:30
Größe: 3130
Autor: anonym
Kommentar: erste recherche ergebnisse und tests
Revision 2 vom 2016-03-18 10:19:17
Größe: 3264
Autor: anonym
Kommentar:
Gelöschter Text ist auf diese Art markiert. Hinzugefügter Text ist auf diese Art markiert.
Zeile 95: Zeile 95:
Zeile 97: Zeile 96:
 * recollindex
 * webrecoll
 * [[http://www.lesbonscomptes.com/recoll/ recoll]] - Dateien indizieren
 * [[https://github.com/koniu/recoll-webui webrecoll]] - webbasierte Suche (python/bottle)

Archivsysteme (Stand Ende 2015)

digitale Archivaliensoftware

semantic mediawiki

ICARUS

Topothek

ICA-AtoM

accesstomemory

Namenforschung

Referenzverwaltung


Digitalisierung

vom Bild zum Text zum Onlinearchiv

  • Vorlage scannen
  • Scans in ähnliche Formate bringen
  • Texterkennung der Scans
  • Text + Scan in archivierbares Format konvertieren
  • Indizierung der Inhalte
  • Suchmaske für Index

Scan

Texterkennung

tesseract

  • Artikel als jpg speichern und mittels tesseract Text extrahieren:

    tesseract artikel.jpg artikel -l deu -psm 1
  • der Vorgang lässt sich gut parallelisieren:

    parallel -j 2 tesseract {} {.} -l deu -psm 1 ::: /pfad/zu/bildern/*.jpg

Dateiformate

Indizierung + Volltextsuche

DigitaleArchive (zuletzt geändert am 2018-03-09 11:12:06 durch anonym)


Creative Commons Lizenzvertrag
This page is licensed under a Creative Commons Attribution-ShareAlike 2.5 License.