Inhaltsverzeichnis
Archivsysteme (Stand Ende 2015)
- es existieren viele digitale Findmittel
http://ariadne.uni-greifswald.de/images/Ariadne/index.html - für MV, enthält keine Dokumente
deutsche digitale bibliothek: https://www.archivportal-d.de/
Stadtarchiv Rostock hat teilweise digitalen Index: http://www.stadtarchiv-rostock.findbuch.net/
- vollständig digitaliserte Inhalte von Archiven sind selten
- Vorreiter z.B. Köln nach Einsturz, Crowdsourcing von Urkunden
digitale Archivaliensoftware
Semantic Mediawiki
- Archive die (Semantic) Mediawikis nutzen:
- Einschätzung zur Eignung für Archive:
- verbreitetes Bedienkonzept
- webbasiert
- maschinenlesbar
- Übersichten, Eingabemasken etc. schnell erstellbar
flexible Strukturierung & Abbildung von Datensätzen
- mehrsprachig
- Benutzer_innenverwaltung
verbreitete Import- & Exortfunktionen
- Open Source, keine Herstellerabhängigkeiten
- gängige Administration, kein Spezialwissen notwendig
- große, langlebige Entwicklungscommunity
- Hauptentwicklung durch Institut für Angewandte Informatik und Formale Beschreibungsverfahren (AIFB) Karlsruhe; Weiterentwicklung durch EU- und Firmenprojekte
- Grundlage bildet Mediawiki, dass durch die Wikimedia Foundation begleitet wird
automatisierbar -- https://www.mediawiki.org/wiki/Manual:Pywikibot
erweiterbar -- https://www.mediawiki.org/wiki/Semantic_Bundle
ICARUS
- betreiben:
- monasterium (400.000 mittelalterliche Urkunden)
- sehr gut dokumentiert
unterstützt durch http://coop-project.eu/
- monasterium (400.000 mittelalterliche Urkunden)
Topothek
- Firma die online Portal anbietet
ICA-AtoM
accesstomemory
- (noch) keine deutsche übersetzung
Namenforschung
- nutzen exist DB und typo3 Anbindung - aufwändig
Referenzverwaltung
https://en.wikipedia.org/wiki/Comparison_of_reference_management_software
- Zotero
multiuser Synchronisation - looft
- Export als rdf, csv;
https://github.com/urschrei/pyzotero - Python API
Digitalisierung
vom Bild zum Text zum Onlinearchiv
- Vorlage scannen
- Scans in ähnliche Formate bringen
- Texterkennung der Scans
- Text + Scan in archivierbares Format konvertieren
- Indizierung der Inhalte
- Suchmaske für Index
Scan
Texterkennung
https://help.ubuntu.com/community/OCR - Überblick
- tesseract
- cuneiform
- scantailor
- unpaper
tesseract
Artikel als jpg speichern und mittels tesseract Text extrahieren:
tesseract artikel.jpg artikel -l deu -psm 1
der Vorgang lässt sich gut parallelisieren:
parallel -j 2 tesseract {} {.} -l deu -psm 1 ::: /pfad/zu/bildern/*.jpg
Dateiformate
für bild+text -> pdf/a
- erzeugen:
Indizierung + Volltextsuche
http://www.lesbonscomptes.com/recoll/ recoll - Dateien indizieren
https://github.com/koniu/recoll-webui webrecoll - webbasierte Suche (python/bottle)
Installation & Einrichtung Semantic Mediawiki
Vorbereitung
Debian Jessie aufsetzen -- http://debian.org
notwendige Softwarepakete installieren:
aptitude install git php5-curl php5-cli php5-json php5-readline php5-fpm php5-apcu php5-intl php5-gd php5-mysql mariadb-common mariadb-server nginx-full imagemagick ghostscript poppler-utils
composer installieren
von der Webseite holen und entpacken -- https://getcomposer.org/download/
systemweit nutzbar machen:
mv composer.phar /usr/local/bin/composer
- DNS entsprechend anpassen (hier als Bsp.: das-digitale-archiv.org)
Mediawiki Installation
Mediawiki Software holen, entpacken und verlinken:
cd /var/www/ wget https://releases.wikimedia.org/mediawiki/1.27/mediawiki-1.27.1.tar.gz tar zxf mediawiki-1.27.1.tar.gz ln -s mediawiki-1.27.1 mediawiki chown -R www-data. mediawiki*
* nginx config anlegen:
server { server_name das-digitale-archiv.org; root /var/www/mediawiki; index index.php; client_max_body_size 5m; client_body_timeout 60; location / { try_files $uri $uri/ @rewrite; } location @rewrite { rewrite ^/(.*)$ /index.php?title=$1&$args; } location ^~ /maintenance/ { return 403; } location ~ \.php$ { include fastcgi_params; fastcgi_pass unix:/var/run/php5-fpm.sock; fastcgi_param SCRIPT_FILENAME $document_root$fastcgi_script_name; try_files $uri @rewrite; } location ~* \.(js|css|png|jpg|jpeg|gif|ico)$ { try_files $uri /index.php; expires max; log_not_found off; } location = /_.gif { expires max; empty_gif; } location ^~ /cache/ { deny all; } location /dumps { root /var/www/mediawiki/local; autoindex on; } }
nginx config aktivieren:
ln -s /etc/nginx/sites-available/ /etc/nginx/sites-enabled/ systemctl restart nginx.service
mysql db & user anlegen:
mysql -p > CREATE DATABASE archiv; > CREATE USER 'archiv_user'@'localhost' IDENTIFIED BY 'lk345vlk12asdaijrapogf'; > GRANT ALL PRIVILEGES ON archiv.* TO 'archiv_user'@'localhost'; > FLUSH PRIVILEGES; > exit;
Mediawiki Installationsroutine im Browser aufrufen (http://das-digitale-archiv.org)
- mysql Datenbank, Benutzer und Passwort angegeben
- Einstellungen zu Uploads, Lizenzen usw. treffen
abschließend wird eine Datei LocalSettings.php erzeugt, diese runterladen & ins mediawiki Verzeichnis kopieren (z.B. /var/www/mediawiki/)
- Damit ist die Installation des Mediawikis abgeschlossen.
SMW Installation
Semantic Mediawiki Erweiterung installieren:
cd /var/www/mediawiki/ composer require mediawiki/semantic-media-wiki "~2.4" --update-no-dev php maintenance/update.php
~2.4 entsprechend der gewünschten SMW Version anpassen (2.4 war Ende 2016 die stabile Version)
in LocalSetting.php ergänzen:
# SMW Wiki aktivieren enableSemantics( 'http://das-digitale-archiv.org' ); # Anzeige der Faktenbox steuern $GLOBALS['smwgShowFactbox'] = SMW_FACTBOX_NONEMPTY; # Breadcrumb fuer Kategorien anzeigen $wgUseCategoryBrowser = true; # Hochladen aller Dateitypen erlauben (nicht für öffentliche Wikis empfohlen) $wgEnableUploads = true; $wgCheckFileExtensions = false; $wgStrictFileExtensions = false; $wgVerifyMimeType = false; # PDF Dateien verarbeiten (Vorschau etc.) require_once "$IP/extensions/PdfHandler/PdfHandler.php";
schauen, ob alles läuft: http://das-digitale-archiv.org/index.php?title=Spezial:Version