Inhaltsverzeichnis

Archivsysteme (Stand Ende 2015)
digitale Archivaliensoftware
Referenzverwaltung
Digitalisierung
vom Bild zum Text zum Onlinearchiv
Installation & Einrichtung Semantic Mediawiki

Archivsysteme (Stand Ende 2015)

es existieren viele digitale Findmittel
- http://ariadne.uni-greifswald.de/images/Ariadne/index.html - für MV, enthält keine Dokumente
deutsche digitale bibliothek: https://www.archivportal-d.de/
Stadtarchiv Rostock hat teilweise digitalen Index: http://www.stadtarchiv-rostock.findbuch.net/
vollständig digitaliserte Inhalte von Archiven sind selten
- Vorreiter z.B. Köln nach Einsturz, Crowdsourcing von Urkunden

digitale Archivaliensoftware

Semantic Mediawiki

https://www.semantic-mediawiki.org
Archive die (Semantic) Mediawikis nutzen:
Einschätzung zur Eignung für Archive:
- http://archiv.twoday.net/stories/97042331/
- verbreitetes Bedienkonzept
- webbasiert
- maschinenlesbar
- Übersichten, Eingabemasken etc. schnell erstellbar
- flexible Strukturierung & Abbildung von Datensätzen
- mehrsprachig
- Benutzer_innenverwaltung
- verbreitete Import- & Exortfunktionen
- Open Source, keine Herstellerabhängigkeiten
- gängige Administration, kein Spezialwissen notwendig
- große, langlebige Entwicklungscommunity
  - Hauptentwicklung durch Institut für Angewandte Informatik und Formale Beschreibungsverfahren (AIFB) Karlsruhe; Weiterentwicklung durch EU- und Firmenprojekte
  - Grundlage bildet Mediawiki, dass durch die Wikimedia Foundation begleitet wird
- automatisierbar -- https://www.mediawiki.org/wiki/Manual:Pywikibot
- erweiterbar -- https://www.mediawiki.org/wiki/Semantic_Bundle

ICARUS

http://icar-us.eu/
betreiben:
- monasterium (400.000 mittelalterliche Urkunden)
  - sehr gut dokumentiert
  - https://github.com/icaruseu/mom-ca/wiki
  - unterstützt durch http://coop-project.eu/

Topothek

http://www.topothek.at/
Firma die online Portal anbietet

ICA-AtoM

http://wiki.archivesportaleuropefoundation.eu/index.php/Main_Page

accesstomemory

http://accesstomemory.org
(noch) keine deutsche übersetzung

Namenforschung

http://www.namenforschung.net
nutzen exist DB und typo3 Anbindung - aufwändig

Referenzverwaltung

https://en.wikipedia.org/wiki/Comparison_of_reference_management_software
Zotero
- multiuser Synchronisation - looft
- Export als rdf, csv;
- https://github.com/urschrei/pyzotero - Python API

Digitalisierung

vom Bild zum Text zum Onlinearchiv

Vorlage scannen
Scans in ähnliche Formate bringen
Texterkennung der Scans
Text + Scan in archivierbares Format konvertieren
Indizierung der Inhalte
Suchmaske für Index

Scan

Texterkennung

https://help.ubuntu.com/community/OCR - Überblick
- tesseract
- cuneiform
- scantailor
- unpaper

tesseract

Artikel als jpg speichern und mittels tesseract Text extrahieren:
```
tesseract artikel.jpg artikel -l deu -psm 1
```

der Vorgang lässt sich gut parallelisieren:

parallel -j 2 tesseract {} {.} -l deu -psm 1 ::: /pfad/zu/bildern/*.jpg

Dateiformate

für bild+text -> pdf/a
erzeugen:

Indizierung + Volltextsuche

http://www.lesbonscomptes.com/recoll/ recoll - Dateien indizieren
https://github.com/koniu/recoll-webui webrecoll - webbasierte Suche (python/bottle)

Installation & Einrichtung Semantic Mediawiki

Vorbereitung

Debian Jessie aufsetzen -- http://debian.org

notwendige Softwarepakete installieren:

aptitude install git php5-curl php5-cli php5-json php5-readline php5-fpm php5-apcu php5-intl php5-gd php5-mysql mariadb-common mariadb-server nginx-full imagemagick ghostscript poppler-utils

composer installieren
- von der Webseite holen und entpacken -- https://getcomposer.org/download/
- systemweit nutzbar machen:
```
mv composer.phar /usr/local/bin/composer
```
DNS entsprechend anpassen (hier als Bsp.: das-digitale-archiv.org)

Mediawiki Installation

Mediawiki Software holen, entpacken und verlinken:

cd /var/www/
wget https://releases.wikimedia.org/mediawiki/1.27/mediawiki-1.27.1.tar.gz
tar zxf mediawiki-1.27.1.tar.gz
ln -s mediawiki-1.27.1 mediawiki
chown -R www-data. mediawiki*

* nginx config anlegen:

server {
    server_name das-digitale-archiv.org;
    root /var/www/mediawiki;
    index index.php;

    client_max_body_size 5m; 
    client_body_timeout 60; 

    location / { 
        try_files $uri $uri/ @rewrite;
    }   

    location @rewrite {
        rewrite ^/(.*)$ /index.php?title=$1&$args;
    }   

    location ^~ /maintenance/ {
        return 403;
    }   

    location ~ \.php$ {
        include fastcgi_params;
        fastcgi_pass unix:/var/run/php5-fpm.sock;
        fastcgi_param  SCRIPT_FILENAME  $document_root$fastcgi_script_name;
        try_files $uri @rewrite;
    }   

    location ~* \.(js|css|png|jpg|jpeg|gif|ico)$ {
        try_files $uri /index.php;
        expires max;
        log_not_found off;
    }   

    location = /_.gif {
        expires max;
        empty_gif;
    }   

    location ^~ /cache/ {
        deny all;
    }   

    location /dumps {
        root /var/www/mediawiki/local;
        autoindex on; 
    }   
}

nginx config aktivieren:

ln -s /etc/nginx/sites-available/ /etc/nginx/sites-enabled/
systemctl restart nginx.service

mysql db & user anlegen:

mysql -p
> CREATE DATABASE archiv;
> CREATE USER 'archiv_user'@'localhost' IDENTIFIED BY 'lk345vlk12asdaijrapogf';
> GRANT ALL PRIVILEGES ON archiv.* TO 'archiv_user'@'localhost';
> FLUSH PRIVILEGES;
> exit;

Mediawiki Installationsroutine im Browser aufrufen (http://das-digitale-archiv.org)
- mysql Datenbank, Benutzer und Passwort angegeben
- Einstellungen zu Uploads, Lizenzen usw. treffen
- abschließend wird eine Datei LocalSettings.php erzeugt, diese runterladen & ins mediawiki Verzeichnis kopieren (z.B. /var/www/mediawiki/)
Damit ist die Installation des Mediawikis abgeschlossen.

SMW Installation

Semantic Mediawiki Erweiterung installieren:
```
cd /var/www/mediawiki/
composer require mediawiki/semantic-media-wiki "~2.4" --update-no-dev
php maintenance/update.php
```
- ~2.4 entsprechend der gewünschten SMW Version anpassen (2.4 war Ende 2016 die stabile Version)

in LocalSetting.php ergänzen:

# SMW Wiki aktivieren
enableSemantics( 'http://das-digitale-archiv.org' );

# Anzeige der Faktenbox steuern
$GLOBALS['smwgShowFactbox'] = SMW_FACTBOX_NONEMPTY;

# Breadcrumb fuer Kategorien anzeigen 
$wgUseCategoryBrowser = true;

# Hochladen aller Dateitypen erlauben (nicht für öffentliche Wikis empfohlen)
$wgEnableUploads = true;
$wgCheckFileExtensions = false;
$wgStrictFileExtensions = false;
$wgVerifyMimeType = false;

# PDF Dateien verarbeiten (Vorschau etc.)
require_once "$IP/extensions/PdfHandler/PdfHandler.php";

schauen, ob alles läuft: http://das-digitale-archiv.org/index.php?title=Spezial:Version