Unterschiede zwischen den Revisionen 5 und 6

Hier werden die Vorüberlegungen und Schritte zur Entstehung eines digitalen Archives notiert. Zunächst als Gedächtnisstütze oder für andere Menschen mit ähnlichen vorhaben. Eine bessere Dokumentation folgt in Kürze(tm).

Inhaltsverzeichnis

Archivsysteme (Stand Ende 2015)
digitale Archivaliensoftware
Referenzverwaltung
Digitalisierung
vom Bild zum Text zum Onlinearchiv
Installation & Einrichtung Semantic Mediawiki
Datentransfer von Zotero zu SMW
1. Zotero Export

Archivsysteme (Stand Ende 2015)

es existieren viele digitale Findmittel
- http://ariadne.uni-greifswald.de/images/Ariadne/index.html - für MV, enthält keine Dokumente
deutsche digitale bibliothek: https://www.archivportal-d.de/
Stadtarchiv Rostock hat teilweise digitalen Index: http://www.stadtarchiv-rostock.findbuch.net/
vollständig digitaliserte Inhalte von Archiven sind selten
- Vorreiter z.B. Köln nach Einsturz, Crowdsourcing von Urkunden

digitale Archivaliensoftware

Semantic Mediawiki

https://www.semantic-mediawiki.org
Archive die (Semantic) Mediawikis nutzen:
Einschätzung zur Eignung für Archive:
- http://archiv.twoday.net/stories/97042331/
- verbreitetes Bedienkonzept
- webbasiert
- maschinenlesbar
- Übersichten, Eingabemasken etc. schnell erstellbar
- flexible Strukturierung & Abbildung von Datensätzen
- mehrsprachig
- Benutzer_innenverwaltung
- verbreitete Import- & Exortfunktionen
- Open Source, keine Herstellerabhängigkeiten
- gängige Administration, kein Spezialwissen notwendig
- große, langlebige Entwicklungscommunity
  - Hauptentwicklung durch Institut für Angewandte Informatik und Formale Beschreibungsverfahren (AIFB) Karlsruhe; Weiterentwicklung durch EU- und Firmenprojekte
  - Grundlage bildet Mediawiki, dass durch die Wikimedia Foundation begleitet wird
- automatisierbar -- https://www.mediawiki.org/wiki/Manual:Pywikibot
- erweiterbar -- https://www.mediawiki.org/wiki/Semantic_Bundle

ICARUS

http://icar-us.eu/
betreiben:
- monasterium (400.000 mittelalterliche Urkunden)
  - sehr gut dokumentiert
  - https://github.com/icaruseu/mom-ca/wiki
  - unterstützt durch http://coop-project.eu/

Topothek

http://www.topothek.at/
Firma die online Portal anbietet

ICA-AtoM

http://wiki.archivesportaleuropefoundation.eu/index.php/Main_Page

accesstomemory

http://accesstomemory.org
(noch) keine deutsche übersetzung

Namenforschung

http://www.namenforschung.net
nutzen exist DB und typo3 Anbindung - aufwändig

Referenzverwaltung

https://en.wikipedia.org/wiki/Comparison_of_reference_management_software
Zotero
- multiuser Synchronisation - looft
- Export als rdf, csv;
- https://github.com/urschrei/pyzotero - Python API

Digitalisierung

vom Bild zum Text zum Onlinearchiv

Vorlage scannen
Scans in ähnliche Formate bringen
Texterkennung der Scans
Text + Scan in archivierbares Format konvertieren
Indizierung der Inhalte
Suchmaske für Index

Scan

Texterkennung

https://help.ubuntu.com/community/OCR - Überblick
- tesseract
- cuneiform
- scantailor
- unpaper

tesseract

Artikel als jpg speichern und mittels tesseract Text extrahieren:
```
tesseract artikel.jpg artikel -l deu -psm 1
```

der Vorgang lässt sich gut parallelisieren:

parallel -j 2 tesseract {} {.} -l deu -psm 1 ::: /pfad/zu/bildern/*.jpg

Dateiformate

für bild+text -> pdf/a
erzeugen:

Indizierung + Volltextsuche

http://www.lesbonscomptes.com/recoll/ recoll - Dateien indizieren
https://github.com/koniu/recoll-webui webrecoll - webbasierte Suche (python/bottle)

Installation & Einrichtung Semantic Mediawiki

Vorbereitung

Debian Jessie aufsetzen -- http://debian.org

notwendige Softwarepakete installieren:

aptitude install git php5-curl php5-cli php5-json php5-readline php5-fpm php5-apcu php5-intl php5-gd php5-mysql mariadb-common mariadb-server nginx-full imagemagick ghostscript poppler-utils

composer installieren
- von der Webseite holen und entpacken -- https://getcomposer.org/download/
- systemweit nutzbar machen:
```
mv composer.phar /usr/local/bin/composer
```
DNS entsprechend anpassen (hier als Bsp.: das-digitale-archiv.org)

Mediawiki Installation

Mediawiki Software holen, entpacken und verlinken:

cd /var/www/
wget https://releases.wikimedia.org/mediawiki/1.27/mediawiki-1.27.1.tar.gz
tar zxf mediawiki-1.27.1.tar.gz
ln -s mediawiki-1.27.1 mediawiki
chown -R www-data. mediawiki*

* nginx config anlegen:

server {
    server_name das-digitale-archiv.org;
    root /var/www/mediawiki;
    index index.php;

    client_max_body_size 5m; 
    client_body_timeout 60; 

    location / { 
        try_files $uri $uri/ @rewrite;
    }   

    location @rewrite {
        rewrite ^/(.*)$ /index.php?title=$1&$args;
    }   

    location ^~ /maintenance/ {
        return 403;
    }   

    location ~ \.php$ {
        include fastcgi_params;
        fastcgi_pass unix:/var/run/php5-fpm.sock;
        fastcgi_param  SCRIPT_FILENAME  $document_root$fastcgi_script_name;
        try_files $uri @rewrite;
    }   

    location ~* \.(js|css|png|jpg|jpeg|gif|ico)$ {
        try_files $uri /index.php;
        expires max;
        log_not_found off;
    }   

    location = /_.gif {
        expires max;
        empty_gif;
    }   

    location ^~ /cache/ {
        deny all;
    }   

    location /dumps {
        root /var/www/mediawiki/local;
        autoindex on; 
    }   
}

nginx config aktivieren:

ln -s /etc/nginx/sites-available/ /etc/nginx/sites-enabled/
systemctl restart nginx.service

mysql db & user anlegen:

mysql -p
> CREATE DATABASE archiv;
> CREATE USER 'archiv_user'@'localhost' IDENTIFIED BY 'lk345vlk12asdaijrapogf';
> GRANT ALL PRIVILEGES ON archiv.* TO 'archiv_user'@'localhost';
> FLUSH PRIVILEGES;
> exit;

Mediawiki Installationsroutine im Browser aufrufen (http://das-digitale-archiv.org)
- mysql Datenbank, Benutzer und Passwort angegeben
- Einstellungen zu Uploads, Lizenzen usw. treffen
- abschließend wird eine Datei LocalSettings.php erzeugt, diese runterladen & ins mediawiki Verzeichnis kopieren (z.B. /var/www/mediawiki/)
Damit ist die Installation des Mediawikis abgeschlossen.

SMW Installation

Semantic Mediawiki als Erweiterung (extension) des Mediawikis installieren:
```
cd /var/www/mediawiki/
composer require mediawiki/semantic-media-wiki "~2.4" --update-no-dev
php maintenance/update.php
```
- ~2.4 entsprechend der gewünschten SMW Version anpassen (2.4 war Ende 2016 die stabile Version)

in LocalSetting.php ergänzen:

# SMW im Mediawiki aktivieren
enableSemantics( 'http://das-digitale-archiv.org' );

# Anzeige der Faktenbox steuern
$GLOBALS['smwgShowFactbox'] = SMW_FACTBOX_NONEMPTY;

# Breadcrumb fuer Kategorien anzeigen 
$wgUseCategoryBrowser = true;

# Hochladen aller Dateitypen erlauben (nicht für öffentliche Wikis empfohlen)
$wgEnableUploads = true;
$wgCheckFileExtensions = false;
$wgStrictFileExtensions = false;
$wgVerifyMimeType = false;

# PDF Dateien verarbeiten (Vorschau etc.)
require_once "$IP/extensions/PdfHandler/PdfHandler.php";

# Inhaltsverzeichnisse und Baumansichten für Kategorien
require_once "$IP/extensions/CategoryTree/CategoryTree.php";

nach Änderungen an Konfiguration und Erweiterungen -> Cache leeren:
```
php maintenance/clearInterwikiCache.php
```
schauen, ob alles läuft: http://das-digitale-archiv.org/index.php?title=Spezial:Version

Erweiterungen, Nacharbeiten, Optimierungen

Extensions

Funktionale Erweiterungen werden bei Mediawiki als 'extension' installiert. Das bereits installierte Semantic Mediawiki ist so eine Erweiterung für Mediawikis.

https://www.mediawiki.org/wiki/Extension:PdfHandler -- pdf Thumbnails, inline Textsuche
https://www.mediawiki.org/wiki/Extension:CategoryTree -- erzeugt Inhaltsverzeichnisse auch für Kategorien
https://www.mediawiki.org/wiki/Extension:Semantic_Drilldown - Kategorien semantisch durchstöbern

Skins

Das Aussehen des Mediawikis lässt sich mittels 'skins' verändern.

https://www.mediawiki.org/wiki/Skin:Foreground - basiert auf foundation
- Einige Buttons erhalten nicht die richtige CSS Klasse. Bis der Patch eingearbeitet ist in mediawiki/includes/EditPage.php ab Zeile 3990 die Buttons um Folgendes erweitern: 'class' => 'button'
https://www.mediawiki.org/wiki/Skin:Tweeki - basiert auf bootstrap

optionale Mediawiki Anpassungen

automatisierte Aufgaben können je nach Serverauslastung pro Seitenaufruf ablaufen oder per cron
- php maintenance/showJobs.php - welche Aufgaben stehen an
- php maintenance/runJobs.php - Aufgaben direkt abarbeiten
  - folgende Zeile in der crontab führt die Aufgaben jede Nacht um 1:11 aus: 11 1 * * * php /var/www/mediawiki/maintenance/runJobs.php > /var/log/nginx/mediawikicron.log
- php maintenance/rebuildtextindex.php - Index für Textsuche neu aufbauen

Datentransfer von Zotero zu SMW

Zotero Export

Export als CSV Datei (direkt aus Zotero heraus)
oder https://github.com/urschrei/pyzotero

== SMW Import ===

via webinterface https://www.mediawiki.org/wiki/Extension:Data_Transfer
eleganter und vollautomatisiert geht's mit Pywikibot
- https://www.mediawiki.org/wiki/Manual:Pywikibot

Pywikibot installieren

https://www.mediawiki.org/wiki/Manual:Pywikibot/Third-party_Wiki_Quick_Start
grob die notwendigen Schritte:
- pywikibot-core installieren
- user-config.py anlegen und anpassen
  - family
  - usernames
- family.py Datei generieren
- testen

alle Schritte im Detail:

aptitude install python-pip cython libmysqlclient-dev

wget http://tools.wmflabs.org/pywikibot/core_stable.tar.gz
tar zxf core_stable.tar.gz
cd core_stable
pip install -r requirements.txt
python generate_family_file.py http://das-digitale-archiv.org archiv
python3 pwb.py login
python3 pwb.py basic -v -dry -page:Hauptseite

fehler bei generate_family
- das Script läuft zum einen nicht mit python3
- und es braucht für diesen Schritt Leserechte im Wiki; teporär freigeben in LocalSettings.php
```
$wgGroupPermissions['*']['read'] = true;
```

Pywikibot nutzen

Für Pywikibot gibt es ein Fülle an Scripte für spezielle Anwendungsfälle. Darin zunächst stöbern kann später vlt. eigene Programierarbeit sparen helfen zumindest gibt es einen guten Überblick in die API. Die Scripte liegen im pywikibot Verzeichnis unter scripts

python3 pwb.py scripts/login.py -- Bot am Wiki anmelden
- python3 pwb.py login -- Bot anmelden, wie oben nur weniger tippen
- ... category tree -- Baumansicht von Kategorien
  - add, move, remove, ...
- ... checkimage -- Dateianhänge checken (z.B. auf Lizenz, Template)
- ... delete -page:SandKasten -- Seite SandKasten löschen
- ... editarticle -- Wikiseiten mit deinem lokalen Lieblingseditor bearbeiten
- ... isbn -- Fehler bei ISBN Nummern erkennen, Format ändern
- ... movepages
- ... pagefromfile -- Wikiseiten aus einer Datei anlegen
- ... replace -- Inhalte ersetzen, oder auch ISBNs reparieren
- ... upload -- Dateien anhängen

weitere Doku zu Pywikibot

https://doc.wikimedia.org/pywikibot/api_ref/pywikibot.html#module-pywikibot.page
pywikibot/scripts/basic.py bietet einen guten Startpunkt für eigene Scripte

Pywikibot beschleunigen

Der Bot geht recht sparsam mit den Ressourcen des Wikiservers um. Zum Testen und für große Importe sind die Wartezeiten zwischen den Seitenaufrufen unnötig und lassen sich in der Datei user-config.py durch folgende Zeile minimieren:

minthrottle = 0 
maxlag = 0

-  ⇤ ← Revision 5 vom 2016-10-20 21:15:04 → 
  Größe: 9482
  Autor: anonym
  Kommentar:
+   ← Revision 6 vom 2016-10-30 09:40:04 → ⇥
  Größe: 12389
  Autor: anonym
  Kommentar: pywikibot, themes, ... rein
-Gelöschter Text ist auf diese Art markiert.
+Hinzugefügter Text ist auf diese Art markiert.
 Zeile 1:
+Hier werden die Vorüberlegungen und Schritte zur Entstehung eines digitalen Archives notiert. Zunächst als Gedächtnisstütze oder für andere Menschen mit ähnlichen vorhaben. Eine bessere Dokumentation folgt in Kürze(tm).
-Zeile 202:
+Zeile 204:
- * Semantic Mediawiki als Erweiterung des Mediawikis installieren: {{{
+ * Semantic Mediawiki als Erweiterung (extension) des Mediawikis installieren: {{{
-Zeile 235:
+Zeile 237:
-=== verwendete SMW Erweiterungen ===
+== Erweiterungen, Nacharbeiten, Optimierungen ==
=== Extensions ===
Funktionale Erweiterungen werden bei Mediawiki als 'extension' installiert. Das bereits installierte Semantic Mediawiki ist so eine Erweiterung für Mediawikis.
-Zeile 238:
+Zeile 243:
+ * https://www.mediawiki.org/wiki/Extension:Semantic_Drilldown - Kategorien semantisch durchstöbern

=== Skins ===
Das Aussehen des Mediawikis lässt sich mittels 'skins' verändern.

 * https://www.mediawiki.org/wiki/Skin:Foreground - basiert auf foundation
  * Einige Buttons erhalten nicht die richtige CSS Klasse. Bis der Patch eingearbeitet ist in mediawiki/includes/EditPage.php ab Zeile 3990 die Buttons um Folgendes erweitern: '' 'class' => 'button' ''
 * https://www.mediawiki.org/wiki/Skin:Tweeki - basiert auf bootstrap

=== optionale Mediawiki Anpassungen ===
 * automatisierte Aufgaben können je nach Serverauslastung pro Seitenaufruf ablaufen oder per cron
  * php maintenance/showJobs.php - welche Aufgaben stehen an
  * php maintenance/runJobs.php - Aufgaben direkt abarbeiten
   * folgende Zeile in der crontab führt die Aufgaben jede Nacht um 1:11 aus: ''11  1   * * * php /var/www/mediawiki/maintenance/runJobs.php > /var/log/nginx/mediawikicron.log''
  * php maintenance/rebuildtextindex.php - Index für Textsuche neu aufbauen
-Zeile 242:
+Zeile 263:
- * Export als CSV Datei
+ * Export als CSV Datei (direkt aus Zotero heraus)
-Zeile 254:
+Zeile 275:
-  * user-config.py anlegen
+  * user-config.py anlegen und anpassen
   * family
   * usernames
-Zeile 274:
+Zeile 297:
-== SMW Import Script ==
* https://doc.wikimedia.org/pywikibot/api_ref/pywikibot.html#module-pywikibot.page
* pywikibot/scripts/basic.py bietet einen guten Startpunkt
+=== Pywikibot nutzen ===
Für Pywikibot gibt es ein Fülle an Scripte für spezielle Anwendungsfälle. Darin zunächst stöbern kann später vlt. eigene Programierarbeit sparen helfen zumindest gibt es einen guten Überblick in die API. Die Scripte liegen im pywikibot Verzeichnis unter ''scripts''
 * python3 pwb.py scripts/login.py -- Bot am Wiki anmelden
  * python3 pwb.py login -- Bot anmelden, wie oben nur weniger tippen
  * ... category tree -- Baumansicht von Kategorien
   * add, move, remove, ...
  * ... checkimage -- Dateianhänge checken (z.B. auf Lizenz, Template)
  * ... delete -page:SandKasten -- Seite SandKasten löschen
  * ... editarticle -- Wikiseiten mit deinem lokalen Lieblingseditor bearbeiten
  * ... isbn -- Fehler bei ISBN Nummern erkennen, Format ändern
  * ... movepages
  * ... pagefromfile -- Wikiseiten aus einer Datei anlegen
  * ... replace -- Inhalte ersetzen, oder auch ISBNs reparieren
  * ... upload -- Dateien anhängen

==== weitere Doku zu Pywikibot ====
 * https://doc.wikimedia.org/pywikibot/api_ref/pywikibot.html#module-pywikibot.page
 * pywikibot/scripts/basic.py bietet einen guten Startpunkt für eigene Scripte

==== Pywikibot beschleunigen ====
Der Bot geht recht sparsam mit den Ressourcen des Wikiservers um. Zum Testen und für große Importe sind die Wartezeiten zwischen den Seitenaufrufen unnötig und lassen sich in der Datei ''user-config.py'' durch folgende Zeile minimieren: {{{
minthrottle = 0 
maxlag = 0
}}}