Unterschiede zwischen den Revisionen 3 und 4
Revision 3 vom 2016-10-20 10:38:24
Größe: 7061
Autor: anonym
Kommentar: SMW Installationschritte dazu
Revision 4 vom 2016-10-20 15:58:16
Größe: 7592
Autor: anonym
Kommentar: SMW Erweiterungen mit rein
Gelöschter Text ist auf diese Art markiert. Hinzugefügter Text ist auf diese Art markiert.
Zeile 116: Zeile 116:
aptitude install git php5-curl php5-cli php5-json php5-readline php5-fpm php5-apcu php5-intl php5-gd php5-mysql mariadb-common mariadb-server nginx-full aptitude install git php5-curl php5-cli php5-json php5-readline php5-fpm php5-apcu php5-intl php5-gd php5-mysql mariadb-common mariadb-server nginx-full imagemagick ghostscript poppler-utils
Zeile 209: Zeile 209:
# SMW Wiki aktivieren
Zeile 210: Zeile 211:

# Anzeige der Faktenbox steuern
$GLOBALS['smwgShowFactbox'] = SMW_FACTBOX_NONEMPTY;

# Breadcrumb fuer Kategorien anzeigen
$wgUseCategoryBrowser = true;

# Hochladen aller Dateitypen erlauben (nicht für öffentliche Wikis empfohlen)
$wgEnableUploads = true;
$wgCheckFileExtensions = false;
$wgStrictFileExtensions = false;
$wgVerifyMimeType = false;

# PDF Dateien verarbeiten (Vorschau etc.)
require_once "$IP/extensions/PdfHandler/PdfHandler.php";

Archivsysteme (Stand Ende 2015)

digitale Archivaliensoftware

Semantic Mediawiki

ICARUS

Topothek

ICA-AtoM

accesstomemory

Namenforschung

Referenzverwaltung


Digitalisierung

vom Bild zum Text zum Onlinearchiv

  • Vorlage scannen
  • Scans in ähnliche Formate bringen
  • Texterkennung der Scans
  • Text + Scan in archivierbares Format konvertieren
  • Indizierung der Inhalte
  • Suchmaske für Index

Scan

Texterkennung

tesseract

  • Artikel als jpg speichern und mittels tesseract Text extrahieren:

    tesseract artikel.jpg artikel -l deu -psm 1
  • der Vorgang lässt sich gut parallelisieren:

    parallel -j 2 tesseract {} {.} -l deu -psm 1 ::: /pfad/zu/bildern/*.jpg

Dateiformate

Indizierung + Volltextsuche


Installation & Einrichtung Semantic Mediawiki

Vorbereitung

  • Debian Jessie aufsetzen -- http://debian.org

  • notwendige Softwarepakete installieren:

    aptitude install git php5-curl php5-cli php5-json php5-readline php5-fpm php5-apcu php5-intl php5-gd php5-mysql mariadb-common mariadb-server nginx-full imagemagick ghostscript poppler-utils
  • composer installieren

  • DNS entsprechend anpassen (hier als Bsp.: das-digitale-archiv.org)

Mediawiki Installation

  • Mediawiki Software holen, entpacken und verlinken:

    cd /var/www/
    wget https://releases.wikimedia.org/mediawiki/1.27/mediawiki-1.27.1.tar.gz
    tar zxf mediawiki-1.27.1.tar.gz
    ln -s mediawiki-1.27.1 mediawiki
    chown -R www-data. mediawiki*

* nginx config anlegen:

server {
    server_name das-digitale-archiv.org;
    root /var/www/mediawiki;
    index index.php;

    client_max_body_size 5m; 
    client_body_timeout 60; 

    location / { 
        try_files $uri $uri/ @rewrite;
    }   

    location @rewrite {
        rewrite ^/(.*)$ /index.php?title=$1&$args;
    }   

    location ^~ /maintenance/ {
        return 403;
    }   

    location ~ \.php$ {
        include fastcgi_params;
        fastcgi_pass unix:/var/run/php5-fpm.sock;
        fastcgi_param  SCRIPT_FILENAME  $document_root$fastcgi_script_name;
        try_files $uri @rewrite;
    }   

    location ~* \.(js|css|png|jpg|jpeg|gif|ico)$ {
        try_files $uri /index.php;
        expires max;
        log_not_found off;
    }   

    location = /_.gif {
        expires max;
        empty_gif;
    }   

    location ^~ /cache/ {
        deny all;
    }   

    location /dumps {
        root /var/www/mediawiki/local;
        autoindex on; 
    }   
}
  • nginx config aktivieren:

    ln -s /etc/nginx/sites-available/ /etc/nginx/sites-enabled/
    systemctl restart nginx.service
  • mysql db & user anlegen:

    mysql -p
    > CREATE DATABASE archiv;
    > CREATE USER 'archiv_user'@'localhost' IDENTIFIED BY 'lk345vlk12asdaijrapogf';
    > GRANT ALL PRIVILEGES ON archiv.* TO 'archiv_user'@'localhost';
    > FLUSH PRIVILEGES;
    > exit;
  • Mediawiki Installationsroutine im Browser aufrufen (http://das-digitale-archiv.org)

    • mysql Datenbank, Benutzer und Passwort angegeben
    • Einstellungen zu Uploads, Lizenzen usw. treffen
    • abschließend wird eine Datei LocalSettings.php erzeugt, diese runterladen & ins mediawiki Verzeichnis kopieren (z.B. /var/www/mediawiki/)

  • Damit ist die Installation des Mediawikis abgeschlossen.

SMW Installation

  • Semantic Mediawiki Erweiterung installieren:

    cd /var/www/mediawiki/
    composer require mediawiki/semantic-media-wiki "~2.4" --update-no-dev
    php maintenance/update.php
    • ~2.4 entsprechend der gewünschten SMW Version anpassen (2.4 war Ende 2016 die stabile Version)

  • in LocalSetting.php ergänzen:

    # SMW Wiki aktivieren
    enableSemantics( 'http://das-digitale-archiv.org' );
    
    # Anzeige der Faktenbox steuern
    $GLOBALS['smwgShowFactbox'] = SMW_FACTBOX_NONEMPTY;
    
    # Breadcrumb fuer Kategorien anzeigen 
    $wgUseCategoryBrowser = true;
    
    # Hochladen aller Dateitypen erlauben (nicht für öffentliche Wikis empfohlen)
    $wgEnableUploads = true;
    $wgCheckFileExtensions = false;
    $wgStrictFileExtensions = false;
    $wgVerifyMimeType = false;
    
    # PDF Dateien verarbeiten (Vorschau etc.)
    require_once "$IP/extensions/PdfHandler/PdfHandler.php";
  • schauen, ob alles läuft: http://das-digitale-archiv.org/index.php?title=Spezial:Version

DigitaleArchive (zuletzt geändert am 2018-03-09 11:12:06 durch anonym)


Creative Commons Lizenzvertrag
This page is licensed under a Creative Commons Attribution-ShareAlike 2.5 License.