Unterschiede zwischen den Revisionen 4 und 5
Revision 4 vom 2016-10-20 15:58:16
Größe: 7592
Autor: anonym
Kommentar: SMW Erweiterungen mit rein
Revision 5 vom 2016-10-20 21:15:04
Größe: 9482
Autor: anonym
Kommentar:
Gelöschter Text ist auf diese Art markiert. Hinzugefügter Text ist auf diese Art markiert.
Zeile 202: Zeile 202:
 * Semantic Mediawiki Erweiterung installieren: {{{  * Semantic Mediawiki als Erweiterung des Mediawikis installieren: {{{
Zeile 209: Zeile 209:
# SMW Wiki aktivieren # SMW im Mediawiki aktivieren
Zeile 227: Zeile 227:
}}}
 * schauen, ob alles läuft: http://das-digitale-archiv.org/index.php?title=Spezial:Version
# Inhaltsverzeichnisse und Baumansichten für Kategorien
require_once "$IP/extensions/CategoryTree/CategoryTree.php";
}}}
 * nach Änderungen an Konfiguration und Erweiterungen -> Cache leeren: {{{
php maintenance/clearInterwikiCache.php
}}}
 * schauen, ob alles läuft: http://das-digitale-archiv.org/index.php?title=Spezial:Version

=== verwendete SMW Erweiterungen ===
 * https://www.mediawiki.org/wiki/Extension:PdfHandler -- pdf Thumbnails, inline Textsuche
 * https://www.mediawiki.org/wiki/Extension:CategoryTree -- erzeugt Inhaltsverzeichnisse auch für Kategorien

----
= Datentransfer von Zotero zu SMW =
== Zotero Export ==
 * Export als CSV Datei
 * oder https://github.com/urschrei/pyzotero

== SMW Import ===
 * via webinterface https://www.mediawiki.org/wiki/Extension:Data_Transfer
 * eleganter und vollautomatisiert geht's mit Pywikibot
  * https://www.mediawiki.org/wiki/Manual:Pywikibot

=== Pywikibot installieren ===
 * https://www.mediawiki.org/wiki/Manual:Pywikibot/Third-party_Wiki_Quick_Start
 * grob die notwendigen Schritte:
  * pywikibot-core installieren
  * user-config.py anlegen
  * family.py Datei generieren
  * testen
 * alle Schritte im Detail: {{{
aptitude install python-pip cython libmysqlclient-dev

wget http://tools.wmflabs.org/pywikibot/core_stable.tar.gz
tar zxf core_stable.tar.gz
cd core_stable
pip install -r requirements.txt
python generate_family_file.py http://das-digitale-archiv.org archiv
python3 pwb.py login
python3 pwb.py basic -v -dry -page:Hauptseite
}}}
  * fehler bei generate_family
   * das Script läuft zum einen nicht mit python3
   * und es braucht für diesen Schritt Leserechte im Wiki; teporär freigeben in LocalSettings.php {{{
$wgGroupPermissions['*']['read'] = true;
}}}

== SMW Import Script ==
* https://doc.wikimedia.org/pywikibot/api_ref/pywikibot.html#module-pywikibot.page
* pywikibot/scripts/basic.py bietet einen guten Startpunkt

Archivsysteme (Stand Ende 2015)

digitale Archivaliensoftware

Semantic Mediawiki

ICARUS

Topothek

ICA-AtoM

accesstomemory

Namenforschung

Referenzverwaltung


Digitalisierung

vom Bild zum Text zum Onlinearchiv

  • Vorlage scannen
  • Scans in ähnliche Formate bringen
  • Texterkennung der Scans
  • Text + Scan in archivierbares Format konvertieren
  • Indizierung der Inhalte
  • Suchmaske für Index

Scan

Texterkennung

tesseract

  • Artikel als jpg speichern und mittels tesseract Text extrahieren:

    tesseract artikel.jpg artikel -l deu -psm 1
  • der Vorgang lässt sich gut parallelisieren:

    parallel -j 2 tesseract {} {.} -l deu -psm 1 ::: /pfad/zu/bildern/*.jpg

Dateiformate

Indizierung + Volltextsuche


Installation & Einrichtung Semantic Mediawiki

Vorbereitung

  • Debian Jessie aufsetzen -- http://debian.org

  • notwendige Softwarepakete installieren:

    aptitude install git php5-curl php5-cli php5-json php5-readline php5-fpm php5-apcu php5-intl php5-gd php5-mysql mariadb-common mariadb-server nginx-full imagemagick ghostscript poppler-utils
  • composer installieren

  • DNS entsprechend anpassen (hier als Bsp.: das-digitale-archiv.org)

Mediawiki Installation

  • Mediawiki Software holen, entpacken und verlinken:

    cd /var/www/
    wget https://releases.wikimedia.org/mediawiki/1.27/mediawiki-1.27.1.tar.gz
    tar zxf mediawiki-1.27.1.tar.gz
    ln -s mediawiki-1.27.1 mediawiki
    chown -R www-data. mediawiki*

* nginx config anlegen:

server {
    server_name das-digitale-archiv.org;
    root /var/www/mediawiki;
    index index.php;

    client_max_body_size 5m; 
    client_body_timeout 60; 

    location / { 
        try_files $uri $uri/ @rewrite;
    }   

    location @rewrite {
        rewrite ^/(.*)$ /index.php?title=$1&$args;
    }   

    location ^~ /maintenance/ {
        return 403;
    }   

    location ~ \.php$ {
        include fastcgi_params;
        fastcgi_pass unix:/var/run/php5-fpm.sock;
        fastcgi_param  SCRIPT_FILENAME  $document_root$fastcgi_script_name;
        try_files $uri @rewrite;
    }   

    location ~* \.(js|css|png|jpg|jpeg|gif|ico)$ {
        try_files $uri /index.php;
        expires max;
        log_not_found off;
    }   

    location = /_.gif {
        expires max;
        empty_gif;
    }   

    location ^~ /cache/ {
        deny all;
    }   

    location /dumps {
        root /var/www/mediawiki/local;
        autoindex on; 
    }   
}
  • nginx config aktivieren:

    ln -s /etc/nginx/sites-available/ /etc/nginx/sites-enabled/
    systemctl restart nginx.service
  • mysql db & user anlegen:

    mysql -p
    > CREATE DATABASE archiv;
    > CREATE USER 'archiv_user'@'localhost' IDENTIFIED BY 'lk345vlk12asdaijrapogf';
    > GRANT ALL PRIVILEGES ON archiv.* TO 'archiv_user'@'localhost';
    > FLUSH PRIVILEGES;
    > exit;
  • Mediawiki Installationsroutine im Browser aufrufen (http://das-digitale-archiv.org)

    • mysql Datenbank, Benutzer und Passwort angegeben
    • Einstellungen zu Uploads, Lizenzen usw. treffen
    • abschließend wird eine Datei LocalSettings.php erzeugt, diese runterladen & ins mediawiki Verzeichnis kopieren (z.B. /var/www/mediawiki/)

  • Damit ist die Installation des Mediawikis abgeschlossen.

SMW Installation

  • Semantic Mediawiki als Erweiterung des Mediawikis installieren:

    cd /var/www/mediawiki/
    composer require mediawiki/semantic-media-wiki "~2.4" --update-no-dev
    php maintenance/update.php
    • ~2.4 entsprechend der gewünschten SMW Version anpassen (2.4 war Ende 2016 die stabile Version)

  • in LocalSetting.php ergänzen:

    # SMW im Mediawiki aktivieren
    enableSemantics( 'http://das-digitale-archiv.org' );
    
    # Anzeige der Faktenbox steuern
    $GLOBALS['smwgShowFactbox'] = SMW_FACTBOX_NONEMPTY;
    
    # Breadcrumb fuer Kategorien anzeigen 
    $wgUseCategoryBrowser = true;
    
    # Hochladen aller Dateitypen erlauben (nicht für öffentliche Wikis empfohlen)
    $wgEnableUploads = true;
    $wgCheckFileExtensions = false;
    $wgStrictFileExtensions = false;
    $wgVerifyMimeType = false;
    
    # PDF Dateien verarbeiten (Vorschau etc.)
    require_once "$IP/extensions/PdfHandler/PdfHandler.php";
    
    # Inhaltsverzeichnisse und Baumansichten für Kategorien
    require_once "$IP/extensions/CategoryTree/CategoryTree.php";
  • nach Änderungen an Konfiguration und Erweiterungen -> Cache leeren:

    php maintenance/clearInterwikiCache.php
  • schauen, ob alles läuft: http://das-digitale-archiv.org/index.php?title=Spezial:Version

verwendete SMW Erweiterungen


Datentransfer von Zotero zu SMW

Zotero Export

== SMW Import ===

Pywikibot installieren

  • https://www.mediawiki.org/wiki/Manual:Pywikibot/Third-party_Wiki_Quick_Start

  • grob die notwendigen Schritte:
    • pywikibot-core installieren
    • user-config.py anlegen
    • family.py Datei generieren
    • testen
  • alle Schritte im Detail:

    aptitude install python-pip cython libmysqlclient-dev
    
    wget http://tools.wmflabs.org/pywikibot/core_stable.tar.gz
    tar zxf core_stable.tar.gz
    cd core_stable
    pip install -r requirements.txt
    python generate_family_file.py http://das-digitale-archiv.org archiv
    python3 pwb.py login
    python3 pwb.py basic -v -dry -page:Hauptseite
    • fehler bei generate_family
      • das Script läuft zum einen nicht mit python3
      • und es braucht für diesen Schritt Leserechte im Wiki; teporär freigeben in LocalSettings.php

        $wgGroupPermissions['*']['read'] = true;

SMW Import Script

* https://doc.wikimedia.org/pywikibot/api_ref/pywikibot.html#module-pywikibot.page * pywikibot/scripts/basic.py bietet einen guten Startpunkt

DigitaleArchive (zuletzt geändert am 2018-03-09 11:12:06 durch anonym)


Creative Commons Lizenzvertrag
This page is licensed under a Creative Commons Attribution-ShareAlike 2.5 License.