Abschlussarbeit: Qualitätssicherung von Datenerfassungen gedruckter (nicht nur) historischer Quellen

Die Qualität von Datenerfassungen aus gedruckten Quellen – in der Regel handelt es sich um historische Dokumente – ist oftmals fragwürdig. Ob eine Qualitätskontrolle stattgefunden hat und wie diese aussah, ist meistens nicht mehr zu ermitteln. Bei der Online-Erfassung gedruckter historischer Quellen (die als Scans vorliegen) sichert double keying eine hohe Qualität der erfassten Daten. Es wäre jedoch Resourcenverschwendung, bereits erfasste Daten erneut komplett zwei Mal zu erfassen. Daher müssen die bereits existierenden Daten mit fraglicher Qualität in den Erfassungsworksflow eingebaut werden, so dass maximal noch ein weiterer Erfassungschritt notwendig ist. Genau das ist Gegenstand dieser Abschlussarbeit(en).

Dabei sind verschiedene Fälle zu unterscheiden, deren Betrachtung ggf. zu mehreren Abschlussarbeiten führen kann.

Abschrift in Tabellenform

Es existiert bereits eine strukturerite Erfassung der Daten in Tabellenform. Diese Einträge müssen auf dem Scan positioniert und dann mit den von Menschen neu gemachten Eingaben abgeglichen werden. Um Resourcen zu sparen, kann es sinnvoll sein, nicht alle Spalten per double keying abzusichern, sondern z.B. nur den Namen einer Person.

Als mögliche zusätzliche Schwierigkeiten können auftreten: keine Seitenangaben, Umsortierung der Einträge, keine quellengetreue Abschrift

Abschrift in Tabellenform + OCR

Als Variante des zuvor beschriebenen Falls kann für die gescannte Quelle ein mehr oder weniger guter OCR-Text vorhanden sein. Der lässt sich verwenden, um die Zeilen der Abschrift Positionen auf der Seite zuordnen zu können, bevor ein menschlicher Bearbeiter aktiv geworden ist.
Abschrift in bestenfalls semistrukturierter Textform

Als schwierigere – aber in der Praxis leider oft vorkommende – Variante wurden die Taben nicht strukturiert in einer Tabelle sondern als Fließtext erfasst. Dabei findet man gelegentlich Trennzeichen wie Komma o.ä., die bei der Strukturierung helfen können. In diesem Fall ist es also schwieriger die bereits vorhandenen Texte den neu erfassten Daten zuzuordnen.

Zuordnung von OCR

Für manche Anwendungsfälle ist eine hohe Präzision der Erfassung nur für bestimmte Datenfelder (z.B. Personennamen) notwendig. Für andere Datenfelder reicht auch ein maschinell gelesener Text aus. In eine solchen Fall besteht die Datengrundlage also aus OCR-Text, der zu manuellen Eingaben zugeordnet werden muss. Zu einem ähnlichen Thema wurde an der Arbeitsgruppe bereits eine Diplomarbeit verfasst, auf deren Ergebnisse aufgebaut werden kann.

Object Properties

Während in den vorherigen Fällen nur data properties (Texte) vorliegen, ist denkbar, auch für existierende object properties eine Qualitätssicherung durch erneute manuelle Erfassung auf dem Scan durchzuführen. Der Vergleich wird zwar einfacher, dafür muss jedoch bei der erneuten manuelle Eingaben eine Zuordnung zu den richtigen, in der vorliegenden Datensammlung verwendeten, Resourcen durchgeführt werden.

Benötigte Vorkenntnisse:

Programmieren mit Java sollte problemlos möglich sein. Gut wäre, wenn man bereits das Grails-Framework kennt. Aber das kann man schnell lernen.

Comments are closed.