Abschlussarbeit: Aufbereitung von Daten, die mit Hilfe von Citizen Scientists erfasst wurden

Bei der Erfassung strukturierter historischer Quellen steht als Ergebnis meist eine Reihe von Objekten (in Semantic Web Sprechweise: resources) mit Textfelder (data properties) zur Verfügung. Das ist u.a. auch wichtig, damit die Erfassung quellengetreu erfolgt. Um die Daten aber sinnvoll als Linked Open Data zur Verfügung zu stellen, müssen die erfassten Daten zu Objekt-Graphen verknüpft werden. Daher wird man einen Export-Schritt einbauen, der diese Aufbereitung durchführt.

In der Regel müssen müssen beim Export einige data properties speziell behandelt werden, z.B. müssen mit Komma getrennte Listen in mehrere Objekte aufgeteilt werden. Oder das Vorhandensein einer bestimmten data property entscheidet, auf welche Weise die Texte in Objekte umgewandelt werden.

Ziel der Arbeit soll sein, nach bestehenden Sprachen für eine Aufbereitung der Daten zu suchen bzw. eine eigene Sprache zu definieren. Mit Hilfe dieser sollen Regeln für den Export allgemein beschrieben werden können. Es soll ein Export-Modul für ein bestehendes Daten-Erfassungs-System implementiert werden, das diese Regel sowie eine Menge von resources mit data properties einliest und daraus den gewünschten Ziel-Graph generiert.

Es steht ausreichend Datenmaterial zur Verfügung, mit dessen Hilfe die Implementierung getestet werden kann.

Die Aufgabenstellung lässt sich für eine Masterarbeit so erweitern, dass man überlegen kann, wie Fehlerkorrekturen, die nach dem Export auf einer der beiden Seiten vorgenommen werden, so weitergegeben werden können, dass auf beiden Seiten eine Fehlerkorrektur möglich ist. Weiterhin wäre es wünschenswert, wenn durch eine geeignete Benutzeroberfläche auch Nicht-Informatiker in die Lage versetzt würden, Export-Regeln zu definieren.

Comments are closed.