Bachelorarbeit: Anreicherung von Linked Data

Als Linked Data mit Techniken des Semantic Web zur Verfügung gestellte Daten bieten durch ihre maschinelle Interpretierbarkeit und die Möglichkeit, sie mit anderen Daten verbinden zu können, einen enormen Mehrwert im Vergleich zu traditionellen, abgeschlossenen Datensammlungen. Leider wird die Möglichkeit der maschinelle Interpretierbarkeit und der Verknüpfung dadurch genommen, dass Informationen in Textform (statt durch Individuen und Object Properties) angegeben werden. Man betrachte z.B. folgende Angaben zu einer Person:

  • Ort: Neustadt a. d. Aisch
  • Beruf: Tischlermeister
  • Datum: Ostern 1905

Mit allen drei Zeichenketten “Neustadt a. d. Aisch”, “Tischlermeister”, “Ostern 1905” kann eine Maschine nichts anfangen. Selbst ein Nutzer, der kein Deutsch kann, wird bereits Schwierigkeiten mit diesen Angaben haben. Im Sinn des Semantic Web ist das nicht.  Statt des Textes “Neustadt a. d. Aisch” wäre ein Verknüpfung zu dem entsprechenden Ortsindividuum, das diesen eindeutig beschreibt, besser, z.B. http://d-nb.info/gnd/4041928-9, http://gov.genealogy.net/NEUSCHJN59HN, opengeodb:21560 oder BLO:1470. Beim der Angaben des Berufes wäre es sinnvoll, eine Verknüpfung auf den Beruf “Tischler” in einer Taxonomie von Berufen anzugeben. So könnte die Person auch dann gefunden werden, wenn man nach “Handwerker” oder “jemand, der mit Holz arbeitet” sucht.  Zur Datumsangabe “Ostern 1905″ sollte 1905-04-23”  ergänzt werden, damit die Information maschineninterpretierbar wird.

Es ist klar, dass diese Anreicherung nicht vollautomatisch sein kann. Entwickelt werden soll ein Programm, dass einem Nutzer Vorschläge macht, welche Identifikation am wahrscheinlichsten ist. Gibt es mehrere Möglichkeiten (man denke an die Ortsangaben “Neustadt”), so soll dem Nutzer eine Liste von Vorschlägen bekommen, sortiert nach ihrer Wahrscheinlichkeit. Dabei kann man z.B. mit farblichen Kennzeichnungen arbeiten. Wurde für einen Text nur ein Vorschlag ermittelt, und hat dieser eine sehr hohe Wahrscheinlichkeit (z.B. >0.90), so wird der Datensatz als grün gekenntzeichnet. Gelb werden Datensätze gekennzeichnet, bei denen nur ein unscharfer oder mehrere ähnlich wahrscheinliche Treffer gefunden wurden. Rot könnten solche Datensätze markiert werden, für die kein vernünftiger Vorschlag gemacht werden kann. Auf dieser Weise kann ein Bearbeiter einfach auswählen, mit welcher Art von Problemen er sich beschäftigen möchte.

Indem man im Hintergrund im Programm Buch darüber führt, wie oft sich ein Nutzer für den ersten, zweiten usw. Vorschlag entschieden hat, kann man eine Bewertung angeben, wie gut der Algorithmus und enthaltene Heuristiken funktionieren.

Primär soll das Programm im Rahmen des Kiel Academic Index eingesetzt werden, in dem alle an der Universität Lehrenden von 1665 bis 2015 verzeichnet werden. Mit bereits 3.000 vorhandenen Personen bietet sich genug Material zum Testen der Algorithmen. Aber auch der Einsatz für weitere historische Daten ist vorstellbar, so dass man eine noch breitere Datenbestand zum Testen zur Verfügung hat.

Während es für die Identifikation von Ortsangaben bereits an der Arbeitsgruppe eine Arbeit läuft, gibt es für Zeitangaben und Berufsangaben noch etwas zu tun.

 

Comments are closed.