Bachelorarbeit: Semi-automatische Normalisierung von Berufsangaben

Als Linked Data mit Techniken des Semantic Web zur Verfügung gestellte Daten bieten durch ihre maschinelle Interpretierbarkeit und die Möglichkeit, sie mit anderen Daten verbinden zu können, einen enormen Mehrwert im Vergleich zu traditionellen, abgeschlossenen Datensammlungen. Leider wird die Möglichkeit der maschinelle Interpretierbarkeit und der Verknüpfung dadurch genommen, dass Informationen in Textform (statt durch Individuen und Object Properties) angegeben werden.

Als Beispiel sei zu einer Person die Berufsangabe „Tischlermeister“ gegeben. Mit dieser Zeichenkette kann eine Maschine nichts anfangen. Selbst ein Mensch, der kein Deutsch kann, wird bereits Schwierigkeiten mit dieser Angaben haben. Im Sinn des Semantic Web ist das nicht. Neben dem Text “Tischlermeister” wäre es sinnvoll, eine Verknüpfung auf den Beruf “Tischler” in einer Taxonomie von Berufen (z.B. HISCO) anzugeben. So könnte die Person auch dann gefunden werden, wenn man nach „Handwerker“ oder „jemand, der mit Holz arbeitet“ sucht.

Es ist klar, dass diese Anreicherung nicht vollautomatisch sein kann. Entwickelt werden soll ein Programm, dass einem Nutzer Vorschläge macht, welche Identifikation am wahrscheinlichsten ist. Dabei kann man z.B. mit farblichen Kennzeichnungen arbeiten. Wurde für einen Text nur ein Vorschlag ermittelt, und hat dieser eine sehr hohe Wahrscheinlichkeit (z.B. >0.90), so wird der Datensatz als grün gekennzeichnet. Gelb werden Datensätze gekennzeichnet, bei denen nur ein unscharfer oder mehrere ähnlich wahrscheinliche Treffer gefunden wurden. Rot könnten solche Datensätze markiert werden, für die kein vernünftiger Vorschlag gemacht werden kann. Auf dieser Weise kann ein Bearbeiter einfach auswählen, mit welcher Art von Problemen er sich beschäftigen möchte.

Vorarbeiten wurden bereits für Ortsnamen sowie Adressangaben gemacht auf deren Ergebnisse in dieser Abschlussarbeit zurückgegriffen werden kann. Es stehen ausreichend Testdaten aus diversen Zeiträumen zur Verfügung, mit denen die entwickelte Lösung getestet werden kann.

Comments are closed.