Bachelorarbeit: Extraktion von Datenstrukturen als Adressen

Bei der Arbeit mit semantischen Daten taucht immer wieder das Problem auf, dass Daten unterschiedlich modelliert wurden. Dabei kann z.B. in der einen Ontologien eine Data Property (ein Text) und in der anderen Ontologien Object Properties (Zusammenhänge zwischen Objekten) verwendet werden. Algorithmen, die ein Matching zwischen den Ontologien herstellen könnten, liefern aufgrund der unterschiedlichen Strukturen kein Ergebnis. Eine Kombination und Weiternutzung der Informationen – wie sie ganz im Sinne des Semantic Web wünschenswert wäre – wird so verhindert.

diagramm_adressen

Im Rahmen dieser Arbeit soll am Beispiel historischer Adressinformationen ein Algorithmus zur Analyse der Werte einer Data Property und der Erzeugung passender Klassen und Object Properties entwickelt werden. Hier einige Beispiel, um mit welcher Art von Werten man rechnen kann:

4 
5 
Am Wall 54 
Wilthen. Straße 16, III 
Wilthener Staße 13 
Wilthener Str. 21, Hths II 
Wilthener Str. 38, II 
Wilthener Str. 8, Eg 
Hannov. Str. 19A 
Burgwall 78 c 
Bredenbecksgang 5b 
Anstaltsstraße (Torhaus) 
Schlesw. Chausee 154 (Krankenhaus) 
Seidau 391 (Hammermühle) 
Torstr. 10/11 
Körliner Str. 4b 

Aus der Literatur sind regelbasierte und stochastische Ansätze (Hidden Markov Models) bekannt, mit denen man Adressen analysieren kann. Einer oder mehrere dieser Ansätze sollen implementiert und bewertet werden.

Im Vergleich zu bisherigen Arbeiten zur Verarbeitung von Adressen hat das hier zu bearbeitende Problem folgende Unterschiede:

  • Da es sich um historische Daten handelt, kann nicht auf ein heutiges Straßen- oder Postleitzahlenverzeichnis zugegriffen werden, welches in den meisten Arbeiten eine zentrale Rolle spielt.
  • Historische Adressbezeichnungen halten sich in der Regel an keine heute gültigen Muster.
  • Es ist bereits bekannt, aus welchem Ort (jedoch im Einzelfall nicht aus welchem Ortsteil) die Adressen stammen. Die meisten Probleme, die sich aus der Identifikation des Ortes (und meist der Postleitzahl) ergeben, entfallen somit.

Für die Bearbeitung der Aufgabe ist es nicht unbedingt notwendig, sich mit OWL, RDF oder sonstigen Semantic Web Techniken auszukennen. Die Grundkonzepte Class, Data Property und ObjectProperty sind aus anderen Sprachen geläufig, weitergehende Kenntnisse werden nicht benötigt.

Es steht ein ausreichend großer Korpus (Beispieladressen) zur Verfügung, so dass auch empirische Untersuchungen möglich sind, die eine Ausarbeitung abrunden würden.

Literatur

  • Srihari, Yang, Govindaraju: „Information Theoretic Analysis of Postal Address Fields for Automatic Address Interpretation“
  • Christen, Belacic: „Automated Probabilistic Address Standardisation and Verification“
  • Abbasi: „Information Extraction Techniques for Postal Address Standardization“

Comments are closed.