Wie kommt das D in die Wolke?

LOD ist die Abkürzung für Linked Open Data. Oft findet man sie in Zusammenhang mit einer Wolke, der LOD-Cloud. Gemeint ist damit die zusammenhängende Menge aller offen (open wie in “open access”) zugänglichen und miteinander verknüpften (linked) Daten des Semantic Web, in der Regel RDF-Dokumente. Doch wie kommen eigentlich die Daten in die Wolke?

Direkte Eingabe der Tripel

Der Weg einer direkten Eingabe der Tripel wird u.a. bei Semantic MediaWiki, einer Erweiterung für die bekannte Wiki-Software MediaWiki und dem Projekt Wikidata beschritten. Auch wenn Eingabedialoge beim Bearbeiten der Daten helfen, so muss sich ein Nutzer doch stets recht detailliert und technisch mit den Daten auseinandersetzen. Meist erfordert die Mitarbeit einiges an Vorstellungsvermögen, welche Möglichkeiten durch den gerade investierte Zeit und Arbeit in Zukunft entstehen.

Generierung aus Datenbanken

Es gibt eine Reihe von Datenbeständen, die speziell für die Bereitstellung von freien Informationen erstellt wurden. Dazu zählen WordNet, das Informationen über englische Sprache bietet und GeoNames, dass Informationen zu Orten bereitstellt. Intern und für Exporte wird zwar meist ein eigenes Format verwendet, da die Informationen jedoch meist in einer Datenbank gespeichert sind, können sie daraus leicht in Form von RDF-Tripeln ausgegeben werden.

Generierung aus nicht-technischen Datenbanken

Hat man sowieso Informationen strukturiert in Datenbanken vorliegen, so ist es relativ einfach, daraus RDF-Tripel für die LOD-Cloud zu generieren. Wirft man einen Blick auf die Karte der LOD-Cloud, so findet man rasch Beispiele: Last.FM will Musik an den Kunden bringen, das Kerngeschäft der New York Times ist sind Nachrichten, Flickr verdient sein Geld mit Fotos und auch die BBC ist eher an der Produktion von Dokumentationen und Serien und nicht von RDF-Tripeln interessiert. Da die strukturierten Daten aber sowieso schon da sind, fällt der Beitrag für die LOD-Cloud aber quasi nebenbei mit ab.

Extraktion aus passend strukturierten Webseiten

Bei DBpedia werden „semantische“ Informationen aus Infoboxen der Wikipedia-Artikel mehrerer Wikipedia-Sprachversionen extrahiert. Man macht es sich dabei zu Nutze, dass Wikipedia-Infoboxen eine einfache Syntax haben, die der Form Prädikat = Wert folgt. Nimmt man den Artikelnamen als Subjekt, kommt man so auf ein Tripel. Als Beispiel ist hier die Infobox zur Universität Kiel aus der deutschen Wikipedia zu sehen:

{{Infobox Hochschule
| Name = Christian-Albrechts-Universität zu Kiel
| Logo = Siegel der CAU.png
| Motto = Pax optima rerum<br /><small>([lat.]: ''Der Frieden ist das beste der Güter)''</small>
| Gründungsdatum = 1665
| Ort = [[Kiel]]
| Bundesland = [[Schleswig-Holstein]]
| Staat = [[Deutschland]]
| Leitung          = [[Gerhard Fouquet]]
| Leitungstitel    = Präsident
| Studentenzahl    = 24.189 <small>''(WS 2011/12)''</small>[http://www.uni-kiel.de/ueberblick/statistik/eckdaten.shtml CAU: Statistische Eckdaten]. Abgerufen am 10. September 2012
| Mitarbeiterzahl  = 3.328 <small>''(2011)''</small> <small>''(ohne Klinikum)''</small>
| davon Professoren= 391
| Trägerschaft     = staatlich
| Jahresetat = 228,6 Mio €
| Website          = [http://www.uni-kiel.de/ www.uni-kiel.de]

Beim Verfahren treten mehrere Probleme auf:

  • Wie im Beispiel zu sehen, sind Werte mit Freitext, HTML-Code und MediaWiki-Code durchsetzt. Diese müssen bei der Verarbeitung entfernt werden, um so z.B. eine Ganzzahl bei der Studentenzahl angeben zu können.
  • Es ist eine Umsetzung der Attributnamen in URIs für das RDF-Prädikat notwendig. In unterschiedlichen Sprachen der Wikipedia wird es unterschiedliche Attributnamen geben. Diese müssen auf denselben URI abgebildet werden.
  • In unterschiedlichen Sprachversionen der Wikipedia kann es unterschiedliche Werte für dasselbe Attribut geben. Das Ergebnis-Dokumente wird dann mehrfache und widersprüchliche Werte enthalten.

Weitere Wolken am Horizont

Doch es schlummert noch viel weiteres Wissen, dass für die LOD-Cloud zugänglich gemacht werden kann. Ich habe zwar keine Zahlen zur Hand, vermute aber, dass für zahlreiche Fachgebiete (z.B. Geschichtswissenschaft) derzeit noch deutlich mehr Informationen in gedruckter als in digitaler Form vorliegen. Technische Hilfsmittel für die Übertragung dieser Informationen aus gedruckten Quellen in „semantische“ Form könnten ganz neue Forschungsmöglichkeiten in der jeweiligen Disziplin aber auch interessante Verbindungen im Allgemeinen ermöglichen.

Doch auch bei digitalen und sogar online vorliegenden Informationen ist es nicht immer leicht, sie in die LOD-Cloud zu integrieren. Auf unzähligen von Hand erstellten, höchsten semi-strukturierten Webseiten befinden sich Informationen, die höchstens durch eine Volltextsuche zu finden sind. Aufbereitet in der Regel für menschliche Besucher entziehen sich die Daten einer automatischen Auswertung. Mit Hilfe geeigneter (semi-)automatischer Extraktionsprogramme ließe sich auch diese Art von Informationen weiter nutzbar machen.

Liegen die Informationen digital in Form von mehr oder weniger strukturierten Dateien vor, können auch diese für die LOD-Cloud erschlossen werden. Notwendig ist eine formale Beschreibung des Dateiformats und eine Transformationsanweisung, wie daraus RDF-Tripel bzw. Ontologien zu generieren sind. Die Dateien können ganz unterschiedlicher Natur sein:

  • Textdateien, die Tabellen mit festen Spaltenbreiten oder durch Trennzeichen separiert enthalten
  • Excel- oder Opendocument-Tabellen
  • proprietäre, strukturierte Formate wie GEDCOM, die z.B. für demographische Forschung von Interesse sind

Im Rahmen meiner Forschung möchte ich diese neuen Möglichkeiten, Daten für die LOD-Cloud zu erschließen, untersuchen und weiter voranbringen.

Comments are closed.