Future Web, Post 03

Michael Lodemann schreibt auf Google+: “Scheint wohl in zu sein, Artikel über das Semantic Web zu posten … ” Also, wo er recht hat, da hat er recht! Und also muß wohl auch in diesen Blog etwas rein zum Thema Semantic Web. Zumal es ja keinesfalls besonders verwegen ist, im Kontext des Future Web auch das Semantic Web zu erwähnen.

Aber wie einen solchen Post beginnen? Spontan denke ich: “Das Semantic Web – gestartet wie ein Tiger, gelandet wie ein Bettvorleger” – das trifft’s vielleicht am besten. Aber Thomas hat gesagt, ich soll nicht immer solche flapsigen Sprüche machen, sondern mich zusammenreißen und etwas Vernünftiges sagen. Hin- und hergerissen zwischen Thomas und Michi gelobe ich nun also, ab hier mein Bestes zu geben.

Ich starte mit dem, was ich am besten kann, nämlich – etwas weglassen: Ich wiederhole nicht all die Sprüche, die die Protagonisten des Semantic Web machen, um uns die schöne neue Welt anzupreisen, in die sie uns hineinführen werden, solche Sprüche wie etwa: “Das Semantic Web antwortet auf Deine Frage, es zitiert nicht nur Dokumente, die möglicherweise eine Antwort enthalten könnten.”

Ich erkenne drei Ansätze, mit denen uns dieses Zauberspieglein herbeigeführt werden soll:

  • den gutgemeinten Ansatz,
  • den fundamentalistischen Ansatz und
  • den opportunistischen Ansatz.

Du, liebe Leserin, vermutest jetzt, daß ich diese drei Ansätze in halbseriöser Gründlichkeit nacheinander abhandeln werde. Ja, so ist es.

Der gutgemeinte Ansatz: Um diesen Ansatz zu erklären, muß ich auf einige Inhalte meiner Lieblingslehrveranstaltung Algorithmen und Datenstrukturen zurückkommen. In dieser Veranstaltung wird dem staunenden Publikum nahegebracht wird, wie man solche verrückten Datenstrukturen wie Listen, Felder und sogar Bäume in so eine simple Struktur wie einen linearen, sequentiell durchadressierbaren Speicher hineinstecken und daraus auch wieder herausholen kann. Wow! Und wenn man dann noch davon ausgeht, daß solche Datenstrukturen geeignet sind, mindestens das halbe Leben zu organisieren, dann … dann ist man eigentlich schon durch mit dem Studium. Ich fordere Berufsqualifikation nach dem dritten Semester!

Naja.

Das Leben ist vielleicht doch etwas bunter.

Aber zum Glück gibt es ja außer den Listen, Feldern und Bäumen auch noch vermaschte Strukturen, oder knapper ausgedrückt: Graphen aus Knoten und Kanten. Keine Regelmäßigkeit – alles kann mit allem verbunden sein, oder fast nix mit fast nix. Unschön. Aber möglicherweise sind auch solche Datenstrukturen notwendig, wenn man das Wissen der Welt aufschreiben will. Und zum Glück gibt’s ja außer Algorithmen und Datenstrukturen auch noch die Graphentheorie. (Ich nehme meine Forderung nach Berufsqualifikation nach dem dritten Semester hiermit mit dem Ausdruck des Bedauerns zurück. Und zusätzlich wünsche ich mir eine Vorlesung Graphenpraxis.)

Die Leute, die den gutgemeinten Ansatz verfolgen, sagen: Das Wissen der Welt ist ein Graph. Die Knoten in diesem Graph nennen wir resource, die Kanten nennen wir property, und den properties können wir Werte zuweisen, und ein Wert kann wiederum eine resource sein. Punkt, Punkt, Komma, Strich – fertig ist das Mondgesich. Das Ganze schreiben wir in einer Sprache auf, die wir Resource Description Framework (RDF) nennen. Knoten und Kanten werden mit Uniform Resource Descriptors bezeichnet. Die sind eindeutig, kosten nix, sind in unbeschränkter Zahl verfügbar, und man kann sie fast ganz alleine erzeugen.

Und da fängt das Leiden an: In RDF sind resources als Individuen gedacht, jede resource existiert genau einmal und dank des URI-Mechanismus wird sie auch eindeutig bezeichnet. Ganz anders die properties, mit denen man die resources beschreibt. Viele, viele resources können gleiche properties haben – sowohl einem Auto, als auch einem Apfel kann man die property “Farbe” zuordnen. Was liegt für den gutmeinenden semantischen Aktivisten also näher, als für die Domäne, mit der sie sich beschäftigt, einen halbwegs abgerundeten property-Katalog aufzuschreiben? Und so heißt denn dieselbe property einmal <URI-1>has_color und einmal <URI-2>is_colored. Dumm gelaufen. Ein nettes Augenzwinkern: “Wir meinen ja das gleiche” hilft da nicht recht weiter. Fehlschüsse der dargestellten Art kann man bei DBpedia schnell finden. Und auch die weitreichende Akzeptanz einiger “Großkataloge” wie z.B. FOAF, DC, SKOS usw. führt nicht recht aus der Klemme.

Gutgemeint ist nicht gut gemacht.

Der fundamentalistische Ansatz: “Daß ich erkenne, was die Welt im Innersten zusammenhält …” Die Web Ontology Language (OWL) bringt aus meiner Sicht zwei wichtige Dinge, die über RDF hinausgehen: Zum einen wird zwischen Individuen und Klassen unterschieden – und zwar in aller Ausführlichkeit – , und zum anderen baut OWL auf einer mathematischen Logik auf, so daß es möglich ist, über einer Ontologie zu räsonieren. Probleme wie das oben angesprochene sind damit nicht ausgeschlossen, aber sie können möglicherweise durch reasoning entdeckt werden.

Also, nicht so zögerlich, schreiben wir die Welt auf … Die antiken Philosophen haben von einer einzigen Ontologie geträumt, die die Welt beschreibt, die modernen Informatiker träumen von vielen Ontologien, die das gemeinsam tun. Ich weiß nicht, ob das einfacher ist.

Ontologien werden mit unterschiedlichen Intentionen aufgeschrieben. Oft geht es dabei um die “Kodifizierung” der Begrifflichkeit in einer bestimmten domain of discourse.  Das mag aus der Sicht einer community ein sinnvolles Unterfangen sein, aus der Sicht eines Novizen (oder Normal-Users) ist es problematisch: Kennt man die Terminologie nicht, dann bleibt man draußen – Suchanfragen, die man mit den falschen Begriffen stellt, laufen ins Leere. Die in der Einleitung zu diesem Post zitierte Vision: “Das Semantic Web gibt Dir eine Antwort” müßte um einen Nebensatz ergänzt werden: “Wenn Du nur eine Frage mit den richtigen Begriffen stellst!” Naja, die richtige Frage stellen zu können, ist ja oft schon die halbe Miete …

Jesper Zedlitz hat in einem anderen Post in diesem Blog auf ein zweites Problem hingewiesen – ein Problem, das OWL und RDF miteinander teilen: Keine Zeit, keine Zeit! Wahrheiten werden als überzeitliche Wahrheiten aufgefaßt. Manchmal ist eine Wahrheit aber nur für eine bestimmte Zeit wahr: Deutschland ist jetzt eine parlamentarische Demokratie, in einer anderen Phase seiner Geschichte war es ein Königreich. Nimmt man das DBpedia-Tripel: <http://dbpedia.org/resource/Germany> <http://dbpedia.org/property/sovereigntyType> <http://dbpedia.org/resource/Kingdom_of_Germany>, dann könnte der unbefangene Nutzer daraus den Schluß ziehen, Deutschland sei auch heute ein Königreich … Danke, Jesper, für diesen Hinweis!

Ich denke mir, die antiken Philosophen haben in der Ontologie bewußt nur das zu fassen versucht, was begründet als “überzeitlich” anzusehen ist; der heutige Normal-Informatiker lebt in der besten aller Welten,  kann sich keine andere Welt vorstellen, verwechselt also heute mit immer und schreibt mal alles auf …

Der opportunistische Ansatz: Am Abend des 11.4.2011, einem Mittwoch, gegen 22:00 Uhr, konnte ich meine Neugier nicht mehr bezähmen: Ich bin ins Web gegangen und habe “Dortmund” eingetippt. Google hat mir – schneller als ich tippen konnte – ein zweites Suchwort vorgeschlagen: “Bayern”. Seit wann liegt Dortmund in Bayern? Ich bin sicher – Du, liebe Leserin, grinst jetzt müde: Mann, da war doch das Bundesliga-Schlagerspiel BVB gegen Bayern! Ha’m Sie das etwa verpaßt, Herr Luttenberger? Ja, ich gestehe, ich habe es verpaßt. Aber um 22:00 Uhr wollte ich dann dennoch wissen, wie es ausgegangen ist. 1:0 für Dortmund. Das wissen alle. Aber woher wußte Google, daß ich, als ich Dortmund eingetippt habe, etwas über dieses Schlagerspiel wissen wollte? Haben die Kollegen von der fundamentalistischen Fraktion die Dortmund-Ontologie schnell um einen “Bayern-Ast” erweitert? Und ist Google dann auf diesem neuen Ast der Dortmund-Ontologie schnell von Dortmund nach Bayern gerutscht? Und wenn die Kollegen von fundamentalistischen Fraktion die Dortmund-Ontologie schon um einen Bayern-Ast erweitert haben, warum dann nicht gleich um einen vollständigen Bundesliga-Ast? Und wenn es ein Bundesliga-Ast gewesen ist: Dann hätte mir Google doch auch Kaiserslautern vorschlagen können? Liebe Leserin, jetzt lachst Du bestimmt nicht mehr. Bei Kaiserslautern hört der Spaß endgültig auf, oder?

Ich denke mir, Google tickt anders. Google will nicht wissen, was die Welt zusammenhält. Google glaubt zweierlei: daß die Mehrheit der Benutzer weiß, was die Welt zusammenhält, und daß diese Mehrheit ihr Wissen beim Googeln durch ihr Klickverhalten kundtut. Und noch ein drittes glaubt Google: daß Google die richtigen Algorithmen und die statistisch relevante Masse hat, um das Klickverhalten auszuwerten. Und wenn ich mir meine Reise von Dortmund nach Bayern betrachte, dann kann sich dieser Glaube auf einige wunderbare Erscheinungen abstützen. Ich habe mich dabei auch nach der refresh rate für die opportunistische Wahrheitssuche gefragt. Leider keine gute Antwort gefunden, nicht im Google Web.

Auf jeden Fall hat es Google geschafft, daß Dortmund am Abend des 11.4.2011, einem Mittwoch, gegen 22:00 Uhr, in Bayern war. Und zu meinem größten Leidwesen war am gleichen Abend, zur gleichen Stunde, Schalke ein Vorort von Nürnberg …

Es gibt ein Buch der Autorin Helga Nowotny, das trägt den schönen Titel: “Es ist so. Es könnte auch anders sein“. In diesem Sinne …

Comments
One Response to “Future Web, Post 03”
  1. Michael Lodemann says:

    “Die semantische Suche … ein leidiges Thema” – so könnte der Untertitel dieses Artikels auch heißen. Apropro “heiß”: Auch wenn diese Überleitung über das Knie gebrochen ist, habe ich das Gefühl, dass grade im Bezug auf dieses Thema recht viel heiße Luft produziert wird. So wurde in einem Heise-TR-Post (http://www.heise.de/tr/blog/artikel/Sie-versteht-mich-nicht-1438783.html) von Gregor Honsel angemahnt, dass in einem Forschungsprojekt zu dem Thema viele viele Millionen von Steuergeldern versunken sind. Man könnte jetzt meinen: “Es ist halt ein Forschungsprojekt. Da ist halt das Ergebnis erstmal unbestimmt.” Aber dass dann sogar der Präsident der Fraunhofer-Geseelschaft, Prof. Dr. Hans-Jörg Bullinger behauptet, dass “das Forschungsprogramm THESEUS […] einen großen Beitrag für die Wettbewerbsfähigkeit der Informations- und Kommunikationstechnologie aus Deutschland geleistet [hat]”, das stimmt mich dann doch nachdenklich.
    Eine Kernkomponente dieses Forschungsprojekts ist eine semantische Suchmaschine mit dem schönen Namen ALEXANDRIA. Sie beansprucht für sich die Fähigkeit, Antworten auf natürlichsprachliche Fragen geben zu können. Leider versagt sie schon bei der Verarbeitung von klein geschreibenen Namen. So spuckt sie beispielsweise bei der Frage “Wo wohnt angela merkel?” keine brauchbare Antwort aus. Erst wenn man den Namen der Bundeskanzlerin groß schreibt, ist das Top-Level Ergebnis “Berlin” das Richtige. Etwas semantisch scheint ALEXANDRIA dann doch zu sein. Meinen Unmut und Nachdruck scheint sie zu bemerken. Wenn ich der ursprünglichen Anfrage “Wo wohnt angela merkel?” ein weiteres Fragezeichen hinzufüge, spuckt die Suchmaschine dann kleinlaut und eingeschüchtert doch das richtige Ergebnis aus. Ihr könnt es gerne selber ausprobieren:
    http://alexandria.neofonie.de/

    Auch andere semantische Suchmaschinen wie Wolfram Alpha scheitern schon an kleinen syntaktischen Herausforderungen. Zur Erinnerung: Wolfram Alpha wird seit dem Jahr 2005 entwickelt, ist somit schon eine gestandene Persönlichkeit, und wird sogar von IT-Schwergewichten wie Microsoft integriert – in ihrer Suchmaschine Bing. Zugegeben: Für die Erklärung mathematischer Ausdrücke ist Wolfram Alpha scheinbar sehr geeignet, jedoch beansprucht auch dieses Suchmaschine für sich, natürlichsprachliche Fragen (in englischer Sprache) interpretieren zu können. Aber schon die Frage nach Herrn Westerwave scheitert: “Who is the german foreign minister?” .. auch wenn die Auflistung der gefundenen Dokumente meiner naiven Ansicht nach nur mit einem klitzekleinen bisschen Semantik die Antwort ermöglicht hätte. Fazit: Lexikalisch scheinen semantische Suchmaschinen wie Wolfram Alpha zu wissen, was Semantik bedeutet, aber auch semantisch? http://www.wolframalpha.com/input/?i=What+is+semantic%3F

    Um den Bezug zu dem hier von mir kommentierten Artikel nicht vollständig zu verlieren, möchte ich zum Schluss auch auf die interessanten Möglichkeiten einer Trend-Analyse wie die der Google-Bayern-Dortmund-Analogie verweisen. Es können aufgrund der Suchanfragen sogar Rückschlüsse auf drohende Krankheitsherde gezogen werden … und das ganz ohne Semantik?! http://www.google.org/flutrends/intl/de/