Future Web, Post 07

Jetzt, nach dem Ende der International Semantic Web Conference 2012 in Boston, ist es gewiß ein guter Zeitpunkt, einen neuen Post zum Thema Future Web zu schreiben, quasi einen Reisebericht in die Zukunft. Ich sitze auf einem Warteplatz im Abflugbereich des Boston Logan International Airport, und auch der Ort paßt – wie ich finde – zum Thema.

Ich will nicht auf einzelne research oder industry papers eingehen, sondern versuchen, eine globale Sicht auf die Dinge zu formulieren, wie sie sich mir vor allem durch eine panel session, an der u.a. Tim Berners-Lee teilgenommen hat, darstellt. Ich werde zwei Stichworte (“semantic” und “big data”) diskutieren und ein zusammenfassendes Resumé versuchen.

Was bedeutet semantic in “Semantic Web“? Man mag gehofft haben, daß dieses Attribut auf eine mathematisch fundierte Ausformulierung semantischer Zusammenhänge hinweist, die sich quasi “hinter” dem Web versteckt, die es aber gestattet, im Web nicht nur nach Stichworten zu suchen, sondern durch logische Inferenz auch auf solche Informationen hingewiesen zu werden, die man vielleicht nicht im Blick hatte. Kurz gesagt: Diese Hoffnung war zu hoch gegriffen. Naja, irgendwie hätte man das ja voraussehen können: Um diese Hoffnung zu erfüllen, müßte man ja die Aufgabe angehen, die ganze Welt – und nichts weniger versucht ja das World Wide Web zu sein – als eine einzige große Menge von logischen Zusammenhängen aufzuschreiben, also als eine Menge von Klassen, Unterklassen, Relationen, Kardinalitäten usw., und zwar so, daß das Inferieren  gerade eben noch möglich ist. Die griechischen Philosophen, die von der Ontologie gesprochen haben, haben – nehme ich an – so etwas versucht. Sie hatten allerdings keine mathematischen Maschinen und mußten keine reasoner bauen. Die Informatiker sprechen deshalb in weiser Selbstbescheidung von Ontologien im Plural. Man könnte nun vielleicht glauben, daß es – etwas guten Willen bei allen Beteiligten vorausgesetzt – möglich sein müßte, alle diese Teil-Ontologien zu einer großen Ontologie zusammenzubauen. In der Tat hat es ja schon Versuche gegeben, gewisse “Dach-Ontologien” zu bauen, z.B. SUMO, die Suggested Upper Merged Ontology. Davon war in Boston jedoch nicht die Rede. (Oder ich habe es nur nicht gehört; bei einer Konferenz mit mehreren Hundert Teilnehmern ist dieser Nachsatz angebracht.)

Was also bleibt in Bezug auf semantic? Ein Teilnehmer an der oben erwähnten panel session lehnte konsequenterweise den Begriff Semantic Web ab und sprach stattdessen von graph-structured data. Was steckt da nun wieder dahinter? Ich sehe das wie folgt: Irgendwie scheint alle Welt davon auszugehen, daß man, wenn man es schon nicht schafft, die ganze Welt in einer “großen” Ontologie zu erfassen, es doch schaffen könnte, für alles, was da im WWW kreucht und fleucht, eine Menge an geeigneten Metadaten bereitzustellen. Und Metadaten, das sind heute RDF-Tripel, wobei RDF für Resource Description Framework steht. Ein Tripel ist eine Subjekt-Prädikat-Objekt-Aussage. Man ordnet den Ressourcen des Web (den “Subjekten”) also bestimmte Aussagen zu. Die Prädikate entnimmt man freifliegend einigen halb-und-halb standardisierten Vokabularien, und die Objekte sind Zeichenketten oder wiederum Ressourcen. (Na, diese Intro-to-RDF war jetzt ziemlich brachial.) Eines der bekannteren Vokabularien, das im Kontext von RDF öfter genannt wird, ist der Dublin Core (DC), der Prädikate zur Beschreibung von Büchern (im weitesten Sinne) bereitstellt, also solche Vokabeln wie Autor, Verlag, Erscheinungsjahr usw. Die “Bedeutung” dieser Vokabeln wird verabredet. Es gibt eine Vielzahl weiter solcher Vokabularien.

Da nun die RDF-Tripel, wie sich aus dem oben gesagten ergibt, miteinander vernetzt sind, liegt also “hinter” dem WWW ein riesiger “Triple Store” (z.B. DBpedia), der das Erschließen der Web-Inhalte erleichtern soll. Der Inhalt dieses Triple Store, das sind die graph-structured data, von denen ich weiter oben gesprochen habe. Man kann es aber auch anders sehen. Da sich für die Web-Inhalte kein vernünftiges umfassendes Datenbank-Schema angeben läßt, löst man sich von der Datenbank-Welt und hüpft in die Tripel-Welt. Man könnte also, statt von graph-structured data zu sprechen, auch von schemaless data sprechen. Einer der panelists war entsprechend kurz davor, die Sinnhaftigkeit von Datenbanken insgesamt in Frage zu stellen (was meinen Nebensitzer und ehemaligen Mitarbeiter Hagen Peters, der jetzt bei Oracle Research arbeitet, nur den Kopf schütteln ließ). Später wurde diese Aussage präzisiert: Es geht um die Ausrichtung der Optimierungsbemühungen: Woran bei den Datenbank-Herstellern seit Jahren gearbeitet würde, könnte in der kommenden Zeit weniger wichtig sein.

Doch jetzt kommt die entscheidende Frage: Wie bohrt man diesen riesigen Triple Store an, um an Information zu gelangen? Die etwas uninspirierte, weil naheliegende Antwort lautet: Wir bauen eine Abfragesprache und dazu dann einige Web Sites, von denen aus man Abfragen, in dieser Sprache formuliert sind, loslassen kann. Die Abfragesprache heißt SPARQL, die Web Sites heißen SPARQL Endpoints. Gefühlt war SPARQL auf der Konferenz die meistbenutzte Abkürzung. Diese Lösung ist … wie oben gesagt.

Google, Yahoo! und andere Suchmaschinen-Betreiber haben eine andere Vorstellung. Vergessen wir mal solche Triple Stores wie DBpedia usw., sagen diese Firmen. Stattdessen ist ein arbeitsteiliges Vorgehen angesagt: Du, lieber Content Provider, schreibst geeignete Tripel gleich in Deinen HTML-Quelltext hinein (und wir sind sicher, daß Du es tun wirst, weil wir Dich bei unseren Suchergebnissen sonst zufällig (?) nicht mehr aufführen werden, oder nur ganz unten), und wir, die Suchmaschinen-Betreiber, nutzen Deine Tripel, um neuartigen, aggregierten Content zu erzeugen, der dem Benutzer vielleicht neue Einsichten bringt, ihn aber auf jeden Fall an unsere Seiten bindet. Ach und übrigens, wir wissen auch, was “geeignete Tripel” bedeutet: Zum einen nutzen sie das Format RDFa, zum anderen nutzen sie das Vokabular schema.org. Und das ist irgendwann so umfassend, daß sich damit die ganze Welt mit Metadaten ausstatten läßt. Auch wenn es ein ausschließlich englisches Vokabular ist. Und offensichtliche keine Pläne existieren, dieses Vokabular auch in anderen Sprachen zugänglich zu machen. Also: Die American Standard Concepts for Information Interchange (ASCII) stehen vor der Tür! (Wobei concept die aufgeblasene Wortwahl für Begriff  bzw. term ist, wie sie in der Welt der semantischen Technologien gerne verwendet wird.) Hatten wir das nicht schon einmal?

So macht man das eben, wenn man Google, Yahoo! usw. heißt. Bei Google heißt übrigens das neuartige, aggregierte Ergebnis, das man dem Benutzer dank der Zuarbeit der Content Provider liefern kann: Knowledge Graph. Na super!

Ich werde das dumpfe Gefühl nicht los, daß die akademische Informatik viel Mühe in Projekte gesteckt hat, die von Google gerade als überflüssig erklärt werden. Bei einem Vortrag zu schema.org – vorgetragen von zwei Jungschnöseln, der eine von Yahoo!, der andere von Yandex, einer russischen Suchmaschine – zeigte sich in diesem Sinne der anwesende Vertreter des W3C auch als not amused. Überhaupt: Google war nicht unter den Sponsoren der Konferenz (zumindest nicht unter den namentlich zu erwähnenden), es gab keine Vorträge von Google-Mitarbeitern, und Teilnehmer-Ausweise mit der affiliation Google habe ich nicht gesehen. (Einer der panelists kam zwar von Google, aber er war zuvor bei einer Startup Company, die erst vor kurzem von Google aufgekauft wurde.) Man mag mir jetzt vorhalten, daß ich nachrichtendienstliche Muster zur Deutung chinesischer Parteitage auf die Welt der Wissenschaft übertrage: Ich bleibe dabei, ich glaube nicht an Zufälle. Diejenigen Leser, die mir nicht folgen wollen, können es vielleicht so lesen: Es war auf der Konferenz wie bei manchem Familientreffen: Es wurde am meisten über diejenigen geredet, die nicht da sind. Beim Vortrag zu schema.org war der Raum voll.

Und was passiert mit all den schönen semantischen Technologien, die so wissenschaftlich wertvoll mit Logik unterfüttert sind? Ich bin der festen Überzeugung, daß sie in bestimmten, fest abgegrenzten domains of discourse hervorragend eingesetzt werden können, z.B. in der Definition einer medizinischen Ontologie, in der Beschreibung von Eisenbahn-Infrastrukturen, im Software-Engineering oder … Zum Glück ist die AG ComSys in den beiden letztgenannten Bereichen aktiv … Ich bin insbesondere davon überzeugt, daß unsere Arbeiten zur Kombination von UML und OWL-2 sich in nicht allzu ferner Zukunft als fruchtbar erweisen werden. Ich weiß, daß das jetzt alles wie Selbstbeweihräucherung klingt. Ich finde, man darf manchmal recht haben wollen. Nicht immer.

Bleibt das zweite zu diskutierende Stichwort: big data. Aus Gründen, die sich mir nie vollständig erschlossen haben, werden zum Stichwort semantic web meist auch die folgenden Begriffe assoziiert: open data, linked open data, big data usw. Ich vermute, es verhält sich wie folgt: Unter der Annahme, hinreichend große und geeignete Mengen an Metadaten zur Verfügung zu haben, läßt sich das World Wide Web – vor allem auch der user-generated content darin – als ein riesiger Datenraum auffassen, der dank dieser Metadaten sinnvoll auf eigene Fragestellungen hin durchsucht und ausgewertet werden kann. Die eigene Datenbank platzt aus allen Nähten, sagen sich die Großorganisationen, laßt uns das Web nehmen. Die Hardware-Hersteller regieren auf dieses Bedürfnis mit Maschinen, die RAM-Speicher mit mehreren zig Terabyte und Peripherspeicher mit mehreren zig Exabyte haben. Dazu gehören zig Prozessoren mit zigzig Kernen.

Mehrere klare Botschaften waren mit dem Stichwort big data verbunden: (1) Nur ein paralleler Algorithmus ist ein Algorithmus. (2) Wenn der Algorithmus nicht skaliert, vergiß ihn. (3) Mit Deiner Hardware kannst Du erst zufrieden sein, wenn Deine Daten in den Hauptspeicher passen; also nie.

Zugegebenermaßen sind diese Assoziationen zum Thema big data nicht so blumig und verschwörungstheoretisch wie die Assoziationen zum Thema semantic. Aber vielleicht dennoch nützlich.

Meine Konklusionen:

  • Web-Technologien, semantische Technologien, Parallelverarbeitung und HPC-Hardware sind wichtige Gegenstände für die Ausbildung unserer Studierenden.
  • Das Nachdenken über das Thema Future Web hat für mich schärfere Konturen bekommen. Ich weiß einige Nicht-Titel für Forschungsprojekte.
  • Wir sind gut beraten, wenn wir in Lehre und Forschung mit den vielfältigen Fragen umgehen, die sich aus der Nicht-Präzision, aus der Nicht-Konsistenz, aus der Nicht-Formalisierung des Web ergeben. Ein Thema (unter vielen anderen) ist in diesem Kontext nach meiner Sichtweise das Thema Natural Language Processing.

Ich bin gespannt, ob es Diskussionen zu diesem Post gibt. Ich würde mich freuen.

Comments
One Response to “Future Web, Post 07”
  1. Niclas Hoyer says:

    Ein super Blogbeitrag! Ich hoffe die “freie” Entwicklung des Semantic Web behauptet sich in Zukunft gegenüber schema.org, sonst dürfen wir bald unsere “semantic” Web Anwendungen für Google und co schreiben.