Was uns bewegt

 

Science 2.0 …?!

1069524880.LGL.2D.2048x2048Vor ein paar Wochen – es war zu der Zeit als die Deutsche Bahn noch zwischen Dresden und Hamburg einen IC regelmäßig verkehren lassen konnte – fand in Hamburg die zweite Konferenz zum Thema Science 2.0 des gleichnamigen Forschungsverbunds der Leibniz-Gemeinschaft statt.

Science 2.0 …?!

Immerhin zeigt die aktuelle Diskussion, an der sich auch Spitzenpolitiker intensiv beteiligen, dass bei der Industrie bereits die Version 4.0 angesagt ist. So frage ich mich, wie gerade die Wissenschaft so hinterher hängen kann? “Industrie 4.0” adressiert im Sinne der vierten industriellen Revolution die zunehmende Digitalisierung, Vernetzung und IT-Durchdringung von Produktionsprozessen und Produkten in der Industrie, um eine Ressourceneffizienz und ein schnelleres Reaktionsvermögen auf Marktgegebenheiten zu erlangen. Eine solche Wirkung zu erzielen, bedarf es einer exakten Kenntnis über Prozesse und deren Planbarkeit (genaueres dazu findet man zum Beispiel unter www.wi2015.uni-osnabrueck.de/Files/WI2015-D-14-00135.pdf). Aber auch in der Industrie gilt, dass nicht jede Produktion für “Industrie 4.0” relevant ist. Zudem sind, zumindest aus meiner Sicht, bei den meisten von uns schon genau solche Dinge wie Digitalisierung, Vernetzung und IT im privaten Alltag angekommen – so dass es eigentlich keine Revolution, vielleicht aber doch eine Innovation darstellt. Wie der einzelne sie nutzt und warum, ist allerdings auch im privaten ganz heterogen.

Wie sieht der Arbeitsalltag eines Wissenschaftlers aus? Sind Digitalisierung, Vernetzung und IT-Durchdringung nicht auch bei der Wissenschaft angekommen und haben sie ähnliche Ziele und Wirkungen auf die Prozesse? Welche Rolle hat die IT überhaupt im Alltag eines Wissenschaftlers und welche Werkzeuge werden genutzt? Brauchen wir neue, ggf. “smarte” Werkzeuge? Das sind einige der Fragen, die meine aktuelle Studie zum Thema Alltag von Wissenschaftlern leitet. Dabei geht es schlussendlich um die Frage, wie IT sein muss, um nutzbringend für den Alltag von Wissenschaftlern zu sein ‒ und das herauszufinden ist eine Aufgabe meiner Disziplin, der Wirtschaftsinformatik, die sich ja speziell mit dem “Mensch-Aufgabe-Technik-Ordnungsrahmen” (Lutz J. Heinrich) auseinanderzusetzen hat.

Mein Weg bei der Suche nach Erkenntnissen ist das digital aufgezeichnete Gespräch. Ich folge Leitfragen, aber ich vertiefe Themen, wenn es sich anbietet und der Gesprächspartner die Bereitschaft dazu signalisiert. Dabei entstehen Gespräche, die nicht nur abstrakt von der Struktur der Arbeit berichten, wie es von einem rationalen Wissenschaftler vielleicht vermutet werden könnte. Manchmal höre ich auch von den mir bekannten Sorgen um Drittmittelakquise, Kennzahlen zu Publikationen und vor allem der Zeit als begrenzte Ressource.

Es ist bemerkenswert, dass es keinen generalisierbaren Musteralltag für Wissenschaftler gibt und dabei Einflussfaktoren wie Position oder eigenes Rollenverständnis wichtig sind. Der Alltag eines Wissenschaftlers ist auch bei weitem nicht nur von wissenschaftlichen Prozessen bestimmt. Arbeitsfelder wie Lehre, Drittmittelakquise oder auch Organisation und Verwaltung bilden bei manchem, gewollt oder ungewollt, einen zeitlich intensiven Bestandteil. Tätigkeiten wie Drittmittelanträge schreiben, Netzwerke und Kontakte pflegen, Projekte verwalten, Lehrveranstaltungen und Seminare begleiten, Kommunikation, Recherche und Publikation sind nur ein kleiner Anteil der Aufgaben, die bewältigt werden. Auch arbeiten Wissenschaftler häufig in Zyklen. Wenn das Semester ansteht, dann erfolgt eine Konzentration auf die Lehre. Wenn der Lehrbetrieb endet, rücken Wissenschaft und Forschungsanträge mehr in den Mittelpunkt. Durch die nach wie vor zunehmende Internationalisierung ist hier allerdings auch ein verschwimmen der Grenzen zu erkennen.

Sicher wäre es, zielorientiert gedacht, verlockend, in einer wissenschaftlichen Arbeit zehn gute Ideen pro Stunde im Sinne einer Ressourceneffizienz zu haben. Aber gute Ideen und Denkprozesse folgen kaum Effizienz. Sie sind eher kreativ, unstrukturiert und auch nicht zwingend immer erfolgreich. Auch arbeiten Wissenschaftler auf ganz unterschiedliche Weise an Themen: manche wählen bewusst eine Art Stille auch von der IT, indem Desktopmeldungen unterdrückt und Kommunikationspfade zeitlich begrenzt unterbrochen werden. Bei anderen spielen bei Lesen und Denken und nach wie vor Zettel und Stift eine große Rolle, aber auch die Präsenz von Technologien wie Grid Computing und Web 2.0 werden mir häufig berichtet. Dabei sind sicher auch der Bezug zum fachlichen Thema und der damit verbundene Bedarf wichtig. Organisational sind internationale Projekte und virtuelle Kooperationen ebenso vorzufinden wie eine Arbeit in kleinen, ganz direkten und persönlichen Projektgruppen.

Meine Interviews folgen keinem voll durchstrukturierten, vorgegebenen Weg. Ich lasse mich auf Antworten ein und manchmal werden die Gespräche nicht nur die 30 angesetzten Minuten lang, sondern es werden 90 Minuten daraus. Die Aufzeichnung lasse ich in einem Rechenzentrum in einer Spracherkennung bearbeiten. Großrechner erkennen Worte und Pausen, die dann häufig noch einmal einer händischen Korrektur bedürfen, aber manchmal schon sehr nah an der wörtlichen Aussage sind. IT macht mich effizient und verbessert meinen Forschungsprozess in den unterstützenden Tätigkeiten und reduziert den Zeitaufwand. Aber die eigentliche Leistung und damit die Erkenntnis zu den einzelnen Fragen, dabei unterstützt sie mich nicht und den Prozess verändert sie auch nicht. Ich denke nicht schneller und das ist schon in Ordnung, denn ich habe durch die IT-Unterstützung mehr Zeit für das, was Mehrwerte schaffen kann. Wenn also Werkzeuge dazu führen, dass die Ressource Zeit im Alltag von Wissenschaftlern geschont wird, dann sind sie notwendig und wichtig und müssen bei all den Tätigkeiten genutzt werden, bei denen Effizienz das einzige Ziel sein kann. Und dazu gehört eben Verwaltung oder Kommunikation. Den Erkenntnisgewinn und damit das eigentliche Produkt (denken wir zurück an die Industrie 4.0) der Wissenschaftler ‒ und da sind diese Prozesse eben anderes als in der Industrie ‒ wird eine noch so effiziente Unterstützung nicht besser machen, sondern nur der Mensch ‒ der Wissenschaftler.

Bildquelle 1: http://www.opte.org/maps/static/1069524880.LGL.2D.2048×2048.png

< comsys:Berechenbarkeit folge="3" >

2014-09-30 DSC02217Ordnung muss sein. Ordnung ist das halbe Leben.

Es gibt viele schwierige Erziehungsaufgaben. Eine davon ist: Wie bringe ich meinen Kindern Ordnung bei?

Das Fragezeichen ist kein Zufall. Ich würde von mir behaupten, dass ich es auch nach der Erziehung von zwei Töchtern immer noch nicht richtig weiss, wie das geht – Kinder zur Ordnung zu erziehen. Ich versuch’ jetzt ‘mal, die Schwierigkeiten, die dabei auftauchen (können), zu illustrieren.

Unser Leben ist – um es mit einer gewissen minimalen Ordnung auszustatten – in einen 7-Tage-Rhythmus eingeteilt, den man “Woche” nennt. Am Sonntag drückt man auf einen Reset-Knopf, der zum montäglichen Restart vorbereitet. Das Drücken des Reset-Knopfs war während meiner Erziehungszeit keine beiläufige Aktion, sondern eine sehr wohl inszenierte Handlung: ein opulentes Frühstück mit allerlei Köstlichkeiten, darunter insbesondere Räucherlachs, der mir noch heute eine Delikatesse ist.

Auch von den Kindern wurde dieses Frühstück als eine wichtige Handlung wahrgenommen, wahrscheinlich eher wegen Ernsthaftigkeit der Eltern als wegen des Delikatessenangebots – Kinder sind da nicht so wählerisch. Die Ernsthaftigkeit – ja, die wurde knallhart durch eine ErstWennDu-Dann-Konstruktion erzeugt: Erst wenn Du Dein Zimmer aufgeräumt hast, dann starten wir mit dem Frühstück. Auch am Sonntag also: Erziehung zur Ordnung!

Mammamia – die armen Kinder!

Aufräumen – das ist ja mehr, als die Dinge, die auf dem Fußboden herumliegen, in irgendeine Kiste zu schmeißen und diese dann unters Bett zu schieben. Aufräumen – das ist ja viel mehr! Das ist ja: die Dinge, die auf dem Fußboden herumliegen, zu klassifizieren und klassengerecht in klassenweise vorgehaltene Boxen einzuschlichten. Und diese dann an definierten Orten unterzubringen.

Aber woher sollen Kinder denn eigentlich das richtige Klassenbewußtsein bekommen? Ich glaube, das habe ich damals nicht richtig bedacht. Ich habe damals gedacht: Das ist doch klar!

Leider war es meist nicht so klar, und bei dem Inspektionsgang vor dem Frühstück musste nachgeholfen werden. Trotzdem – keines der Kinder ist verhungert. Weder sonntags, noch werktags.

Von der Familie zum Staat ist es manchmal nur ein kleiner Schritt. Internationaler Handel und staatliches Kontrollbedürfnis verlangen ebenfalls eine Ordnung. Die Warenströme, die über die nationalstaatlichen Grenzen fließen, müssen erfasst und möglicherweise verzollt werden. Ebenso wie die Kinder zunächst die Dinge klassifizieren mussten, bevor sie sie aufräumen konnten, braucht der Staat (bzw. die Staatengemeinschaft) Warenklassifikationen. Oder wie es das Statistische Bundesamt etwas allgemeiner formuliert:

"Bei der Beobachtung von Massenerscheinungen … fällt stets eine Fülle von Daten an, die notwendigerweise auf geeignete Art verdichtet werden muss, um ihre Präsentation und Analyse zu erleichtern bzw. erst möglich zu machen. Voraussetzung hierfür ist das Vorliegen verbindlicher Einteilungen der zu beobachtenden ökonomischen, sozialen oder sonstigen Tatbestände. Nur durch die verbindliche Anwendung einer bestimmten Klassifikation und deren Klassifizierungsregeln wird erreicht, dass Einzeldaten – abgesehen davon, dass diese aus Geheimhaltungsgründen, stichprobentheoretischen Überlegungen oder aufgrund anderer Ursachen gar nicht zugänglich gemacht werden können – von den verschiedenen Nutzern statistischer Angaben einheitlich gruppiert werden.

Für verschiedene Fragestellungen werden unterschiedliche Klassifikationen entwickelt. Hierzu zählen Klassifikationen zur Gliederung wirtschaftlicher Aktivitäten, von Waren und Dienstleistungen, sozioökonomischen Merkmalen, Regionalangaben usw. Zum Teil liegen für die Gliederung derselben Art von Tatbeständen, zum Beispiel von Waren, verschiedene Klassifikationen vor, die dem jeweiligen Erhebungszweck entsprechend konzipiert sind. So erfassen sowohl das Warenverzeichnis für die Außenhandelsstatistik als auch das Güterverzeichnis für Produktionsstatistiken im Wesentlichen physische Erzeugnisse, wegen unterschiedlicher Verwendungs- und Analysezwecke jedoch in anderer Gliederung.

Neben der einheitlichen Anwendung einer Klassifikation bei der Erhebung, Aufbereitung und Analyse statistischer Daten auf nationaler Ebene hat in den vergangenen Jahren die Verwendung international vergleichbarer Klassifikationen stark an Bedeutung gewonnen. Daher werden bei nationalen statistischen Erhebungen inzwischen häufig Klassifikationen verwendet, die verbindlich auf internationalen oder EU-weiten Vorgaben aufbauen oder es kommen sogar unmittelbar internationale Klassifikationen zum Einsatz." (https://www.destatis.de/DE/Methoden/Klassifikationen/Klassifikationen.html)

Das Forschungsziel, das ich mir gesetzt habe und über das ich hier in diesem Blog schon berichtet habe, verlangt offensichtlich, dass ich mit modernen Warenklassifikationen auseinandersetze. Du, liebe Leserin, wirst Dich nun fragen: Warum im Plural? Reicht denn nicht eine einzige Warenklassifikation? Nein, man möchte uns das Leben schwer machen, es gibt mehrere Klassifikationen. Ich beschäftige mich derzeit mit zweien, von denen ich erwarte, dass sie einen zumindest ähnlichen Zweck verfolgen wie die Warenklassifikation der Reichsstatistik, nämlich mit der Standard International Trade Classification (SITC) der Vereinten Nationen und Kombinierten Nomenklatur (CN) der Europäischen Kommission, wobei diese Kombinierte Nomenklatur eine Erweiterung des Harmonized System der Welthandelsorganisation (WTO) ist. Wie ich schon berichtet habe, umfasst die SITC 2970 Positionen. Für die CN habe ich keine entsprechende Angabe gefunden, und nachzählen mochte ich nicht; es sei nur bemerkt, dass der Warencode eine achtstellige Zahl ist.

Die Reichsstatistik benutzt als Warencode eine fortlaufende Nummer, die Warencodes der SITC und der CN sind im Gegensatz dazu hierarchisch aufgebaut. Die SITC-Hierarchie umfasst 10 Teile, 67 Abschnitte, 262 Gruppen, 1023 Untergruppen und 2970 Kleinste Gliederungseinheiten (sogenannte Fünfsteller) (Wikipedia); der SITC-Warencode hat fünf Stellen. Der Warencode der CN ist in vier jeweils zweistellige Schlüssel aufgeteilt; in den 21 Abschnitten der CN sind insgesamt 97 Kapitel enthalten, und jedes Kapitel hat Unterpositionen, und jede Unterposition kann noch weiter aufgeteilt werden.

Das sieht doch alles ganz ordentlich aus, oder?

Wenn ich mir vorstelle, meine Kinder hätten ihre diversen Utensilien nach der SITC bzw. der CN klassifizieren müssen … nein, das will ich mir lieber nicht vorstellen. Die Kinder wären verhungert – und die Eltern auch. Ich will also nicht davon reden, wie schwierig es ist, Dinge so “feingranular” zu klassifizieren. Ich will stattdessen darüber reden, wie “ordentlich” denn die Hierarchien der SITC und der CN gebildet sind bzw. was es eigentlich bedeutet, eine “ordentliche” Hierarchie aufzubauen.

Dem Informatiker scheint diese Frage eine der leichtesten zu sein: Hierarchisch – das bedeutet eine Baumstruktur. Da gibt es Knoten und Kanten wie in jedem Graphen, der Graph ist ungerichtet und zusammenhängend, es gibt keine Schlingen, einer der Knoten ist der Wurzelknoten, der keinen Vorgänger hat, alle anderen Knoten sind nur mit ihren Vorgängern verbunden. Man kann die Knoten in “innere Knoten” und in “Blattknoten” unterscheiden. Angewendet auf unsere beiden hierarchischen Warenklassifikationen bedeutet das: Der Wurzelknoten ist ein virtuelles Gebilde, das z.B. mit “SITC” bzw. “CN” bezeichnet werden könnte, die Blattknoten tragen Bezeichnungen, die auf die jeweils zu erfassenden Waren angewendet werden sollen. Die inneren Knoten dienen nur der Strukturierung des Systems bzw. der Navigation im Baum. So weit so gut: Ich habe diese naive Vorstellung von einer ordentlichen Baumstruktur gehabt, als ich mich daran gemacht habe, die Hierarchien der SITC bzw. der CN mit Hilfe eines XSL(T)-Skripts in OWL-2-Klassenhierarchien umzuwandeln.

Was ist mir aufgefallen?

  • Die Warenbezeichnungen, die ich bei den Blattknoten erwartet habe, können auch schon bei Knoten einer höheren Hierarchiestufe auftauchen. Die Hierarchie ist also nicht in allen Ästen des Baumes in voller Tiefe vorhanden. Das lässt sich zum Teil dadurch erklären, dass sich ein Oberbegriff oftmals nicht sehr sinnvoll in Unterbegriffe “aufspalten” läßt. Dann läßt man diese Aufspaltung schlicht und ergreifend weg. Nun ja, das ist vielleicht nicht schön, aber es lässt sich sicherlich verschmerzen.
  • Die SITC- bzw. CN-Bäume sind keineswegs zusammenhängend. Es gibt Lücken. Warencodes, die keine Verbindung zu ihren Vorgängern im Baum haben, habe ich vor allem in sog. correlation tables gefunden, d.h. in Tabellen, die eine Abbildung zwischen zwei oder mehr verschiedenen Klassifikationen beschreiben. Konkret ist mir das bei der Bildung von Warencodes aufgefallen, die für nicht vollständig klassifizierbare bzw. klassifizierte Waren stehen. In der CN z.B. geht man wie folgt vor: Wenn man grob weiss, zu welcher Gruppe bestimmte Waren gehören, aber feinere Kenntnisse fehlen, dann behält man die in der Hierarchie am höchsten stehenden Schlüssel bei und füllt die freien Stellen mit der Ziffer 9 auf. Es gibt z.B. einen Warencode 01999999, und der beschreibt sinngemäß “Live animals – not classified according to kind.” Eine etwas feinsinnige Erläuterung gibt die United Nations Commodity Trade Statistics Database: “Due to confidentiality, countries may not report some of its detailed trade. This trade will – however – be included at the higher commodity level and in the total trade value. For instance, trade data not reported for a specific 6-digit HS code will be included in the total trade and may be included in the 2-digit HS chapter. … Detailed data … will sum up to the respective totals due to the introduction of adjustment items with commodity code 9999 and 999999.” (http://comtrade.un.org/db/help/uReadMeFirst.aspx) Allerdings fehlen im angeführten Beispielen wie an anderen vergleichbaren Stellen die beiden inneren Knoten 0199 und 019999. Das ist für den menschlichen Leser nicht schlimm, sehr wohl aber bei der Bildung einer Klassenhierarchie.

(Wird fortgesetzt)

< comsys:Berechenbarkeit folge="2" >

Adler1867: Karl Marx vollendet den ersten Band seines Hauptwerks: Das Kapital. Und das ist der erste Satz dieses Wälzers: “Der Reichtum der Gesellschaften, in welchen kapitalistische Produktionsweise herrscht, erscheint als eine ungeheure Warensammlung.” Klingt das nicht wie die unbedingte Aufforderung, sich mit Warenstatistiken zu beschäftigen?

Vier Jahre später, nach dem Krieg mit Frankreich, gründet sich das Deutsche Reich neu, aus dem König von Preußen wird Kaiser Wilhelm I. (Ein Reiterstandbild befindet sich im Kieler Schlosspark.)

Und nochmals zwei Jahre später ist es endlich soweit: Das Deutsche Reich legt seine erste Reichsstatistik vor. Es geht vor allem um Waren, um deren Import und Export, um Zölle auf Waren, um die Warenströme usw. (Weitere Themen sind z.B. die Bevölkerungsentwicklung  und der Verkehr auf den Deutschen Wasserstraßen.) Bis zum Jahr 1883 erscheinen insgesamt 63 Bände, die zusammen die sog. Alte Folge der Reichsstatistik bilden. Das Reich macht Inventur — wie reich ist das Reich?

Wenn Du Dich, liebe Leserin, vielleicht schon gefragt hast, wie ich auf das Thema “Wirtschaftsstatistik” gekommen bin, wo es mir doch sonst eher um technische Themen geht, dann ist hier ein Teil der Antwort. Im Zuge meiner Zusammenarbeit mit der ZBW hatte ich erfahren, dass die ZBW vor einiger Zeit ein Projekt durchgeführt hat, in dem die “Die Statistik des Deutschen Reichs (Alte Folge) aus den Jahren 1873-1883” digitalisiert wurde. Ich habe mir gedacht: Das ist ein Schatzkästlein, das da am Rande der Förde liegt, und da musst Du hineinschauen, um mehr über den Reichtum unserer kapitalistischen Gesellschaft zu erfahren. Die programmatische Aussage von Marx muss nicht so nackt und bloß im Raume stehen bleiben, nein, sie kann mit konkreten Zahlen unterfüttert werden.

Und wenn es dann außerdem noch gelingt, mit Hilfe semantischer Technologien einen Anschluss der Reichsstatistik an unsere heutigen Warenstatistiken zu finden, dann ist das ein wirklich spannendes Projekt. Das auch valide technische Inhalte hat. Bingo!

In diesem post möchte ich zwei Themen ansprechen: Was bedeutet “Digitalisierung”? Und: Was ist mir beim Lesen der Reichsstatistik aufgefallen?

Dass Digitalisierung mit dem Einscannen anfängt, aber nicht dabei aufhören muss, ist wohl eine Binsenweisheit für alle, die sich mit alten Büchern beschäftigen. Dass hat sich auch die ZBW gedacht, als sie angefangen hat, sich mit der Reichsstatistik zu beschäftigen. Der nächste Schritt nach dem Einscannen ist meist die Texterkennung, d.h. die Bilder, die beim Scannen entstehen, werden mit etwas hinterlegt, das z.B. den MIME type text/plain oder text/rtf tragen könnte. Oft versucht man, diese Texterkennung automatisch durchzuführen, man spricht dann von Optical Character Recognition (OCR). Bei der Reichsstatistik darf man davon ausgehen, dass OCR nicht zu guten Ergebnissen führen würde, und zwar aus mehreren Gründen:

  • Der unten widergegebene Schnipsel aus dem Band 63 zeigt, dass manche Buchstaben auf ungewöhnliche Art graphisch repräsentiert werden, auch wenn der Font selber als “modern” durchgehen könnte. Eine automatische Texterkennung würde damit also wahrscheinlich eine aufwendige Nachbearbeitung erfordern.
    Schrift
  • WaarenGute OCR-Verfahren verwenden Wörterbücher, um die Ergebnisse der graphischen Verfahren zur Texterkennung abzugleichen. Aber wie gut kann das funktionieren, wenn im zu erkennenden Text eine Rechtschreibung verwendet wird, die nicht mehr die unsere ist? Auch dafür nebenan ein Beispiel, und zwar für ein Wort, das in unserem Zusammenhang wichtig ist.
  • Und schließlich sind da noch viele, viele Tabellen in der Reichsstatistik. Diese Tabellen bilden – so kann man sagen – den Hauptinhalt der Reichsstatistik. Tabellen per OCR zu rekonstruieren ist sowieso schwierig. Wenn man zusätzlich davon ausgeht, dass die automatische Texterkennung problematisch ist, dann bleibt für die Digitalisierung nur … genau: das Abtippen.
  • Ich denke, aus heutiger Sicht gehört zur Digitalisierung außerdem noch die semantische Annotation. Praktisch bedeutet das, dass man in das Digitalisat – sichtbar oder unsichtbar – in einer formalen Syntax eine Menge Annotationen hineinschreibt, die Bezug auf ein kontrolliertes Vokabular nehmen. Dafür automatische “Digitalisierungsverfahren” zu finden, ist eine ungelöste Forschungsfrage.

In ihrem Digitalisierungsprojekt hat sich die ZBW insbesondere der Tabellen der Reichsstatistik angenommen und diese tatsächlich abtippen lassen. Tatsächlich sind die Tabellen sogar mehrfach abgetippt worden, und erst nach positivem Vergleich sind die gewonnenen Daten als valide angenommen worden. Die Tabellen liegen nun verschiedenen Formaten vor, u.a. als Excel-Tabellen und als HTML-Tabellen.

Was ist mir beim Lesen in der Reichsstatistik aufgefallen? Ich zähle ein paar Dinge auf, ohne einen Anspruch auf Vollständigkeit zu haben.

Die Autoren der 63 Bände der Reichsstatistik (Marx und Engels haben es übrigens nur zu 42 Bänden gebracht) gestehen gleich zu Anfang ein, dass “das Ganze dieser Anordnungen … keinen im eigentlichen Sinne systematischen Ausbau der Statistik des Deutschen Reiches [bildet]. Es umfasst nicht alle Gesichtspunkte und Bedürfnisse, welche sich aus den Zwecken und der Kompetenz des Reiches nach … der Reichsverfassung als Aufgabe der Reichsstatistik ergeben müssten.” (Band 1, Einleitung, S. 9).

Wozu die Statistik gut sein soll, stellt man nur indirekt fest: Man “ging in der Unterscheidung der Waarenartikel, und bezüglich der Trennung des Verkehres nach Grenzstrecken und Gebietstheilen, nach Land-, See- und Flussverkehr, nach der Art der Abfertigung u. dgl. so weit ins einzelne, dass den schwierigen und nicht ohne lebhaften Kampf geführten Verhandlungen über die wirthschaftliche und Tarifpolitik des Zollvereins wesentliche Grundlagen geboten wurden.” Was wohl nichts anderes sagen will: Die Wirtschaftspolitik und die Zollregeln brauchen detailliertes Datenmaterial, damit die “nicht ohne lebhaften Kampf geführten Verhandlungen” zu einem akzeptablen Ende kommen können.

Die reklamierte “ins einzelne gehende Unterscheidung der Waarenartikel” führt dazu, dass das Warenverzeichnis der Reichsstatistik 403 Positionen für die Aus- und Durchfuhr und für den Wasserverkehr und 457 Positionen für die Einfuhr umfasst. Diese Zahlen mögen dem unbefangenen Leser groß erscheinen. Wenn man aber weiß, dass die heute u.a. verwendete Standard International Trade Classification Rev. 4 (SITC-4) insgesamt 2.970 Produkte unterscheidet (Statistisches Bundesamt: Deutsche Übersetzung der Standard International Trade Classification, Revision 4, der Vereinten Nationen, Ausgabe 2006), dann muss man doch von einem eher übersichtlichen Warenverzeichnis ausgehen: Es gibt ca. 5½-mal so viele SITC-4-Warencodes wie Reichsstatistik-Warencodes! (Auf die SITC-4 werde ich in weiteren posts noch eingehen.)

Zur Erstellung des Warenverzeichnisses greift man auf ein Vorgängerverzeichnis zurück. Man moniert allerdings u.a., “dass die Anordnung der betreffenden Zusammenstellungen nicht die nöthige Uebersichtlichkeit gewährt”. Trotzdem unternimmt man kaum Anstrengungen, das Warenverzeichnis mit diversen Strukturelementen auszustatten, die das Auffinden spezieller Waren erleichtern könnten: Das Warenverzeichnis ist in seinem Kern eine flache Liste von Waren mit zugeordneten Warencodes, wobei die letzteren schlicht und ergreifend aus der fortlaufenden Nummerierung der Waren gewonnen werden. Lediglich neun in die Liste eingefügte Zwischenüberschriften sorgen für Struktur und Übersicht. Die SITC-4 dagegen baut eine fünfstellige Hierarchie auf.

Viele Begrifflichkeiten der Reichsstatistik sind problematisch: Da wird z.B. unter ein und dem gleichen Warencode von Abfällen und Halbzeug gesprochen. Nach meinem Verständnis sind Abfälle Dinge, die in irgendeine geeignete Deponie kommen, während Halbzeug in die Produktion neuer Produkte eingeht. (Beim recycling macht man heute manchmal Halbzeug aus Dingen, die früher Abfall waren.) Probleme bereiten solche Vermischungen, wenn man die Codes des einen Warenverzeichnisses auf die Codes des anderen abbilden will. Die SITC-4 z.B. trennt Abfälle und Halbzeug sorgfältig voneinander; es wird hier kaum möglich sein, eine Abbildung zwischen der Reichsstatistik und der SITC-4 zu finden.

Richtige Kapriolen werden geschlagen, wenn es um den “eisernen Kredit” geht. Was das ist? Ich habe es auch nachschlagen müssen. Es geht um eine spezielle Subvention für Wein bzw. den Weinhändler – was man bei diesem Begriff keinesfalls vermuten hätte. “Der fortlaufende (eiserne) Zollkredit besteht darin, dass … für ein Weinquantum, das dem Umfang des Lagers angemessen ist, die Verzollung sowie die Feststellung des Zollbetrags ausgesetzt bleiben …” (Verhandlungen der General-Konferenz in Zollvereins-Angelegenheiten, 1839, S. 95) Ich würde mich liebend gerne mit diesem Weinquantum näher auseinandersetzen …

Über einige weitere Eigentümlichkeiten der Reichsstatistik werde ich sicherlich noch in nachfolgenden posts berichten. Aber vielleicht hast Du, liebe Leserin, schon einen ersten Eindruck davon gewonnen, wie spannend es sein, sich mit dem “Reichtum der Gesellschaften, in welchen kapitalistische Produktionsweise herrscht”, etwas näher zu beschäftigen.

< comsys:Berechenbarkeit folge="1" >

goldener Fisch 001Es würde mir schmeicheln, wenn mich in diesem Semester irgendjemand im Hörsaal vermissen würde. “Herr Luttenberger, wo sind Sie, was machen Sie?” Nun, ich habe das Glück, ein Forschungssemester einlegen zu dürfen, d.h. ich widme mich ein Semester lang einer Forschungsfrage, die so schwierig ist, dass ich all meine Zeit dafür brauche. Das ist ein schönes Privileg, das wir Professoren haben. Nach sieben Semestern mit Lehrverpflichtungen dürfen wir uns im achten Semester ganz auf eine einzige Aufgabe konzentrieren.

Was das für eine Aufgabe ist? Um die Frage zu beantworten, muss ich zunächst eine Geschichte erzählen, die ich vor Jahren in einer mittlerweile verschollenen Quelle gelesen habe. Ich kriege sie leider nicht mehr vollständig zusammen.

Vor kurzer Zeit gab es einmal einen gemeinsamen Weltkongress der Ingenieure und Schamanen. Er sollte dem Gedankenaustausch zwischen den jüngsten, alertesten und smartesten Ingenieuren und den ältesten, gelehrtesten und erfahrensten Schamanen dienen. Der Kongress kam nur zögerlich in Gang, die Ingenieure versammelten sich in der einen Ecke des Tagungsraums und spielten mit ihren neuesten Smartphones, die Schamanen versammelten sich in der anderen Ecke und rasselten mit ihren Wahrsageknöchelchen. Aber nach einiger Zeit der Verlegenheit wollten die Ingenieure loslegen, und sie wollten protzen: “Wir leben in einer Zeit des enormen Fortschritts. Wir haben Autos, und damit können wir überall hinfahren.” Die Schamanen waren sprachlos. Bis einer von ihnen fragte, wie das denn wohl gehen könne. “Naja, wir bauen Straßen, und darauf können die Autos dann überall hinfahren.” Ein Schamane fing an zu kichern und sagte: “Bevor Eure Autos fahren können, müsst Ihr die Welt also erst befahrbar machen? Ja, dann ist es doch ganz einfach, überall hinzufahren!” Die Ingenieure wurden ärgerlich wegen so viel Ignoranz und starteten weitere Versuche, die Schamanen zu beeindrucken – und scheiterten auf gleiche Weise. Schließlich ließ sich einer der Ingenieure zu einem letzten Protzversuch verleiten: “Wir haben so mächtige Computer, dass wir alles, alles, alles berechnen können, was es auf der Welt gibt.” Das war nun ganz und gar unvorstellbar für die Schamanen, und sie verfielen wieder in Sprachlosigkeit. Bis endlich der Weißhaarigste und Zahnloseste der Schamanen – Merke: Diese Superlative sind nur bei Schamanen zulässig! − anfing zu kichern und sagte: “Also, bevor Ihr die Welt berechnen könnt, müsst Ihr sie wohl erst berechenbar machen? … Ja, dann ist es doch ganz einfach, alles, alles, alles zu berechnen!”

Ich weiß nicht, wie es weitergegangen ist auf diesem Weltkongress − die Geschichte, die ich gelesen habe, schweigt sich da aus. Sie ist mir auf jedem Fall auch ohne ein angemessenes Schlusskapitel im Kopf geblieben. Und ich habe bemerkt, dass ich, seitdem ich die Geschichte gelesen habe, ein bisschen wie ein Schamane denke: Die Herbeiführung der Berechenbarkeit ist die schwierige Aufgabe, der Rest ist einfach.

Und was das jetzt mit meinem Forschungssemester zu tun hat? Ich möchte gerne herausfinden, was semantische Technologien dazu beitragen können, wirtschaftliche Vorgänge besser berechenbar (was hier nicht heißt: vorhersagbar) zu machen.  Anders formuliert: Ich beschäftige mich mit der Semantifizierung von Wirtschaftsstatistiken. Offensichtlich werden Wirtschaftsstatistiken schon seit langer Zeit geführt und genutzt, und ebenso offensichtlich sind Statistiken das Mittel der Wahl, um wirtschaftliche Vorgänge berechenbar zu machen. Versucht man jedoch, eine Statistik zu einem bestimmten wirtschaftlichen Vorgang (z.B. “Warenausfuhr”) über einen längeren Zeitraum zu verfolgen, dann wird man bemerken, dass sich die in diesen Statistiken verwendeten Begriffssammlungen (z.B. die Liste der Warenbezeichnungen) im Laufe der Zeit sehr stark verändert haben – was ja kein Wunder ist, da sich ja auch die Wirtschaft sehr stark verändert hat, insbesondere natürlich, was die Art und Vielfalt der hergestellten, gehandelten, eingeführten und ausgeführten Waren betrifft. Meine Forschungsfrage also nun präzisiert: Können uns semantische Technologien helfen, mit sich verändernden Begriffssammlungen besser umzugehen, insbesondere mit Begriffssammlungen (“Nomenklaturen”), die die Welt der Waren beschreiben? Ich denke, es ist gut nachvollziehbar, warum diese Fragestellung etwas mit Berechenbarkeit zu tun – jenseits all der schrecklichen Komplexitätsmaße und der theoretischen Informatik.

Im Rahmen dieser Fragestellung arbeite ich sehr eng mit der Deutschen Zentralbibliothek für Wirtschaftswissenschaften (ZBW) zusammen. Und in der nächsten Woche berichte ich weiter.

SEMAPRO 2013

usbstick-iariaDie Seventh International Conference on Advances in Semantic Processing (SEMAPRO 2013) ist Teil der Multi-Konferenz IARIA NexTech 2013 Konferenz und findet dieses Jahr in Portugal statt. Wir haben dort einen Artikel zum Thema “Datentypen in UML und OWL-2” eingereicht.

Das Hotel, in dem die Konferenz stattfindet (und in dem ich auch mein Zimmer habe), liegt in Gaia, einer direkten Nachbarstadt von Porto. Die Lage ist ein wenig seltsam, eingerahmt von Autobahnen liegen mehrere große Hotels in einer Art Gewerbegebiet. Das macht auch die Anreise etwas schwierig, lag doch die nächstgelegene Bushaltestelle auf der andere Seite der Autobahn. Insgesamt ist der ÖPNV in Porto sehr gut und modern. Man lädt sich auf eine RFID-Karte die Fahrkosten und logt sich in jedem Fahrzeug (U-Bahn, Bus etc.) neu ein. Für 1,80€ kann man in Kiel Kurzstrecke fahren, in Porto kommt man vom außerhalb gelegenen Flughafen zum Hotel am anderen Ende der Stadt.

Novotel in Porto

Am Sonntag Abend gab es bereits einen kleinen Empfang. Die Konferenz scheint fest in europäischer, wenn nicht sogar deutschsprachiger Hand zu sein. Vielleicht wohnen die anderen Teilnehmer aber nur in anderen Hotels und hatten keine Lust mehr, zum Tagungshotel zu fahren. Interessant waren mehrere Gespräche über das Thema “Semantic Web”. Das scheint einen relativ schlechten Ruf zu haben: Es wird eine extrem große Bandbreite an Themen mit diesem Etikett versehen und die Qualität der Beiträge ist sehr durchwachsen.

Wie schon geschrieben, ist Semantic Processing nur ein Teil der Multi-Konferenz und mit zwölf Veröffentlichungen ein eher kleiner.  Ubiquitous Computing ist mit 32 Beiträgen deutlich stärker vertreten. Aufgrund der wenigen Slots für semantische Techniken ergibt sich so aber auch die Möglichkeit, mal in andere Themengebiete hineinzuschauen. Montag Morgen habe ich mir eine Session zu Ambient Computing angeschaut, für meinen Geschmack zu wenig Informatik, dafür viel Psychologie, Medizin und Kunst.

Leider wurden die in den Gesprächen angesprochenen Vorurteile zu “Semantic Web” mal wieder bestätigt. Einige Beiträge hatten relativ wenig mit Semantic Web zu tun, sondern beschäftigten sich fast ausschließlich mit anderen Probleme. Hier scheint mir der Begriff “semantisch” nur angefügt worden zu sein, damit man einen weiteren Platz für Veröffentlichungen hat. Und auch der in Gesprächen immer wieder spöttisch angeführte Klassiker tauchte auf: Ein kompletter Beitrag nur für eine Anwendungs-Ontologie mit Klassen, die man an zwei und Object Properties, die man einer Hand abzählen konnte. Eine Nutzung existierender Ontologien oder Daten aus der LOD-Cloud? – Fehlanzeige.

PortoAm Dienstag hatte ich einen Tag frei, da – wie schon geschrieben – die SEMAPRO nur relativ wenige Sessions hat. Also ergab sich etwas Gelegenheit, sich Porto anzusehen. Zum Glück machte auch der Regen am Mittag eine Pause, so dass es noch ein paar Gelegenheiten zum Fotografieren gab.

 

Mein Vortrag am Mittwoch kam glaub’ ich recht gut an, er war allerdings wohl ein ziemlicher Gegensatz zu den übrigens Vorträgen. Anschließend gab es noch ein paar interessante Gespräche, die im Wesentlichen von dem Erstaunen geprägt waren, dass hinter OWL “echte” Informatik bzw. Description Logic steckt und man damit harte Beweise führen kann. Ich hoffe, dass ich zumindest bei einigen den schlechten Ruf, den “Semantic Web” vielfach hat, zumindest in einigen Teilen ausräumen konnte.

IEEE International Conference on Semantic Computing

Nach erfolgreicher Akzeptanz unseres Papers wurde mir die Möglichkeit gewährt, auf der IEEE International Conference on Semantic Computing 2013 unsere Arbeit zu präsentieren.

Nun läuft der 2. Tag der Konferenz und ich möchste eine erste Bilanz ziehen.

P1030227 (Medium)Die Konferenz findet im Hyatt Hotel in der Satellitenstadt Irvine im Großraum von Los Angeles statt. Es scheint eine relativ kleine Konferenz zu sein. Ich schätze, es sind ca. 80 Teilnehmer mehr oder weniger anwesend. Tatsächlich sind schon einige Sessions gekürzt worden, da einige Vortragende gar nicht erst angereist sind, aus welchen Gründen auch immer. Die Präsentationen sind von einer hohen Bandbreite gekennzeichnet, sowohl bezogen auf die Schwerpunkte der Forschungsgebiete, als auch auf die Qualität der Vorträge. Es liegt wohl in der Natur der Sache, dass das Buzzword “Semantic Computing” sehr viel Interpretationsspielraum zulässt.

P1030205 (Medium)Mein Vortrag fand in angenehmer Atmosphäre in einem kleinen Raum mit ca. 20 Beteiligten statt. Meiner Einschätzung nach habe ich einen guten Job gemacht. Es kamen keine allzu bohrenden Fragen. Nach dem Vortrag kam sogar die Forschungsleiterin der Interactive Knowledge Capture Research Group der University of Southern Californa auf mich zu und bestätigte, dass das Debugging von Ontologien, insbesondere der Regelsprache SWRL, eine Bereicherung darstellt, und sie sich vorstellen könnte, dieses Verfahren auch im Rahmen ihrer Arbeit einzusetzen. In ihrem anschließenden Vortrag räsonierte sie in einer sehr angenehmen Weise über ein Projekt zur Verbesserung der Nachvollziehbarkeit wissenschaftlicher Veröffentlichungen mit Hilfe semantischer Workflows. Diese ermöglichen sowohl in abstrakter Weise die Modellierung des Weges von einer Idee über deren Umsetzung bis hin zur Produktion von Ergebnissen, als auch die Konkretisierung der verwendeten Verfahren, Algorithmen und verwendeten Tools bis hin zur Integration von Quellcode. In meinen Augen eine sehr gutes Verfahren nicht nur zur Steigerung der Qualität wissenschaftlicher Arbeiten, sondern auch eine Möglichkeit zur Formalisierung und zur Verbesserung der Wiederverwendbarkeit konkreter Forschungsergebnisse.

Neben diesem Vortrag haben auch die Keynotes eine starke Wirkung auf mich gehabt. So hat bspw. ein Googleianer über deren aktuelle Entwicklungen rund um die Semantifizierung ihrer Suche gesprochen. Googles Knowledge Graph sollte ja hinlänglich bekannt sein. Was weniger bekannt ist, ist dessen frei nutzbare, abgespeckte Version Freebase. Auch die Entwicklung hin zur kontextabhängigen Suche in natürlicher Sprache ist ein interessanter Einblick in die Zukunft des Suchens. So können beispielsweise Fragen wie: Q:”Wie heißt das größte Gebäude in der Stadt die niemals schläft?” A: … Q:”Wie groß ist es?” A: … gestellt werden. Wir Zuhörer wurden eindringlich davon überzeugt, wie “awesome” sich doch die Art des Suchens in den nächsten paar Jahren ändern wird. Einen etwas negativen Beigeschmack hinterließ dann jedoch die Antwort auf die Frage, ob Google denn auch etablierte Standards wie bspw. OWL und RDF nutzen und dazu eventuell auch als Contributor auftreten würde. Sinngemäße Antwort war dann, dass Google sich natürlich davon hat inspirieren lassen, sie aber doch lieber ihr eigenens Ding machen und dieses Ding ja auch interne Betriebsgeheimnisse wären. Hmm … ok.

Eine weitere Keynote war von einem Herrn, der lange Jahre für das Department of Defense gearbeitet hat und dort maßgeblich zur Entwicklung der Financial Industry Business Ontology (FIBO) beigetragen hat, die sich in einem Standardisierungprozess bei der OMG befindet. Die Essenz des Talks war, dass man ja durch die Finanzkrise gesehen habe, wie wichtig ein allgemeines Vokabular in der Finanzwelt sei, um genau solche Krisen verhindern zu können. Soweit – so gut. Leider war die Essenz dieser Essenz, dass ein stabiles Finanzsystem ja eben für ein funktionierendes Defense-System unablässlich sei. Was folgte war ein eindringlicher Aufruf, sich bitte daran zu beteiligen, egal ob Amerikaner oder nicht. Wir säßen ja alle im selben Boot. Hm … Völkerverständigung mal anders?!

Negativ aufgefallen ist mir auch die Tatsache, dass doch sehr offensichliche Fehler präsentiert worden sind. So sei eine von einer Vortragenden entwickelte Software beispielsweise in 550 Ländern der Erde verfügbar. Wow, wie groß die Welt doch ist?!

Alles in allem ziehe ich jedoch eine positive Bilanz: Ich habe viele interessante Gespräche mit angenehmen Menschen führen können, sowohl auf fachlicher als auch auf menschlicher Ebene. Ich werde viele Eindrücke von der Konferenz aber auch von Amerika an sich mit nach Hause nehmen. Und auch den einen oder anderen Schokoriegel aus dem Kiosk neben meinem Hotel. Abschließen möchte ich mit diesem Foto eines wundervollen Sonnenuntergangs in Newport Beach und der Aussage, dass sicherlich weniger angenehme Orte auf der Welt existieren, wo man seine Forschungsergebnisse präsentieren kann.

P1030222 (Medium)

 

 

 

(Auslands-)praktikum und Studium?

Foto von jeffgunn (flickr)

Foto von jeffgunn (flickr)

Seit einem Monat und noch für sechs weitere genieße ich das Leben hier in der sonnigen San Francisco Bay Area.  Ich hatte das Glück, an ein Praktikum beim Software-Riesen Oracle zu kommen, der wohl den meisten Informatikern bekannt sein dürfte. Über Hagen Peters, einen ehemaligen Mitarbeiter von Prof. Luttenberger und jetzt Researcher bei Oracle, bestand bereits der Kontakt hierher.  Hier auch die Verbindung meines Beitrags zur ComSys AG bzw. diesem Blog.

Was das Studium betrifft, habe ich gerade meinen Bachelor-Abschluss erlangt und setze das Sommersemester ’13 aus, um danach mit dem Master anzufangen. Das erscheint mir ein sehr guter Zeitpunkt und ich kann es jedem nur empfehlen.

Ausland ja – aber warum ein Praktikum? Im Informatik Studium ist schließlich kein Praktikum vorgesehen. Das heißt, angerechnet bekomme ich dafür nichts, brauche am Ende also ein Semester länger. Mit einem Auslandssemester an einer ausländischen Hochschule ließen sich dagegen zusätzlich ein paar ECTS-Punkte sammeln.

Ob aus einem fachbezogenen Nebenjob oder einem Praktikum erworben – Praxiserfahrung halte ich für ungemein wichtig. Auch gerade deshalb, weil sie im Studium keinen Platz hat. Es erscheint einleuchtend, dass dabei erlangte Fertigkeiten – schon angefangen bei der reiner Übung im Programmieren – sich am Ende auch in den Studienleistungen erkennbar machen. Und schließlich findet sich so auch der ein oder andere Absatz, um seinen Lebenslauf zu verfeinern. Für die Mehrheit der Studierenden, schätze ich, ist dann doch die Wirtschaft das langfristige Ziel und ein tieferer Einblick in das, was kommen soll, kann nur positiv sein.

Etwas Eigeninitiative und Engagement sind definitiv Voraussetzung für so ein Unternehmen wie ein Auslandspraktikum. Auf Berge von Papierkram, die Bewerbung, Visum (gerade für die USA) und ähnliches betreffen, sollte man sich auf jeden Fall einstellen. Normalerweise kommen dann noch sehr lange Bewerbungsfristen dazu, die ich persönlich für eine besonders große Hürde halte, da sich das Studium einfach nicht starr durchplanen lässt. Meine Bewerbung ging glücklicherweise etwas direkter und so konnte ich sehr kurzfristig anfangen.

Mit Kalifornien hätte ich es sicherlich schlechter erwischen können und ich genieße die Umgebung auch in vollen Zügen. Zur Arbeit hier lässt sich auch nur gutes sagen. Überraschenderweise arbeite ich nicht an Datenbanken, sondern grob im Bereich Netzwerk/Kommunikationssysteme (wie passend). Das Markenzeichen der Oracle Headquaters sind die großen runden Gebäude, die seltsamerweise etwas an Datenbanken erinnern. Dort arbeite ich nicht, sondern in einem etwas unscheinbareren Nebengebäude, den Oracle Labs. Die Labs, die Forschungsabteilung von Oracle, können dafür mit umso interessanteren Projekten überzeugen.

Die Umstellung ging glücklicherweise auch ohne größere Problem, nicht zuletzt weil Oracle durch viel Erfahrung ein relativ ausgereiftes Programm für den im Umgang mit Praktikanten hat. Zu guter Letzt zeigt sich Oracle auch äußerst großzügig gegenüber ‘Interns’, was das Leben hier recht sorgenfrei macht.

Ich bin mir auch im Klaren, dass nicht jeder in seinem Wunschland oder bei seinem Wunschkonzern eine Stelle finden kann – und ich hoffe, es geht jetzt nicht jeder Leser mit der Erwartung davon, sein Praktikum möglichst nahe am Strand verbringen zu können. Ein etwas breiterer Blickwinkel bei der Suche erhöht womöglich die Chancen, etwas passendes zu finden, um einiges. Denn ich glaube, dass ein Internship – wo auch immer in der Welt – eine tolle Erfahrung werden kann.

ISWC2012

Herrn Luttenbergers und mein gemeinsamer Besuch der ISWC2012 in Boston ist eine schöne Gelegenheit, mal wieder einen Artikel zu schreiben! Aus meiner Sicht hatten Herr Luttenberger und ich einige wertvolle Gespräche und Diskussionen, so dass sich der Konferenzbesuch schon dadurch gelohnt hat. Ich weiss jetzt auch wieder, was so an der TF geschieht!

Gelernt habe ich übrigens auch, dass man extra schlechte Zimmer bekommt, wenn man sein Zimmer im Konferenzhotel durch die Konferenzwebseite bucht. Vergleiche dazu den Ausblick auf dem Bild hier mit dem nebenstehenden tatsächlichen Ausblick aus meinem Zimmer.

So wie im Blogbeitrag von Herrn Luttenberger beschrieben, habe ich die Konferenz eigentlich auch empfunden. Ich bin einer derjenigen, die eine “mathematisch fundierte Ausformulierung semantischer Zusammenhänge” hinter dem Begriff “semantic web” vermuteten. Insbesondere ist für mich das (automatische) Schlussfolgern in Ontologien oder eben im “semantic web” ein sehr wichtiger, ein essentieller Aspekt – in dieser Hinsicht war die Konferenz ernüchternd, aber lehrreich.

Die Keynotes und Beiträge der Konferenz zeigten, dass für heutige Anwendungen “semantic web” wirklich “nur” Annotation von Daten, vielleicht auch noch deren Verlinkung, bedeutet. Beispiele? Ein Vertreter einer Elektronikmarkt-Kette stellte deren Annotation von Produkten im Online-Shop vor, eine Forscherin aus Italien beschrieb die Verschlagwortung von Fotos durch Nutzer in Form eines Browsergames, IBM Research Dublin stellte Mashups aus OSM-Karten, Verkehrsinformationen und Nutzerdaten vor. Mein Favorit: Ein Forscher aus Japan führte eine Android-App vor, die mittels der vielfältigen Sensordaten eines Smartphones (Temperatur, Helligkeit, Feuchte, vermutlich GPS Daten) nicht nur eine geeignete Zierpflanze aus einer Datenbank hervorsuchte (im Vortrag: Jasmin), sondern diese auch sofort in das aktuelle durch die Smartphone-Kamera aufgenommene Videobild (gewissermaßen als Vorschau) hineinmontierte.

Warum nur bedienen die Nationen so ihre Klischees? Ein Japaner, der ein absurdes Technik-Gadget für Zierpflanzen entwickelt? Bonsai!

Auf der Konferenz konnte man in der Tat auch hier und da interessante “Unterschwingungen” wahrnehmen. In dieser Hinsicht war wirklich der von Herrn Luttenberger in seinem Artikel bereits erwähnte Vortrag zum Thema “schema.org” sehr interessant, auch wenn ich manche Unterschwingungen anders als Herr Luttenberger wahrgenommen habe:

Da haben nun einige Suchmaschinen-Betreiber W3C-standardkonform und eigentlich genau im Sinne des W3C, ein Vokabular (“schema.org”) für eine Beschreibungssprache (“RDFa”) entwickelt – genau wie Tausende vor ihnen. Dass dieses Vokabular mehr Aufmerksamkeit erhält als wenn beispielsweise Hagen Peters sich eines ausdenkt, liegt in der Natur der Sache. Was genau dabei die anwesenden W3C-Vertreter störte, ist mir aus deren Fragen auch nicht klar geworden. Ich denke, sie sind einfach unzufrieden damit, dass das Suchmaschinen-Konsortium quasi ein Standardvokabular definiert hat – und zwar ohne das W3C zu fragen. Vielleicht sind sie auch unglücklich damit, dass eben Google und Yahoo! usw. die Aufmerksamkeit für “schema.org” bekommen, obwohl doch das W3C die zugrunde liegenden Standards entwickelt hat. Möglicherweise finden sie es auch einfach falsch, dass kommerzielle Unternehmen die Standards setzen (bildlich wie auch wörtlich), und nicht eine eher uneigennützige, durch Mitgliederbeiträge und Spenden finanzierte Organisation wie das W3C. Wer weiß? Jedenfalls schienen die Vortragenden und die W3C-Vertreter keine Freunde zu werden.

Ich sehe die Entwicklung von “schema.org” ohnehin eher positiv. Was nützt eine Auszeichnungssprache wie “RDFa”, wenn das Vokabular am Ende doch zu uneinheitlich ist, um es zu nutzen? Zum Beispiel würde ich es hinsichtlich der (Nicht-) Unterstützung von Sprachen genau wie die Entwickler von “schema.org” machen und auch nur Englisch unterstützen. Wir reden ja nur von den Metainformationen, nicht von der für den Nutzer sichtbaren Sprache. Und mehrere Sprachen unterstützen heißt ja vor allem auch, dass man mehrere Sprachen (und Zeichencodes!) verstehen muss, wenn man die Metainformationen nutzen will.

Und, sind der Wunsch nach einem (weltweit!) einheitlichen Vokabular und der Wunsch nach Mehrsprachigkeit nicht per se gegensätzlich?


Der Höhepunkt der Konferenz war für mich, ich glaube wie auch für Herrn Luttenberger, die “Panel Discussion”, bei der verschiedene wichtige Personen auf provokante Thesen provokante Antworten (“Oracle’s databases are obsolete” — Unsinn!) gaben. Ich will hier nicht im Detail widergeben, welche Positionen die einzelnen Redner hatten. Es wurde aber eine Videoaufzeichnung gemacht, die hoffentlich bald im Netz gefunden werden kann.

Im Netz finden sich übrigens noch einige weitere Berichte, Blogs, Tweets, etc. zur ISWC, beispielsweise hier. Dieser Bericht zeigt vor allem zwei Dinge:

  1. Der Autor saß wohl direkt neben Herrn Luttenberger und mir.
  2. Wir alle wollten Tim Berner-Lee fotografieren.

Future Web, Post 07

Jetzt, nach dem Ende der International Semantic Web Conference 2012 in Boston, ist es gewiß ein guter Zeitpunkt, einen neuen Post zum Thema Future Web zu schreiben, quasi einen Reisebericht in die Zukunft. Ich sitze auf einem Warteplatz im Abflugbereich des Boston Logan International Airport, und auch der Ort paßt – wie ich finde – zum Thema.

Ich will nicht auf einzelne research oder industry papers eingehen, sondern versuchen, eine globale Sicht auf die Dinge zu formulieren, wie sie sich mir vor allem durch eine panel session, an der u.a. Tim Berners-Lee teilgenommen hat, darstellt. Ich werde zwei Stichworte (“semantic” und “big data”) diskutieren und ein zusammenfassendes Resumé versuchen.

Was bedeutet semantic in “Semantic Web“? Man mag gehofft haben, daß dieses Attribut auf eine mathematisch fundierte Ausformulierung semantischer Zusammenhänge hinweist, die sich quasi “hinter” dem Web versteckt, die es aber gestattet, im Web nicht nur nach Stichworten zu suchen, sondern durch logische Inferenz auch auf solche Informationen hingewiesen zu werden, die man vielleicht nicht im Blick hatte. Kurz gesagt: Diese Hoffnung war zu hoch gegriffen. Naja, irgendwie hätte man das ja voraussehen können: Um diese Hoffnung zu erfüllen, müßte man ja die Aufgabe angehen, die ganze Welt – und nichts weniger versucht ja das World Wide Web zu sein – als eine einzige große Menge von logischen Zusammenhängen aufzuschreiben, also als eine Menge von Klassen, Unterklassen, Relationen, Kardinalitäten usw., und zwar so, daß das Inferieren  gerade eben noch möglich ist. Die griechischen Philosophen, die von der Ontologie gesprochen haben, haben – nehme ich an – so etwas versucht. Sie hatten allerdings keine mathematischen Maschinen und mußten keine reasoner bauen. Die Informatiker sprechen deshalb in weiser Selbstbescheidung von Ontologien im Plural. Man könnte nun vielleicht glauben, daß es – etwas guten Willen bei allen Beteiligten vorausgesetzt – möglich sein müßte, alle diese Teil-Ontologien zu einer großen Ontologie zusammenzubauen. In der Tat hat es ja schon Versuche gegeben, gewisse “Dach-Ontologien” zu bauen, z.B. SUMO, die Suggested Upper Merged Ontology. Davon war in Boston jedoch nicht die Rede. (Oder ich habe es nur nicht gehört; bei einer Konferenz mit mehreren Hundert Teilnehmern ist dieser Nachsatz angebracht.)

Was also bleibt in Bezug auf semantic? Ein Teilnehmer an der oben erwähnten panel session lehnte konsequenterweise den Begriff Semantic Web ab und sprach stattdessen von graph-structured data. Was steckt da nun wieder dahinter? Ich sehe das wie folgt: Irgendwie scheint alle Welt davon auszugehen, daß man, wenn man es schon nicht schafft, die ganze Welt in einer “großen” Ontologie zu erfassen, es doch schaffen könnte, für alles, was da im WWW kreucht und fleucht, eine Menge an geeigneten Metadaten bereitzustellen. Und Metadaten, das sind heute RDF-Tripel, wobei RDF für Resource Description Framework steht. Ein Tripel ist eine Subjekt-Prädikat-Objekt-Aussage. Man ordnet den Ressourcen des Web (den “Subjekten”) also bestimmte Aussagen zu. Die Prädikate entnimmt man freifliegend einigen halb-und-halb standardisierten Vokabularien, und die Objekte sind Zeichenketten oder wiederum Ressourcen. (Na, diese Intro-to-RDF war jetzt ziemlich brachial.) Eines der bekannteren Vokabularien, das im Kontext von RDF öfter genannt wird, ist der Dublin Core (DC), der Prädikate zur Beschreibung von Büchern (im weitesten Sinne) bereitstellt, also solche Vokabeln wie Autor, Verlag, Erscheinungsjahr usw. Die “Bedeutung” dieser Vokabeln wird verabredet. Es gibt eine Vielzahl weiter solcher Vokabularien.

Da nun die RDF-Tripel, wie sich aus dem oben gesagten ergibt, miteinander vernetzt sind, liegt also “hinter” dem WWW ein riesiger “Triple Store” (z.B. DBpedia), der das Erschließen der Web-Inhalte erleichtern soll. Der Inhalt dieses Triple Store, das sind die graph-structured data, von denen ich weiter oben gesprochen habe. Man kann es aber auch anders sehen. Da sich für die Web-Inhalte kein vernünftiges umfassendes Datenbank-Schema angeben läßt, löst man sich von der Datenbank-Welt und hüpft in die Tripel-Welt. Man könnte also, statt von graph-structured data zu sprechen, auch von schemaless data sprechen. Einer der panelists war entsprechend kurz davor, die Sinnhaftigkeit von Datenbanken insgesamt in Frage zu stellen (was meinen Nebensitzer und ehemaligen Mitarbeiter Hagen Peters, der jetzt bei Oracle Research arbeitet, nur den Kopf schütteln ließ). Später wurde diese Aussage präzisiert: Es geht um die Ausrichtung der Optimierungsbemühungen: Woran bei den Datenbank-Herstellern seit Jahren gearbeitet würde, könnte in der kommenden Zeit weniger wichtig sein.

Doch jetzt kommt die entscheidende Frage: Wie bohrt man diesen riesigen Triple Store an, um an Information zu gelangen? Die etwas uninspirierte, weil naheliegende Antwort lautet: Wir bauen eine Abfragesprache und dazu dann einige Web Sites, von denen aus man Abfragen, in dieser Sprache formuliert sind, loslassen kann. Die Abfragesprache heißt SPARQL, die Web Sites heißen SPARQL Endpoints. Gefühlt war SPARQL auf der Konferenz die meistbenutzte Abkürzung. Diese Lösung ist … wie oben gesagt.

Google, Yahoo! und andere Suchmaschinen-Betreiber haben eine andere Vorstellung. Vergessen wir mal solche Triple Stores wie DBpedia usw., sagen diese Firmen. Stattdessen ist ein arbeitsteiliges Vorgehen angesagt: Du, lieber Content Provider, schreibst geeignete Tripel gleich in Deinen HTML-Quelltext hinein (und wir sind sicher, daß Du es tun wirst, weil wir Dich bei unseren Suchergebnissen sonst zufällig (?) nicht mehr aufführen werden, oder nur ganz unten), und wir, die Suchmaschinen-Betreiber, nutzen Deine Tripel, um neuartigen, aggregierten Content zu erzeugen, der dem Benutzer vielleicht neue Einsichten bringt, ihn aber auf jeden Fall an unsere Seiten bindet. Ach und übrigens, wir wissen auch, was “geeignete Tripel” bedeutet: Zum einen nutzen sie das Format RDFa, zum anderen nutzen sie das Vokabular schema.org. Und das ist irgendwann so umfassend, daß sich damit die ganze Welt mit Metadaten ausstatten läßt. Auch wenn es ein ausschließlich englisches Vokabular ist. Und offensichtliche keine Pläne existieren, dieses Vokabular auch in anderen Sprachen zugänglich zu machen. Also: Die American Standard Concepts for Information Interchange (ASCII) stehen vor der Tür! (Wobei concept die aufgeblasene Wortwahl für Begriff  bzw. term ist, wie sie in der Welt der semantischen Technologien gerne verwendet wird.) Hatten wir das nicht schon einmal?

So macht man das eben, wenn man Google, Yahoo! usw. heißt. Bei Google heißt übrigens das neuartige, aggregierte Ergebnis, das man dem Benutzer dank der Zuarbeit der Content Provider liefern kann: Knowledge Graph. Na super!

Ich werde das dumpfe Gefühl nicht los, daß die akademische Informatik viel Mühe in Projekte gesteckt hat, die von Google gerade als überflüssig erklärt werden. Bei einem Vortrag zu schema.org – vorgetragen von zwei Jungschnöseln, der eine von Yahoo!, der andere von Yandex, einer russischen Suchmaschine – zeigte sich in diesem Sinne der anwesende Vertreter des W3C auch als not amused. Überhaupt: Google war nicht unter den Sponsoren der Konferenz (zumindest nicht unter den namentlich zu erwähnenden), es gab keine Vorträge von Google-Mitarbeitern, und Teilnehmer-Ausweise mit der affiliation Google habe ich nicht gesehen. (Einer der panelists kam zwar von Google, aber er war zuvor bei einer Startup Company, die erst vor kurzem von Google aufgekauft wurde.) Man mag mir jetzt vorhalten, daß ich nachrichtendienstliche Muster zur Deutung chinesischer Parteitage auf die Welt der Wissenschaft übertrage: Ich bleibe dabei, ich glaube nicht an Zufälle. Diejenigen Leser, die mir nicht folgen wollen, können es vielleicht so lesen: Es war auf der Konferenz wie bei manchem Familientreffen: Es wurde am meisten über diejenigen geredet, die nicht da sind. Beim Vortrag zu schema.org war der Raum voll.

Und was passiert mit all den schönen semantischen Technologien, die so wissenschaftlich wertvoll mit Logik unterfüttert sind? Ich bin der festen Überzeugung, daß sie in bestimmten, fest abgegrenzten domains of discourse hervorragend eingesetzt werden können, z.B. in der Definition einer medizinischen Ontologie, in der Beschreibung von Eisenbahn-Infrastrukturen, im Software-Engineering oder … Zum Glück ist die AG ComSys in den beiden letztgenannten Bereichen aktiv … Ich bin insbesondere davon überzeugt, daß unsere Arbeiten zur Kombination von UML und OWL-2 sich in nicht allzu ferner Zukunft als fruchtbar erweisen werden. Ich weiß, daß das jetzt alles wie Selbstbeweihräucherung klingt. Ich finde, man darf manchmal recht haben wollen. Nicht immer.

Bleibt das zweite zu diskutierende Stichwort: big data. Aus Gründen, die sich mir nie vollständig erschlossen haben, werden zum Stichwort semantic web meist auch die folgenden Begriffe assoziiert: open data, linked open data, big data usw. Ich vermute, es verhält sich wie folgt: Unter der Annahme, hinreichend große und geeignete Mengen an Metadaten zur Verfügung zu haben, läßt sich das World Wide Web – vor allem auch der user-generated content darin – als ein riesiger Datenraum auffassen, der dank dieser Metadaten sinnvoll auf eigene Fragestellungen hin durchsucht und ausgewertet werden kann. Die eigene Datenbank platzt aus allen Nähten, sagen sich die Großorganisationen, laßt uns das Web nehmen. Die Hardware-Hersteller regieren auf dieses Bedürfnis mit Maschinen, die RAM-Speicher mit mehreren zig Terabyte und Peripherspeicher mit mehreren zig Exabyte haben. Dazu gehören zig Prozessoren mit zigzig Kernen.

Mehrere klare Botschaften waren mit dem Stichwort big data verbunden: (1) Nur ein paralleler Algorithmus ist ein Algorithmus. (2) Wenn der Algorithmus nicht skaliert, vergiß ihn. (3) Mit Deiner Hardware kannst Du erst zufrieden sein, wenn Deine Daten in den Hauptspeicher passen; also nie.

Zugegebenermaßen sind diese Assoziationen zum Thema big data nicht so blumig und verschwörungstheoretisch wie die Assoziationen zum Thema semantic. Aber vielleicht dennoch nützlich.

Meine Konklusionen:

  • Web-Technologien, semantische Technologien, Parallelverarbeitung und HPC-Hardware sind wichtige Gegenstände für die Ausbildung unserer Studierenden.
  • Das Nachdenken über das Thema Future Web hat für mich schärfere Konturen bekommen. Ich weiß einige Nicht-Titel für Forschungsprojekte.
  • Wir sind gut beraten, wenn wir in Lehre und Forschung mit den vielfältigen Fragen umgehen, die sich aus der Nicht-Präzision, aus der Nicht-Konsistenz, aus der Nicht-Formalisierung des Web ergeben. Ein Thema (unter vielen anderen) ist in diesem Kontext nach meiner Sichtweise das Thema Natural Language Processing.

Ich bin gespannt, ob es Diskussionen zu diesem Post gibt. Ich würde mich freuen.

International Semantic Web Conference 2012 in Boston

10.11.2012: Noch sitze ich auf dem Hamburger Flughafen und warte auf meinen Flieger (der mich zunächst nach London bringen wird): In der nächsten Woche werde ich an der International Semantic Web Conference 2012 (ISCW 2012) in Boston teilnehmen. Die AG ComSys ist gut vertreten dort: Wir haben je einen Vortrag (samt zugehörigem Paper) in zwei Workshops.

Worum geht’s?

Im ersten Paper (Transforming Between UML Conceptual Models And OWL-2 Ontologies, zu finden auf unserer Publikationsseite) stellen wir dar, wie statische UML-Klassenmodelle (d.h. Klassenmodelle, in denen keine Methoden angeführt werden) in formal begründete semantische Modelle, die in der Web Ontology Language 2 (OWL-2) aufgeschrieben sind, transformiert werden können – hin und zurück. Der Witz bei der Sache: Die Transformation erfolgt auf der Metamodell-Ebene, d.h. es werden nicht einzelne Objekte (UML) bzw. Individuen (OWL-2)  transformiert, sondern die Konstrukte der einen Modellierungssprache in die entsprechenden Konstrukte der anderen Modellierungssprache. (Selbstverständlich kann ein solcher Transformator auf dieser Basis dann auch die einzelnen Objekte bzw. Individuen transformieren.) Beim Entwickeln dieser Technik hat uns nicht nur die Transformation “an sich” interessiert, sondern auch die Grenzen der Transformierbarkeit, d.h. die Frage, welche Sprachkonstrukte – bei aller vordergründigen Ähnlichkeit der beiden genannten Modellierungssprachen – sich transformieren lassen, und welche sich nicht transformieren lassen. Wir glauben, daß dieser Beitrag eine nützliche Technik beschreibt: UML ist das tool of the craft im Software-Engineering und OWL-2 ist das tool of the craft im Bereich Knowledge Engineering. Diese beiden Disziplinen haben schon viel zu lange nebeneinander her gelebt – es wird Zeit, daß eine Brücke geschlagen wird. Mit unserem Paper sind wir im Terra Cognita Workshop der ISCW 2012 gelandet. Wie das? In diesem Workshop geht es im weitesten Sinne um geographische Informationssysteme – dank dieser Systeme ist aus der unbekannten Erde (Terra incognita) die bekannte Erde geworden. Und diese Erde wird mit Modellierungssprachen beschrieben, vor allem mit der Geography Markup Language (GML) (siehe dazu auch dieses Paper). Ohne jetzt in die Details gehen zu wollen: Für die GML-basierte Modellierung geographischer Sachverhalte spielen statische UML-Klassenmodelle eine große Rolle, und wohl möglich wollte das Programmkomitee dieses Workshops nun sehen, ob sich hier auch etwas mit OWL-2 machen läßt. Ich bin auf die Reaktion der Zuhörer gespannt.

11.11.2012: Mittlerweile bin ich in Boston angekommen und habe schon einen ausführlichen Rundgang durch die Stadt gemacht. Um einen Eindruck von der Stadt zu geben, habe ich ein Photo ausgewählt, das die Spiegelung der Trinity Church in der Spiegelglas-Fassade des John Hancock Towers zeigt.

Aber nun zurück zu den Beiträgen der AG ComSys zur ISCW 2012. Die Motivation für das zweite Paper (A Pattern For Interrelated Numerical Properties) ist etwas schwieriger zu verstehen. Ich versuch’s trotzdem. Man kann die Sprache OWL-2 nutzen, um eine Ontologie aufzuschreiben, z.B. eine Ontologie, in der solche Begriffe wie “Vater”, “Mutter”, “Eltern”, “Kind” erklärt werden und auch einige Individuen aufgezählt werden, die zueinander in einer “Kind”- bzw. einer “Eltern”-Beziehung stehen. Manchmal ist man mit der Ontologie noch nicht zufrieden und möchte gerne zusätzliche Bedingungen formulieren, die eingehalten werden müssen, damit die Ontologie einen Sachverhalt richtig wiedergibt. Eine solche zusätzliche Bedingung könnte in unserem Beispiel die folgende sein: “A childs year of birth is always greater than the year of birth of its parents.” Wenn man genau hinguckt, dann merkt man, daß es alles andere als einfach ist, diesen “einfachen” Sachverhalt mit OWL-2 aufzuschreiben. Zum Glück gibt es aber die Semantic Web Rule Language (SWRL), und mit der geht das Aufschreiben einfach; allerdings handelt man sich mit der Benutzung der SWRL ggf. einige andere Probleme ein, die ich hier jedoch nicht darstellen will. Allerdings ist es leider (nur mir?) nicht ganz klar, wie sich denn die Sachverhalte charakterisieren lassen, die man nur mit der SWRL aufschreiben kann. Ist der oben angeführte Sachverhalt z.B. deshalb ein solcher Sachverhalt, weil in ihm die numerischen Werte einer data property verschiedener Individuen zueinander in Beziehung gesetzt werden, die ihrerseits miteinander über eine object property verbunden sind? Lange Zeit klang es so, als ob das ein mögliches k.o.-Kriterium für OWL-2 wäre. In unserem Paper zeigen wir nun, daß das nicht der Fall ist. Allerdings muß man dann z.B. die Zahlen anders kodieren, als es üblicherweise geschieht. Es war schwierig, dieses Paper “unterzubringen”. Die Theoretiker haben sich nicht richtig dafür interessiert, und die Semantic Web-Leute auch nicht. Es hat ein bißchen gedauert bis wir begriffen haben, daß wir in unserem Paper ein pattern formuliert haben, mit dem sich bestimmte Sachverhalte in OWL-2 aufschreiben lassen. Deshalb sind wir mit unserem Paper im 3rd Workshop on Ontology Patterns gelandet, und ich denke, daß dort vor allem Leute sitzen werden, die sich als Knowledge Engineers beschreiben würden. Ich freue mich besonders, daß Hagen Peters den Vortrag halten wird. Er reist dafür eigens aus Kalifornien an, wo er nun seit fast genau einem Jahr nach langjähriger Mitarbeit in der AG ComSys und nach Promotion in Kiel im Research Lab der Firma Oracle arbeitet.