Blog

 

< comsys:Berechenbarkeit folge="3" >

2014-09-30 DSC02217Ordnung muss sein. Ordnung ist das halbe Leben.

Es gibt viele schwierige Erziehungsaufgaben. Eine davon ist: Wie bringe ich meinen Kindern Ordnung bei?

Das Fragezeichen ist kein Zufall. Ich würde von mir behaupten, dass ich es auch nach der Erziehung von zwei Töchtern immer noch nicht richtig weiss, wie das geht – Kinder zur Ordnung zu erziehen. Ich versuch’ jetzt ‘mal, die Schwierigkeiten, die dabei auftauchen (können), zu illustrieren.

Unser Leben ist – um es mit einer gewissen minimalen Ordnung auszustatten – in einen 7-Tage-Rhythmus eingeteilt, den man “Woche” nennt. Am Sonntag drückt man auf einen Reset-Knopf, der zum montäglichen Restart vorbereitet. Das Drücken des Reset-Knopfs war während meiner Erziehungszeit keine beiläufige Aktion, sondern eine sehr wohl inszenierte Handlung: ein opulentes Frühstück mit allerlei Köstlichkeiten, darunter insbesondere Räucherlachs, der mir noch heute eine Delikatesse ist.

Auch von den Kindern wurde dieses Frühstück als eine wichtige Handlung wahrgenommen, wahrscheinlich eher wegen Ernsthaftigkeit der Eltern als wegen des Delikatessenangebots – Kinder sind da nicht so wählerisch. Die Ernsthaftigkeit – ja, die wurde knallhart durch eine ErstWennDu-Dann-Konstruktion erzeugt: Erst wenn Du Dein Zimmer aufgeräumt hast, dann starten wir mit dem Frühstück. Auch am Sonntag also: Erziehung zur Ordnung!

Mammamia – die armen Kinder!

Aufräumen – das ist ja mehr, als die Dinge, die auf dem Fußboden herumliegen, in irgendeine Kiste zu schmeißen und diese dann unters Bett zu schieben. Aufräumen – das ist ja viel mehr! Das ist ja: die Dinge, die auf dem Fußboden herumliegen, zu klassifizieren und klassengerecht in klassenweise vorgehaltene Boxen einzuschlichten. Und diese dann an definierten Orten unterzubringen.

Aber woher sollen Kinder denn eigentlich das richtige Klassenbewußtsein bekommen? Ich glaube, das habe ich damals nicht richtig bedacht. Ich habe damals gedacht: Das ist doch klar!

Leider war es meist nicht so klar, und bei dem Inspektionsgang vor dem Frühstück musste nachgeholfen werden. Trotzdem – keines der Kinder ist verhungert. Weder sonntags, noch werktags.

Von der Familie zum Staat ist es manchmal nur ein kleiner Schritt. Internationaler Handel und staatliches Kontrollbedürfnis verlangen ebenfalls eine Ordnung. Die Warenströme, die über die nationalstaatlichen Grenzen fließen, müssen erfasst und möglicherweise verzollt werden. Ebenso wie die Kinder zunächst die Dinge klassifizieren mussten, bevor sie sie aufräumen konnten, braucht der Staat (bzw. die Staatengemeinschaft) Warenklassifikationen. Oder wie es das Statistische Bundesamt etwas allgemeiner formuliert:

"Bei der Beobachtung von Massenerscheinungen … fällt stets eine Fülle von Daten an, die notwendigerweise auf geeignete Art verdichtet werden muss, um ihre Präsentation und Analyse zu erleichtern bzw. erst möglich zu machen. Voraussetzung hierfür ist das Vorliegen verbindlicher Einteilungen der zu beobachtenden ökonomischen, sozialen oder sonstigen Tatbestände. Nur durch die verbindliche Anwendung einer bestimmten Klassifikation und deren Klassifizierungsregeln wird erreicht, dass Einzeldaten – abgesehen davon, dass diese aus Geheimhaltungsgründen, stichprobentheoretischen Überlegungen oder aufgrund anderer Ursachen gar nicht zugänglich gemacht werden können – von den verschiedenen Nutzern statistischer Angaben einheitlich gruppiert werden.

Für verschiedene Fragestellungen werden unterschiedliche Klassifikationen entwickelt. Hierzu zählen Klassifikationen zur Gliederung wirtschaftlicher Aktivitäten, von Waren und Dienstleistungen, sozioökonomischen Merkmalen, Regionalangaben usw. Zum Teil liegen für die Gliederung derselben Art von Tatbeständen, zum Beispiel von Waren, verschiedene Klassifikationen vor, die dem jeweiligen Erhebungszweck entsprechend konzipiert sind. So erfassen sowohl das Warenverzeichnis für die Außenhandelsstatistik als auch das Güterverzeichnis für Produktionsstatistiken im Wesentlichen physische Erzeugnisse, wegen unterschiedlicher Verwendungs- und Analysezwecke jedoch in anderer Gliederung.

Neben der einheitlichen Anwendung einer Klassifikation bei der Erhebung, Aufbereitung und Analyse statistischer Daten auf nationaler Ebene hat in den vergangenen Jahren die Verwendung international vergleichbarer Klassifikationen stark an Bedeutung gewonnen. Daher werden bei nationalen statistischen Erhebungen inzwischen häufig Klassifikationen verwendet, die verbindlich auf internationalen oder EU-weiten Vorgaben aufbauen oder es kommen sogar unmittelbar internationale Klassifikationen zum Einsatz." (https://www.destatis.de/DE/Methoden/Klassifikationen/Klassifikationen.html)

Das Forschungsziel, das ich mir gesetzt habe und über das ich hier in diesem Blog schon berichtet habe, verlangt offensichtlich, dass ich mit modernen Warenklassifikationen auseinandersetze. Du, liebe Leserin, wirst Dich nun fragen: Warum im Plural? Reicht denn nicht eine einzige Warenklassifikation? Nein, man möchte uns das Leben schwer machen, es gibt mehrere Klassifikationen. Ich beschäftige mich derzeit mit zweien, von denen ich erwarte, dass sie einen zumindest ähnlichen Zweck verfolgen wie die Warenklassifikation der Reichsstatistik, nämlich mit der Standard International Trade Classification (SITC) der Vereinten Nationen und Kombinierten Nomenklatur (CN) der Europäischen Kommission, wobei diese Kombinierte Nomenklatur eine Erweiterung des Harmonized System der Welthandelsorganisation (WTO) ist. Wie ich schon berichtet habe, umfasst die SITC 2970 Positionen. Für die CN habe ich keine entsprechende Angabe gefunden, und nachzählen mochte ich nicht; es sei nur bemerkt, dass der Warencode eine achtstellige Zahl ist.

Die Reichsstatistik benutzt als Warencode eine fortlaufende Nummer, die Warencodes der SITC und der CN sind im Gegensatz dazu hierarchisch aufgebaut. Die SITC-Hierarchie umfasst 10 Teile, 67 Abschnitte, 262 Gruppen, 1023 Untergruppen und 2970 Kleinste Gliederungseinheiten (sogenannte Fünfsteller) (Wikipedia); der SITC-Warencode hat fünf Stellen. Der Warencode der CN ist in vier jeweils zweistellige Schlüssel aufgeteilt; in den 21 Abschnitten der CN sind insgesamt 97 Kapitel enthalten, und jedes Kapitel hat Unterpositionen, und jede Unterposition kann noch weiter aufgeteilt werden.

Das sieht doch alles ganz ordentlich aus, oder?

Wenn ich mir vorstelle, meine Kinder hätten ihre diversen Utensilien nach der SITC bzw. der CN klassifizieren müssen … nein, das will ich mir lieber nicht vorstellen. Die Kinder wären verhungert – und die Eltern auch. Ich will also nicht davon reden, wie schwierig es ist, Dinge so “feingranular” zu klassifizieren. Ich will stattdessen darüber reden, wie “ordentlich” denn die Hierarchien der SITC und der CN gebildet sind bzw. was es eigentlich bedeutet, eine “ordentliche” Hierarchie aufzubauen.

Dem Informatiker scheint diese Frage eine der leichtesten zu sein: Hierarchisch – das bedeutet eine Baumstruktur. Da gibt es Knoten und Kanten wie in jedem Graphen, der Graph ist ungerichtet und zusammenhängend, es gibt keine Schlingen, einer der Knoten ist der Wurzelknoten, der keinen Vorgänger hat, alle anderen Knoten sind nur mit ihren Vorgängern verbunden. Man kann die Knoten in “innere Knoten” und in “Blattknoten” unterscheiden. Angewendet auf unsere beiden hierarchischen Warenklassifikationen bedeutet das: Der Wurzelknoten ist ein virtuelles Gebilde, das z.B. mit “SITC” bzw. “CN” bezeichnet werden könnte, die Blattknoten tragen Bezeichnungen, die auf die jeweils zu erfassenden Waren angewendet werden sollen. Die inneren Knoten dienen nur der Strukturierung des Systems bzw. der Navigation im Baum. So weit so gut: Ich habe diese naive Vorstellung von einer ordentlichen Baumstruktur gehabt, als ich mich daran gemacht habe, die Hierarchien der SITC bzw. der CN mit Hilfe eines XSL(T)-Skripts in OWL-2-Klassenhierarchien umzuwandeln.

Was ist mir aufgefallen?

  • Die Warenbezeichnungen, die ich bei den Blattknoten erwartet habe, können auch schon bei Knoten einer höheren Hierarchiestufe auftauchen. Die Hierarchie ist also nicht in allen Ästen des Baumes in voller Tiefe vorhanden. Das lässt sich zum Teil dadurch erklären, dass sich ein Oberbegriff oftmals nicht sehr sinnvoll in Unterbegriffe “aufspalten” läßt. Dann läßt man diese Aufspaltung schlicht und ergreifend weg. Nun ja, das ist vielleicht nicht schön, aber es lässt sich sicherlich verschmerzen.
  • Die SITC- bzw. CN-Bäume sind keineswegs zusammenhängend. Es gibt Lücken. Warencodes, die keine Verbindung zu ihren Vorgängern im Baum haben, habe ich vor allem in sog. correlation tables gefunden, d.h. in Tabellen, die eine Abbildung zwischen zwei oder mehr verschiedenen Klassifikationen beschreiben. Konkret ist mir das bei der Bildung von Warencodes aufgefallen, die für nicht vollständig klassifizierbare bzw. klassifizierte Waren stehen. In der CN z.B. geht man wie folgt vor: Wenn man grob weiss, zu welcher Gruppe bestimmte Waren gehören, aber feinere Kenntnisse fehlen, dann behält man die in der Hierarchie am höchsten stehenden Schlüssel bei und füllt die freien Stellen mit der Ziffer 9 auf. Es gibt z.B. einen Warencode 01999999, und der beschreibt sinngemäß “Live animals – not classified according to kind.” Eine etwas feinsinnige Erläuterung gibt die United Nations Commodity Trade Statistics Database: “Due to confidentiality, countries may not report some of its detailed trade. This trade will – however – be included at the higher commodity level and in the total trade value. For instance, trade data not reported for a specific 6-digit HS code will be included in the total trade and may be included in the 2-digit HS chapter. … Detailed data … will sum up to the respective totals due to the introduction of adjustment items with commodity code 9999 and 999999.” (http://comtrade.un.org/db/help/uReadMeFirst.aspx) Allerdings fehlen im angeführten Beispielen wie an anderen vergleichbaren Stellen die beiden inneren Knoten 0199 und 019999. Das ist für den menschlichen Leser nicht schlimm, sehr wohl aber bei der Bildung einer Klassenhierarchie.

(Wird fortgesetzt)

< comsys:Berechenbarkeit folge="2" >

Adler1867: Karl Marx vollendet den ersten Band seines Hauptwerks: Das Kapital. Und das ist der erste Satz dieses Wälzers: “Der Reichtum der Gesellschaften, in welchen kapitalistische Produktionsweise herrscht, erscheint als eine ungeheure Warensammlung.” Klingt das nicht wie die unbedingte Aufforderung, sich mit Warenstatistiken zu beschäftigen?

Vier Jahre später, nach dem Krieg mit Frankreich, gründet sich das Deutsche Reich neu, aus dem König von Preußen wird Kaiser Wilhelm I. (Ein Reiterstandbild befindet sich im Kieler Schlosspark.)

Und nochmals zwei Jahre später ist es endlich soweit: Das Deutsche Reich legt seine erste Reichsstatistik vor. Es geht vor allem um Waren, um deren Import und Export, um Zölle auf Waren, um die Warenströme usw. (Weitere Themen sind z.B. die Bevölkerungsentwicklung  und der Verkehr auf den Deutschen Wasserstraßen.) Bis zum Jahr 1883 erscheinen insgesamt 63 Bände, die zusammen die sog. Alte Folge der Reichsstatistik bilden. Das Reich macht Inventur — wie reich ist das Reich?

Wenn Du Dich, liebe Leserin, vielleicht schon gefragt hast, wie ich auf das Thema “Wirtschaftsstatistik” gekommen bin, wo es mir doch sonst eher um technische Themen geht, dann ist hier ein Teil der Antwort. Im Zuge meiner Zusammenarbeit mit der ZBW hatte ich erfahren, dass die ZBW vor einiger Zeit ein Projekt durchgeführt hat, in dem die “Die Statistik des Deutschen Reichs (Alte Folge) aus den Jahren 1873-1883” digitalisiert wurde. Ich habe mir gedacht: Das ist ein Schatzkästlein, das da am Rande der Förde liegt, und da musst Du hineinschauen, um mehr über den Reichtum unserer kapitalistischen Gesellschaft zu erfahren. Die programmatische Aussage von Marx muss nicht so nackt und bloß im Raume stehen bleiben, nein, sie kann mit konkreten Zahlen unterfüttert werden.

Und wenn es dann außerdem noch gelingt, mit Hilfe semantischer Technologien einen Anschluss der Reichsstatistik an unsere heutigen Warenstatistiken zu finden, dann ist das ein wirklich spannendes Projekt. Das auch valide technische Inhalte hat. Bingo!

In diesem post möchte ich zwei Themen ansprechen: Was bedeutet “Digitalisierung”? Und: Was ist mir beim Lesen der Reichsstatistik aufgefallen?

Dass Digitalisierung mit dem Einscannen anfängt, aber nicht dabei aufhören muss, ist wohl eine Binsenweisheit für alle, die sich mit alten Büchern beschäftigen. Dass hat sich auch die ZBW gedacht, als sie angefangen hat, sich mit der Reichsstatistik zu beschäftigen. Der nächste Schritt nach dem Einscannen ist meist die Texterkennung, d.h. die Bilder, die beim Scannen entstehen, werden mit etwas hinterlegt, das z.B. den MIME type text/plain oder text/rtf tragen könnte. Oft versucht man, diese Texterkennung automatisch durchzuführen, man spricht dann von Optical Character Recognition (OCR). Bei der Reichsstatistik darf man davon ausgehen, dass OCR nicht zu guten Ergebnissen führen würde, und zwar aus mehreren Gründen:

  • Der unten widergegebene Schnipsel aus dem Band 63 zeigt, dass manche Buchstaben auf ungewöhnliche Art graphisch repräsentiert werden, auch wenn der Font selber als “modern” durchgehen könnte. Eine automatische Texterkennung würde damit also wahrscheinlich eine aufwendige Nachbearbeitung erfordern.
    Schrift
  • WaarenGute OCR-Verfahren verwenden Wörterbücher, um die Ergebnisse der graphischen Verfahren zur Texterkennung abzugleichen. Aber wie gut kann das funktionieren, wenn im zu erkennenden Text eine Rechtschreibung verwendet wird, die nicht mehr die unsere ist? Auch dafür nebenan ein Beispiel, und zwar für ein Wort, das in unserem Zusammenhang wichtig ist.
  • Und schließlich sind da noch viele, viele Tabellen in der Reichsstatistik. Diese Tabellen bilden – so kann man sagen – den Hauptinhalt der Reichsstatistik. Tabellen per OCR zu rekonstruieren ist sowieso schwierig. Wenn man zusätzlich davon ausgeht, dass die automatische Texterkennung problematisch ist, dann bleibt für die Digitalisierung nur … genau: das Abtippen.
  • Ich denke, aus heutiger Sicht gehört zur Digitalisierung außerdem noch die semantische Annotation. Praktisch bedeutet das, dass man in das Digitalisat – sichtbar oder unsichtbar – in einer formalen Syntax eine Menge Annotationen hineinschreibt, die Bezug auf ein kontrolliertes Vokabular nehmen. Dafür automatische “Digitalisierungsverfahren” zu finden, ist eine ungelöste Forschungsfrage.

In ihrem Digitalisierungsprojekt hat sich die ZBW insbesondere der Tabellen der Reichsstatistik angenommen und diese tatsächlich abtippen lassen. Tatsächlich sind die Tabellen sogar mehrfach abgetippt worden, und erst nach positivem Vergleich sind die gewonnenen Daten als valide angenommen worden. Die Tabellen liegen nun verschiedenen Formaten vor, u.a. als Excel-Tabellen und als HTML-Tabellen.

Was ist mir beim Lesen in der Reichsstatistik aufgefallen? Ich zähle ein paar Dinge auf, ohne einen Anspruch auf Vollständigkeit zu haben.

Die Autoren der 63 Bände der Reichsstatistik (Marx und Engels haben es übrigens nur zu 42 Bänden gebracht) gestehen gleich zu Anfang ein, dass “das Ganze dieser Anordnungen … keinen im eigentlichen Sinne systematischen Ausbau der Statistik des Deutschen Reiches [bildet]. Es umfasst nicht alle Gesichtspunkte und Bedürfnisse, welche sich aus den Zwecken und der Kompetenz des Reiches nach … der Reichsverfassung als Aufgabe der Reichsstatistik ergeben müssten.” (Band 1, Einleitung, S. 9).

Wozu die Statistik gut sein soll, stellt man nur indirekt fest: Man “ging in der Unterscheidung der Waarenartikel, und bezüglich der Trennung des Verkehres nach Grenzstrecken und Gebietstheilen, nach Land-, See- und Flussverkehr, nach der Art der Abfertigung u. dgl. so weit ins einzelne, dass den schwierigen und nicht ohne lebhaften Kampf geführten Verhandlungen über die wirthschaftliche und Tarifpolitik des Zollvereins wesentliche Grundlagen geboten wurden.” Was wohl nichts anderes sagen will: Die Wirtschaftspolitik und die Zollregeln brauchen detailliertes Datenmaterial, damit die “nicht ohne lebhaften Kampf geführten Verhandlungen” zu einem akzeptablen Ende kommen können.

Die reklamierte “ins einzelne gehende Unterscheidung der Waarenartikel” führt dazu, dass das Warenverzeichnis der Reichsstatistik 403 Positionen für die Aus- und Durchfuhr und für den Wasserverkehr und 457 Positionen für die Einfuhr umfasst. Diese Zahlen mögen dem unbefangenen Leser groß erscheinen. Wenn man aber weiß, dass die heute u.a. verwendete Standard International Trade Classification Rev. 4 (SITC-4) insgesamt 2.970 Produkte unterscheidet (Statistisches Bundesamt: Deutsche Übersetzung der Standard International Trade Classification, Revision 4, der Vereinten Nationen, Ausgabe 2006), dann muss man doch von einem eher übersichtlichen Warenverzeichnis ausgehen: Es gibt ca. 5½-mal so viele SITC-4-Warencodes wie Reichsstatistik-Warencodes! (Auf die SITC-4 werde ich in weiteren posts noch eingehen.)

Zur Erstellung des Warenverzeichnisses greift man auf ein Vorgängerverzeichnis zurück. Man moniert allerdings u.a., “dass die Anordnung der betreffenden Zusammenstellungen nicht die nöthige Uebersichtlichkeit gewährt”. Trotzdem unternimmt man kaum Anstrengungen, das Warenverzeichnis mit diversen Strukturelementen auszustatten, die das Auffinden spezieller Waren erleichtern könnten: Das Warenverzeichnis ist in seinem Kern eine flache Liste von Waren mit zugeordneten Warencodes, wobei die letzteren schlicht und ergreifend aus der fortlaufenden Nummerierung der Waren gewonnen werden. Lediglich neun in die Liste eingefügte Zwischenüberschriften sorgen für Struktur und Übersicht. Die SITC-4 dagegen baut eine fünfstellige Hierarchie auf.

Viele Begrifflichkeiten der Reichsstatistik sind problematisch: Da wird z.B. unter ein und dem gleichen Warencode von Abfällen und Halbzeug gesprochen. Nach meinem Verständnis sind Abfälle Dinge, die in irgendeine geeignete Deponie kommen, während Halbzeug in die Produktion neuer Produkte eingeht. (Beim recycling macht man heute manchmal Halbzeug aus Dingen, die früher Abfall waren.) Probleme bereiten solche Vermischungen, wenn man die Codes des einen Warenverzeichnisses auf die Codes des anderen abbilden will. Die SITC-4 z.B. trennt Abfälle und Halbzeug sorgfältig voneinander; es wird hier kaum möglich sein, eine Abbildung zwischen der Reichsstatistik und der SITC-4 zu finden.

Richtige Kapriolen werden geschlagen, wenn es um den “eisernen Kredit” geht. Was das ist? Ich habe es auch nachschlagen müssen. Es geht um eine spezielle Subvention für Wein bzw. den Weinhändler – was man bei diesem Begriff keinesfalls vermuten hätte. “Der fortlaufende (eiserne) Zollkredit besteht darin, dass … für ein Weinquantum, das dem Umfang des Lagers angemessen ist, die Verzollung sowie die Feststellung des Zollbetrags ausgesetzt bleiben …” (Verhandlungen der General-Konferenz in Zollvereins-Angelegenheiten, 1839, S. 95) Ich würde mich liebend gerne mit diesem Weinquantum näher auseinandersetzen …

Über einige weitere Eigentümlichkeiten der Reichsstatistik werde ich sicherlich noch in nachfolgenden posts berichten. Aber vielleicht hast Du, liebe Leserin, schon einen ersten Eindruck davon gewonnen, wie spannend es sein, sich mit dem “Reichtum der Gesellschaften, in welchen kapitalistische Produktionsweise herrscht”, etwas näher zu beschäftigen.

< comsys:Berechenbarkeit folge="1" >

goldener Fisch 001Es würde mir schmeicheln, wenn mich in diesem Semester irgendjemand im Hörsaal vermissen würde. “Herr Luttenberger, wo sind Sie, was machen Sie?” Nun, ich habe das Glück, ein Forschungssemester einlegen zu dürfen, d.h. ich widme mich ein Semester lang einer Forschungsfrage, die so schwierig ist, dass ich all meine Zeit dafür brauche. Das ist ein schönes Privileg, das wir Professoren haben. Nach sieben Semestern mit Lehrverpflichtungen dürfen wir uns im achten Semester ganz auf eine einzige Aufgabe konzentrieren.

Was das für eine Aufgabe ist? Um die Frage zu beantworten, muss ich zunächst eine Geschichte erzählen, die ich vor Jahren in einer mittlerweile verschollenen Quelle gelesen habe. Ich kriege sie leider nicht mehr vollständig zusammen.

Vor kurzer Zeit gab es einmal einen gemeinsamen Weltkongress der Ingenieure und Schamanen. Er sollte dem Gedankenaustausch zwischen den jüngsten, alertesten und smartesten Ingenieuren und den ältesten, gelehrtesten und erfahrensten Schamanen dienen. Der Kongress kam nur zögerlich in Gang, die Ingenieure versammelten sich in der einen Ecke des Tagungsraums und spielten mit ihren neuesten Smartphones, die Schamanen versammelten sich in der anderen Ecke und rasselten mit ihren Wahrsageknöchelchen. Aber nach einiger Zeit der Verlegenheit wollten die Ingenieure loslegen, und sie wollten protzen: “Wir leben in einer Zeit des enormen Fortschritts. Wir haben Autos, und damit können wir überall hinfahren.” Die Schamanen waren sprachlos. Bis einer von ihnen fragte, wie das denn wohl gehen könne. “Naja, wir bauen Straßen, und darauf können die Autos dann überall hinfahren.” Ein Schamane fing an zu kichern und sagte: “Bevor Eure Autos fahren können, müsst Ihr die Welt also erst befahrbar machen? Ja, dann ist es doch ganz einfach, überall hinzufahren!” Die Ingenieure wurden ärgerlich wegen so viel Ignoranz und starteten weitere Versuche, die Schamanen zu beeindrucken – und scheiterten auf gleiche Weise. Schließlich ließ sich einer der Ingenieure zu einem letzten Protzversuch verleiten: “Wir haben so mächtige Computer, dass wir alles, alles, alles berechnen können, was es auf der Welt gibt.” Das war nun ganz und gar unvorstellbar für die Schamanen, und sie verfielen wieder in Sprachlosigkeit. Bis endlich der Weißhaarigste und Zahnloseste der Schamanen – Merke: Diese Superlative sind nur bei Schamanen zulässig! − anfing zu kichern und sagte: “Also, bevor Ihr die Welt berechnen könnt, müsst Ihr sie wohl erst berechenbar machen? … Ja, dann ist es doch ganz einfach, alles, alles, alles zu berechnen!”

Ich weiß nicht, wie es weitergegangen ist auf diesem Weltkongress − die Geschichte, die ich gelesen habe, schweigt sich da aus. Sie ist mir auf jedem Fall auch ohne ein angemessenes Schlusskapitel im Kopf geblieben. Und ich habe bemerkt, dass ich, seitdem ich die Geschichte gelesen habe, ein bisschen wie ein Schamane denke: Die Herbeiführung der Berechenbarkeit ist die schwierige Aufgabe, der Rest ist einfach.

Und was das jetzt mit meinem Forschungssemester zu tun hat? Ich möchte gerne herausfinden, was semantische Technologien dazu beitragen können, wirtschaftliche Vorgänge besser berechenbar (was hier nicht heißt: vorhersagbar) zu machen.  Anders formuliert: Ich beschäftige mich mit der Semantifizierung von Wirtschaftsstatistiken. Offensichtlich werden Wirtschaftsstatistiken schon seit langer Zeit geführt und genutzt, und ebenso offensichtlich sind Statistiken das Mittel der Wahl, um wirtschaftliche Vorgänge berechenbar zu machen. Versucht man jedoch, eine Statistik zu einem bestimmten wirtschaftlichen Vorgang (z.B. “Warenausfuhr”) über einen längeren Zeitraum zu verfolgen, dann wird man bemerken, dass sich die in diesen Statistiken verwendeten Begriffssammlungen (z.B. die Liste der Warenbezeichnungen) im Laufe der Zeit sehr stark verändert haben – was ja kein Wunder ist, da sich ja auch die Wirtschaft sehr stark verändert hat, insbesondere natürlich, was die Art und Vielfalt der hergestellten, gehandelten, eingeführten und ausgeführten Waren betrifft. Meine Forschungsfrage also nun präzisiert: Können uns semantische Technologien helfen, mit sich verändernden Begriffssammlungen besser umzugehen, insbesondere mit Begriffssammlungen (“Nomenklaturen”), die die Welt der Waren beschreiben? Ich denke, es ist gut nachvollziehbar, warum diese Fragestellung etwas mit Berechenbarkeit zu tun – jenseits all der schrecklichen Komplexitätsmaße und der theoretischen Informatik.

Im Rahmen dieser Fragestellung arbeite ich sehr eng mit der Deutschen Zentralbibliothek für Wirtschaftswissenschaften (ZBW) zusammen. Und in der nächsten Woche berichte ich weiter.

Rückschau: Seminar “Semantische Technologien” im Sommer 2013

puzzle-3dWir haben alle viel dazugelernt – in unserem Seminar “Semantische Technologien” im Sommersemester 2013. Dieses Themengebiet ist ja nun schon seit einiger Zeit im Zentrum der Arbeiten der AG Kommunikationssysteme, und es wird auch noch länger dort bleiben. Umso wichtiger, daß wir uns gegenseitig immer wieder um Kenntnisse zum Stand der Technik bereichern.

Zu diesem Seminar haben die folgenden Personen mit den folgenden Themen beigetragen (Ausarbeitungen zum Download):

Happy reading!

 

IEEE International Conference on Semantic Computing

Nach erfolgreicher Akzeptanz unseres Papers wurde mir die Möglichkeit gewährt, auf der IEEE International Conference on Semantic Computing 2013 unsere Arbeit zu präsentieren.

Nun läuft der 2. Tag der Konferenz und ich möchste eine erste Bilanz ziehen.

P1030227 (Medium)Die Konferenz findet im Hyatt Hotel in der Satellitenstadt Irvine im Großraum von Los Angeles statt. Es scheint eine relativ kleine Konferenz zu sein. Ich schätze, es sind ca. 80 Teilnehmer mehr oder weniger anwesend. Tatsächlich sind schon einige Sessions gekürzt worden, da einige Vortragende gar nicht erst angereist sind, aus welchen Gründen auch immer. Die Präsentationen sind von einer hohen Bandbreite gekennzeichnet, sowohl bezogen auf die Schwerpunkte der Forschungsgebiete, als auch auf die Qualität der Vorträge. Es liegt wohl in der Natur der Sache, dass das Buzzword “Semantic Computing” sehr viel Interpretationsspielraum zulässt.

P1030205 (Medium)Mein Vortrag fand in angenehmer Atmosphäre in einem kleinen Raum mit ca. 20 Beteiligten statt. Meiner Einschätzung nach habe ich einen guten Job gemacht. Es kamen keine allzu bohrenden Fragen. Nach dem Vortrag kam sogar die Forschungsleiterin der Interactive Knowledge Capture Research Group der University of Southern Californa auf mich zu und bestätigte, dass das Debugging von Ontologien, insbesondere der Regelsprache SWRL, eine Bereicherung darstellt, und sie sich vorstellen könnte, dieses Verfahren auch im Rahmen ihrer Arbeit einzusetzen. In ihrem anschließenden Vortrag räsonierte sie in einer sehr angenehmen Weise über ein Projekt zur Verbesserung der Nachvollziehbarkeit wissenschaftlicher Veröffentlichungen mit Hilfe semantischer Workflows. Diese ermöglichen sowohl in abstrakter Weise die Modellierung des Weges von einer Idee über deren Umsetzung bis hin zur Produktion von Ergebnissen, als auch die Konkretisierung der verwendeten Verfahren, Algorithmen und verwendeten Tools bis hin zur Integration von Quellcode. In meinen Augen eine sehr gutes Verfahren nicht nur zur Steigerung der Qualität wissenschaftlicher Arbeiten, sondern auch eine Möglichkeit zur Formalisierung und zur Verbesserung der Wiederverwendbarkeit konkreter Forschungsergebnisse.

Neben diesem Vortrag haben auch die Keynotes eine starke Wirkung auf mich gehabt. So hat bspw. ein Googleianer über deren aktuelle Entwicklungen rund um die Semantifizierung ihrer Suche gesprochen. Googles Knowledge Graph sollte ja hinlänglich bekannt sein. Was weniger bekannt ist, ist dessen frei nutzbare, abgespeckte Version Freebase. Auch die Entwicklung hin zur kontextabhängigen Suche in natürlicher Sprache ist ein interessanter Einblick in die Zukunft des Suchens. So können beispielsweise Fragen wie: Q:”Wie heißt das größte Gebäude in der Stadt die niemals schläft?” A: … Q:”Wie groß ist es?” A: … gestellt werden. Wir Zuhörer wurden eindringlich davon überzeugt, wie “awesome” sich doch die Art des Suchens in den nächsten paar Jahren ändern wird. Einen etwas negativen Beigeschmack hinterließ dann jedoch die Antwort auf die Frage, ob Google denn auch etablierte Standards wie bspw. OWL und RDF nutzen und dazu eventuell auch als Contributor auftreten würde. Sinngemäße Antwort war dann, dass Google sich natürlich davon hat inspirieren lassen, sie aber doch lieber ihr eigenens Ding machen und dieses Ding ja auch interne Betriebsgeheimnisse wären. Hmm … ok.

Eine weitere Keynote war von einem Herrn, der lange Jahre für das Department of Defense gearbeitet hat und dort maßgeblich zur Entwicklung der Financial Industry Business Ontology (FIBO) beigetragen hat, die sich in einem Standardisierungprozess bei der OMG befindet. Die Essenz des Talks war, dass man ja durch die Finanzkrise gesehen habe, wie wichtig ein allgemeines Vokabular in der Finanzwelt sei, um genau solche Krisen verhindern zu können. Soweit – so gut. Leider war die Essenz dieser Essenz, dass ein stabiles Finanzsystem ja eben für ein funktionierendes Defense-System unablässlich sei. Was folgte war ein eindringlicher Aufruf, sich bitte daran zu beteiligen, egal ob Amerikaner oder nicht. Wir säßen ja alle im selben Boot. Hm … Völkerverständigung mal anders?!

Negativ aufgefallen ist mir auch die Tatsache, dass doch sehr offensichliche Fehler präsentiert worden sind. So sei eine von einer Vortragenden entwickelte Software beispielsweise in 550 Ländern der Erde verfügbar. Wow, wie groß die Welt doch ist?!

Alles in allem ziehe ich jedoch eine positive Bilanz: Ich habe viele interessante Gespräche mit angenehmen Menschen führen können, sowohl auf fachlicher als auch auf menschlicher Ebene. Ich werde viele Eindrücke von der Konferenz aber auch von Amerika an sich mit nach Hause nehmen. Und auch den einen oder anderen Schokoriegel aus dem Kiosk neben meinem Hotel. Abschließen möchte ich mit diesem Foto eines wundervollen Sonnenuntergangs in Newport Beach und der Aussage, dass sicherlich weniger angenehme Orte auf der Welt existieren, wo man seine Forschungsergebnisse präsentieren kann.

P1030222 (Medium)

 

 

 

Bachelorarbeit: Optimierung der Reaktionszeit einer AJAX Webanwendung

HTML5 (Urheber: W3C)Von Nutzern bei der Arbeit mit Webanwendungen besonders störend wahrgenommen sind verzögerte Reaktionen des Systems. Durch die Verwendung von JavaScript und asynchronen Aufrufen hat sich im Vergleich zum klassischen HTML-Seitenaufruf schon viel getan. Aber auch hier muss oft auf Reaktionen des Servers gewartet werden. Dabei werden schon kleine Wartezeiten als lästig empfunden, längere Wartezeiten führen zu wiederholtem Absenden, da eine Störung vermutet wird.

Bei einem AJAX-Aufruf werden in der Regel nur sehr wenige Daten verschickt, das Senden und Empfangen dauert dementsprechend nicht lange. Bei mobilen Anwendungen fällt jedoch die Paketlaufzeit unangenehm auf. Egal wie klein das Datenpaket ist, der Weg zum Server und zurück – und damit die Reaktion des Systems –  dauern eine gefühlte Ewigkeit.

Mit HTML5 haben einige Techniken in den Browser Einzug gehalten, die Besserung versprechen. So lassen sich z.B. Daten schnell im Local Storage ablegen und im Hintergrund mit dem Server synchronisieren. Selbst wenn das etwas länger dauert, merkt es der Benutzer nicht. Er kann (un-)gewohnt schnell weiterarbeiten.

Im Rahmen der Bachelorarbeit soll untersucht werden, wie eine existierende Webanwendung, die bei den Benutzereingaben stark auf JavaScript setzt, mit Hilfe dieser neuen Techniken benutzerfreundlichen gemacht werden kann. Welche Techniken bieten welchen Vorteil? Muss die Server-Anwendung angepasst werden oder lassen sich die Optimierungen transparent einbauen? Lassen sich diese Optimierungen auch auf andere Webanwendungen übertragen?

Wie kommt das D in die Wolke?

LOD ist die Abkürzung für Linked Open Data. Oft findet man sie in Zusammenhang mit einer Wolke, der LOD-Cloud. Gemeint ist damit die zusammenhängende Menge aller offen (open wie in “open access”) zugänglichen und miteinander verknüpften (linked) Daten des Semantic Web, in der Regel RDF-Dokumente. Doch wie kommen eigentlich die Daten in die Wolke?

Direkte Eingabe der Tripel

Der Weg einer direkten Eingabe der Tripel wird u.a. bei Semantic MediaWiki, einer Erweiterung für die bekannte Wiki-Software MediaWiki und dem Projekt Wikidata beschritten. Auch wenn Eingabedialoge beim Bearbeiten der Daten helfen, so muss sich ein Nutzer doch stets recht detailliert und technisch mit den Daten auseinandersetzen. Meist erfordert die Mitarbeit einiges an Vorstellungsvermögen, welche Möglichkeiten durch den gerade investierte Zeit und Arbeit in Zukunft entstehen.

Generierung aus Datenbanken

Es gibt eine Reihe von Datenbeständen, die speziell für die Bereitstellung von freien Informationen erstellt wurden. Dazu zählen WordNet, das Informationen über englische Sprache bietet und GeoNames, dass Informationen zu Orten bereitstellt. Intern und für Exporte wird zwar meist ein eigenes Format verwendet, da die Informationen jedoch meist in einer Datenbank gespeichert sind, können sie daraus leicht in Form von RDF-Tripeln ausgegeben werden.

Generierung aus nicht-technischen Datenbanken

Hat man sowieso Informationen strukturiert in Datenbanken vorliegen, so ist es relativ einfach, daraus RDF-Tripel für die LOD-Cloud zu generieren. Wirft man einen Blick auf die Karte der LOD-Cloud, so findet man rasch Beispiele: Last.FM will Musik an den Kunden bringen, das Kerngeschäft der New York Times ist sind Nachrichten, Flickr verdient sein Geld mit Fotos und auch die BBC ist eher an der Produktion von Dokumentationen und Serien und nicht von RDF-Tripeln interessiert. Da die strukturierten Daten aber sowieso schon da sind, fällt der Beitrag für die LOD-Cloud aber quasi nebenbei mit ab.

Extraktion aus passend strukturierten Webseiten

Bei DBpedia werden „semantische“ Informationen aus Infoboxen der Wikipedia-Artikel mehrerer Wikipedia-Sprachversionen extrahiert. Man macht es sich dabei zu Nutze, dass Wikipedia-Infoboxen eine einfache Syntax haben, die der Form Prädikat = Wert folgt. Nimmt man den Artikelnamen als Subjekt, kommt man so auf ein Tripel. Als Beispiel ist hier die Infobox zur Universität Kiel aus der deutschen Wikipedia zu sehen:

{{Infobox Hochschule
| Name = Christian-Albrechts-Universität zu Kiel
| Logo = Siegel der CAU.png
| Motto = Pax optima rerum<br /><small>([lat.]: ''Der Frieden ist das beste der Güter)''</small>
| Gründungsdatum = 1665
| Ort = [[Kiel]]
| Bundesland = [[Schleswig-Holstein]]
| Staat = [[Deutschland]]
| Leitung          = [[Gerhard Fouquet]]
| Leitungstitel    = Präsident
| Studentenzahl    = 24.189 <small>''(WS 2011/12)''</small>[http://www.uni-kiel.de/ueberblick/statistik/eckdaten.shtml CAU: Statistische Eckdaten]. Abgerufen am 10. September 2012
| Mitarbeiterzahl  = 3.328 <small>''(2011)''</small> <small>''(ohne Klinikum)''</small>
| davon Professoren= 391
| Trägerschaft     = staatlich
| Jahresetat = 228,6 Mio €
| Website          = [http://www.uni-kiel.de/ www.uni-kiel.de]

Beim Verfahren treten mehrere Probleme auf:

  • Wie im Beispiel zu sehen, sind Werte mit Freitext, HTML-Code und MediaWiki-Code durchsetzt. Diese müssen bei der Verarbeitung entfernt werden, um so z.B. eine Ganzzahl bei der Studentenzahl angeben zu können.
  • Es ist eine Umsetzung der Attributnamen in URIs für das RDF-Prädikat notwendig. In unterschiedlichen Sprachen der Wikipedia wird es unterschiedliche Attributnamen geben. Diese müssen auf denselben URI abgebildet werden.
  • In unterschiedlichen Sprachversionen der Wikipedia kann es unterschiedliche Werte für dasselbe Attribut geben. Das Ergebnis-Dokumente wird dann mehrfache und widersprüchliche Werte enthalten.

Weitere Wolken am Horizont

Doch es schlummert noch viel weiteres Wissen, dass für die LOD-Cloud zugänglich gemacht werden kann. Ich habe zwar keine Zahlen zur Hand, vermute aber, dass für zahlreiche Fachgebiete (z.B. Geschichtswissenschaft) derzeit noch deutlich mehr Informationen in gedruckter als in digitaler Form vorliegen. Technische Hilfsmittel für die Übertragung dieser Informationen aus gedruckten Quellen in „semantische“ Form könnten ganz neue Forschungsmöglichkeiten in der jeweiligen Disziplin aber auch interessante Verbindungen im Allgemeinen ermöglichen.

Doch auch bei digitalen und sogar online vorliegenden Informationen ist es nicht immer leicht, sie in die LOD-Cloud zu integrieren. Auf unzähligen von Hand erstellten, höchsten semi-strukturierten Webseiten befinden sich Informationen, die höchstens durch eine Volltextsuche zu finden sind. Aufbereitet in der Regel für menschliche Besucher entziehen sich die Daten einer automatischen Auswertung. Mit Hilfe geeigneter (semi-)automatischer Extraktionsprogramme ließe sich auch diese Art von Informationen weiter nutzbar machen.

Liegen die Informationen digital in Form von mehr oder weniger strukturierten Dateien vor, können auch diese für die LOD-Cloud erschlossen werden. Notwendig ist eine formale Beschreibung des Dateiformats und eine Transformationsanweisung, wie daraus RDF-Tripel bzw. Ontologien zu generieren sind. Die Dateien können ganz unterschiedlicher Natur sein:

  • Textdateien, die Tabellen mit festen Spaltenbreiten oder durch Trennzeichen separiert enthalten
  • Excel- oder Opendocument-Tabellen
  • proprietäre, strukturierte Formate wie GEDCOM, die z.B. für demographische Forschung von Interesse sind

Im Rahmen meiner Forschung möchte ich diese neuen Möglichkeiten, Daten für die LOD-Cloud zu erschließen, untersuchen und weiter voranbringen.

Blogsatz: Auf Blogsuche mit dem Krabbler

web-crawlerIm Rahmen eines Praktikums habe ich die Aufgabe übernommen,  für das Blogsatz-Projekt einen Crawler zu entwickeln, welcher potentielle Blogkandidaten aufspürt. Hierzu sollte Bixo verwendet werden.

Was ist Bixo?

Bixo ist ein open source Toolkit, welches es ermöglicht, Webmining zu betreiben und Webseiten zu crawlen. Dieses Toolkit verwendet, wie auch der andere Teil von blogsatz, das Framework Cascading, damit das Ergebnis auch Cloud-tauglich ist.

Was macht einen Blogkandidaten aus?

Wir haben uns darauf verständigt, dass das Augenmerk zunächst auf .edu-Domains gelegt wird, da die Wahrscheinlichkeit, dass es sich bei Webseiten aus solchen Domains um wissenschaftliche Seiten handelt, höher ist als bei x-beliebigen Adressen.

Weiterhin werden vorerst nur Blogs berücksichtigt, die in der englischen Sprache verfasst wurden, da sich die spätere Bewertung auf englische Blogposts konzentriert.

Der Ablauf

In einer MySQL-Datenbank sind Seed-URLs (Start-URLs) hinterlegt, mit denen der Crawler beginnt. Ausgehend von diesen URLs hangelt sich der Crawler über die auf den Seiten enthaltenen Links auf weitere Seiten des Blogs. Links, die auf externe Seiten verweisen, werden zunächst nicht verfolgt, sondern werden als Seed-URLs in der Datenbank hinterlegt, so dass diese bei einem der nächsten Crawl-Durchläufe bearbeitet werden.

Auf jeder Seite wird eine Identifizierung der benutzen Sprache durchgeführt. Dies hat sich jedoch im Laufe der Entwicklung als nicht besonders einfach herausgestellt. Bixo bietet zwar durch Apache Tika eine Methode an, die die Sprache identifizieren soll, allerdings erhält man hiermit recht häufig keine sichere Aussage. Daher mussten weiter Methoden her. Die zweite Methode basiert auf der Buchstabenhäufigkeit auf der betreffenden Seite. Die auftauchenden Buchstaben werden gezählt und nach Häufigkeit sortiert zu einem String zusammengesetzt. Anschließend wird die Levenshtein-Distanz zu den Buchstabenhäufigkeits-Strings verschiedener Sprachen bestimmt. Für die Sprache Deutsch sieht dieser folgendermaßen aus: ENISRATDHULCGMOBWFKZPVJYXQ.

Hier wird nun die Sprache mit der geringsten Distanz als Ergebnis genommen. In den ersten Durchläufen hat sich gezeigt, dass die ermittelte Sprache bei einer Distanz < 10 meistens korrekt ist. Da die beiden Methoden jedoch weiterhin bei einigen Seiten keine sichere Ausgabe liefern konnten, wurde eine dritte Methode implementiert, die aus dem HTML-tag das ‘lang‘-Attribut extrahiert. Hierbei ist jedoch zu beachten, dass viele Webentwickler dieses Attribut erst gar nicht oder aber fehlerhaft setzen. So ist z.B. oft ‘lang=“en“’ zu finden, auch wenn die eigentliche Sprache der Seite Deutsch ist. Dies ist auch der Grund dafür, dass diese Methode nicht primär bzw. als einzige verwendet wird.

Flowchart - Erkennen der Sprache

Erkennen der Sprache

Neben der Erkennung der Sprache ist auch zusätzlich wichtig, zu erkennen, ob es sich bei der vorhandenen Webseite um einen Blog handelt. Hierbei haben wir uns zunächst auf die Erkennung von WordPress-Blogs beschränkt, da diese einfach durch das Vorkommen von ‘wp-content’ im head des HTML-Codes zu erkennen sind. Hierfür wird der Tika-Sax-Parser und der xPath-Ausdruck “/xhtml:html/xhtml:head/xhtml:link/@*” verwendet.

Die dritte Bedingung – dass es sich um einen Blog mit .edu-Domain handelt – wird durch einen simplen regulären Ausdruck an der URL geprüft:

http(s)?://(.+\.)+(edu).*

Aus den Ergebnissen ergibt sich nachfolgend des Attribut ‘candidate’, welches angibt, ob es sich bei der gecrawlten Seite um einen potentiellen Kandidaten handelt oder nicht. Diese Ergebnisse werden zusammen mit dem Inhalt der Webseite und dem Datum des Crawlens in eine weitere Tabelle ‘crawled’ geschrieben, welche später als Quelle für die weitere Verarbeitung dient.

Ausblick

Das Crawlen an sich wurde umgesetzt. Dies kann jedoch noch verbessert werden, indem die Analyse des HTML-Codes in verschiedene Cascading Pipes verteilt wird, wodurch in der Cloud eine höhere Geschwindigkeit erreicht werden kann. Weiterhin könnte implementiert werden, dass nicht nur WordPress-Blogs erkannt werden.

Für einen späteren produktiven Einsatz wäre natürlich auch noch wünschenswert, dass die Erkennung der Sprache weiter optimiert werden würde.

 

SCENE.Point startet in die open beta-Phase

cropped-logo_bigger1Vergangenes Jahr hat Lars Rohwedder SCENE.Point entwickelt – einen Editor für 3D-Präsentationen, der komplett im Browser läuft. Einiges konnte man bereits in früheren Posts (vom 04.10.2012 und dem 10.07.2012) über dieses Editor erfahren, doch mit dem heutigen Tag geht nun die offizielle SCENE.Point-Homepage online, in der sämtliche Informationen über SCENE.Point optisch ansprechend dargestellt werden.

Lars hat sich außerdem entschlossen, seinen Code zu veröffentlichen, um anderen Entwicklern die Möglichkeit zu geben, sein Projekt weiterzuentwickeln. Um dies zu ermöglichen, haben wir einiges an Infrastruktur um SCENE.Point herum gebaut. Angefangen bei der bereits erwähnten Informationsseite bis hin zum GitHub repository und dem Mantis bugtracker, die alle miteinander vernetzt sind.

Ausblick

In nächster Zeit werden wir weiter die Werbetrommel rühren, um möglichst viele Interessierte für unseren offenen beta-Test zu gewinnen, denn nur durch konstruktives Feedback können neue Ideen entstehen, um SCENE.Point immer weiter wachsen zu lassen. Dazu ist es wichtig, nicht nur Informatiker zu erreichen, sondern auch Tester aus anderen Fachbereichen. Erzählt möglichst vielen Menschen von SCENE.Point, denn nur durch diversifiziertes Feedback lässt sich SCENE.Point zu einer für die breite Masse ansprechenden Anwendung entwickeln. Testet auch selber SCENE.Point so gut ihr könnt – spielt es kaputt und zeigt uns wie ihr es gemacht habt. Die Anwendung ist noch lange nicht perfekt, aber da wollen wir sie hinbekommen.

Am einfachsten ist der Einstieg nach dem Lesen des Quick Guides. Für alle, die es lieber direkt ausprobieren wollen, empfehle ich, die integrierte Hilfsfunktion zu nutzen. Einfach auf das Fragezeichen klicken, und es werden viele nützliche Tooltips eingeblendet.

Sollte euer Interesse geweckt worden sein, selbst bei SCENE.Point mitzuarbeiten, so findet ihr alle nötigen Information auf der Homepage im Developer’s Guide. Ob ihr aber nun einfach den Editor nur ausprobieren wollte oder mitentwickeln, wir freuen uns über jedes Feedback, ganz gleich ob es positiv oder negativ ist. Tobt euch aus!

Wir sind zuversichtlich, mit SCENE.Point eine Anwendung mit Zukunft geschaffen zu haben, und hoffen euer Interesse geweckt zu haben!

 

(Auslands-)praktikum und Studium?

Foto von jeffgunn (flickr)

Foto von jeffgunn (flickr)

Seit einem Monat und noch für sechs weitere genieße ich das Leben hier in der sonnigen San Francisco Bay Area.  Ich hatte das Glück, an ein Praktikum beim Software-Riesen Oracle zu kommen, der wohl den meisten Informatikern bekannt sein dürfte. Über Hagen Peters, einen ehemaligen Mitarbeiter von Prof. Luttenberger und jetzt Researcher bei Oracle, bestand bereits der Kontakt hierher.  Hier auch die Verbindung meines Beitrags zur ComSys AG bzw. diesem Blog.

Was das Studium betrifft, habe ich gerade meinen Bachelor-Abschluss erlangt und setze das Sommersemester ’13 aus, um danach mit dem Master anzufangen. Das erscheint mir ein sehr guter Zeitpunkt und ich kann es jedem nur empfehlen.

Ausland ja – aber warum ein Praktikum? Im Informatik Studium ist schließlich kein Praktikum vorgesehen. Das heißt, angerechnet bekomme ich dafür nichts, brauche am Ende also ein Semester länger. Mit einem Auslandssemester an einer ausländischen Hochschule ließen sich dagegen zusätzlich ein paar ECTS-Punkte sammeln.

Ob aus einem fachbezogenen Nebenjob oder einem Praktikum erworben – Praxiserfahrung halte ich für ungemein wichtig. Auch gerade deshalb, weil sie im Studium keinen Platz hat. Es erscheint einleuchtend, dass dabei erlangte Fertigkeiten – schon angefangen bei der reiner Übung im Programmieren – sich am Ende auch in den Studienleistungen erkennbar machen. Und schließlich findet sich so auch der ein oder andere Absatz, um seinen Lebenslauf zu verfeinern. Für die Mehrheit der Studierenden, schätze ich, ist dann doch die Wirtschaft das langfristige Ziel und ein tieferer Einblick in das, was kommen soll, kann nur positiv sein.

Etwas Eigeninitiative und Engagement sind definitiv Voraussetzung für so ein Unternehmen wie ein Auslandspraktikum. Auf Berge von Papierkram, die Bewerbung, Visum (gerade für die USA) und ähnliches betreffen, sollte man sich auf jeden Fall einstellen. Normalerweise kommen dann noch sehr lange Bewerbungsfristen dazu, die ich persönlich für eine besonders große Hürde halte, da sich das Studium einfach nicht starr durchplanen lässt. Meine Bewerbung ging glücklicherweise etwas direkter und so konnte ich sehr kurzfristig anfangen.

Mit Kalifornien hätte ich es sicherlich schlechter erwischen können und ich genieße die Umgebung auch in vollen Zügen. Zur Arbeit hier lässt sich auch nur gutes sagen. Überraschenderweise arbeite ich nicht an Datenbanken, sondern grob im Bereich Netzwerk/Kommunikationssysteme (wie passend). Das Markenzeichen der Oracle Headquaters sind die großen runden Gebäude, die seltsamerweise etwas an Datenbanken erinnern. Dort arbeite ich nicht, sondern in einem etwas unscheinbareren Nebengebäude, den Oracle Labs. Die Labs, die Forschungsabteilung von Oracle, können dafür mit umso interessanteren Projekten überzeugen.

Die Umstellung ging glücklicherweise auch ohne größere Problem, nicht zuletzt weil Oracle durch viel Erfahrung ein relativ ausgereiftes Programm für den im Umgang mit Praktikanten hat. Zu guter Letzt zeigt sich Oracle auch äußerst großzügig gegenüber ‘Interns’, was das Leben hier recht sorgenfrei macht.

Ich bin mir auch im Klaren, dass nicht jeder in seinem Wunschland oder bei seinem Wunschkonzern eine Stelle finden kann – und ich hoffe, es geht jetzt nicht jeder Leser mit der Erwartung davon, sein Praktikum möglichst nahe am Strand verbringen zu können. Ein etwas breiterer Blickwinkel bei der Suche erhöht womöglich die Chancen, etwas passendes zu finden, um einiges. Denn ich glaube, dass ein Internship – wo auch immer in der Welt – eine tolle Erfahrung werden kann.