< comsys:Berechenbarkeit folge="2" >

Adler1867: Karl Marx vollendet den ersten Band seines Hauptwerks: Das Kapital. Und das ist der erste Satz dieses Wälzers: “Der Reichtum der Gesellschaften, in welchen kapitalistische Produktionsweise herrscht, erscheint als eine ungeheure Warensammlung.” Klingt das nicht wie die unbedingte Aufforderung, sich mit Warenstatistiken zu beschäftigen?

Vier Jahre später, nach dem Krieg mit Frankreich, gründet sich das Deutsche Reich neu, aus dem König von Preußen wird Kaiser Wilhelm I. (Ein Reiterstandbild befindet sich im Kieler Schlosspark.)

Und nochmals zwei Jahre später ist es endlich soweit: Das Deutsche Reich legt seine erste Reichsstatistik vor. Es geht vor allem um Waren, um deren Import und Export, um Zölle auf Waren, um die Warenströme usw. (Weitere Themen sind z.B. die Bevölkerungsentwicklung  und der Verkehr auf den Deutschen Wasserstraßen.) Bis zum Jahr 1883 erscheinen insgesamt 63 Bände, die zusammen die sog. Alte Folge der Reichsstatistik bilden. Das Reich macht Inventur — wie reich ist das Reich?

Wenn Du Dich, liebe Leserin, vielleicht schon gefragt hast, wie ich auf das Thema “Wirtschaftsstatistik” gekommen bin, wo es mir doch sonst eher um technische Themen geht, dann ist hier ein Teil der Antwort. Im Zuge meiner Zusammenarbeit mit der ZBW hatte ich erfahren, dass die ZBW vor einiger Zeit ein Projekt durchgeführt hat, in dem die “Die Statistik des Deutschen Reichs (Alte Folge) aus den Jahren 1873-1883” digitalisiert wurde. Ich habe mir gedacht: Das ist ein Schatzkästlein, das da am Rande der Förde liegt, und da musst Du hineinschauen, um mehr über den Reichtum unserer kapitalistischen Gesellschaft zu erfahren. Die programmatische Aussage von Marx muss nicht so nackt und bloß im Raume stehen bleiben, nein, sie kann mit konkreten Zahlen unterfüttert werden.

Und wenn es dann außerdem noch gelingt, mit Hilfe semantischer Technologien einen Anschluss der Reichsstatistik an unsere heutigen Warenstatistiken zu finden, dann ist das ein wirklich spannendes Projekt. Das auch valide technische Inhalte hat. Bingo!

In diesem post möchte ich zwei Themen ansprechen: Was bedeutet “Digitalisierung”? Und: Was ist mir beim Lesen der Reichsstatistik aufgefallen?

Dass Digitalisierung mit dem Einscannen anfängt, aber nicht dabei aufhören muss, ist wohl eine Binsenweisheit für alle, die sich mit alten Büchern beschäftigen. Dass hat sich auch die ZBW gedacht, als sie angefangen hat, sich mit der Reichsstatistik zu beschäftigen. Der nächste Schritt nach dem Einscannen ist meist die Texterkennung, d.h. die Bilder, die beim Scannen entstehen, werden mit etwas hinterlegt, das z.B. den MIME type text/plain oder text/rtf tragen könnte. Oft versucht man, diese Texterkennung automatisch durchzuführen, man spricht dann von Optical Character Recognition (OCR). Bei der Reichsstatistik darf man davon ausgehen, dass OCR nicht zu guten Ergebnissen führen würde, und zwar aus mehreren Gründen:

  • Der unten widergegebene Schnipsel aus dem Band 63 zeigt, dass manche Buchstaben auf ungewöhnliche Art graphisch repräsentiert werden, auch wenn der Font selber als “modern” durchgehen könnte. Eine automatische Texterkennung würde damit also wahrscheinlich eine aufwendige Nachbearbeitung erfordern.
    Schrift
  • WaarenGute OCR-Verfahren verwenden Wörterbücher, um die Ergebnisse der graphischen Verfahren zur Texterkennung abzugleichen. Aber wie gut kann das funktionieren, wenn im zu erkennenden Text eine Rechtschreibung verwendet wird, die nicht mehr die unsere ist? Auch dafür nebenan ein Beispiel, und zwar für ein Wort, das in unserem Zusammenhang wichtig ist.
  • Und schließlich sind da noch viele, viele Tabellen in der Reichsstatistik. Diese Tabellen bilden – so kann man sagen – den Hauptinhalt der Reichsstatistik. Tabellen per OCR zu rekonstruieren ist sowieso schwierig. Wenn man zusätzlich davon ausgeht, dass die automatische Texterkennung problematisch ist, dann bleibt für die Digitalisierung nur … genau: das Abtippen.
  • Ich denke, aus heutiger Sicht gehört zur Digitalisierung außerdem noch die semantische Annotation. Praktisch bedeutet das, dass man in das Digitalisat – sichtbar oder unsichtbar – in einer formalen Syntax eine Menge Annotationen hineinschreibt, die Bezug auf ein kontrolliertes Vokabular nehmen. Dafür automatische “Digitalisierungsverfahren” zu finden, ist eine ungelöste Forschungsfrage.

In ihrem Digitalisierungsprojekt hat sich die ZBW insbesondere der Tabellen der Reichsstatistik angenommen und diese tatsächlich abtippen lassen. Tatsächlich sind die Tabellen sogar mehrfach abgetippt worden, und erst nach positivem Vergleich sind die gewonnenen Daten als valide angenommen worden. Die Tabellen liegen nun verschiedenen Formaten vor, u.a. als Excel-Tabellen und als HTML-Tabellen.

Was ist mir beim Lesen in der Reichsstatistik aufgefallen? Ich zähle ein paar Dinge auf, ohne einen Anspruch auf Vollständigkeit zu haben.

Die Autoren der 63 Bände der Reichsstatistik (Marx und Engels haben es übrigens nur zu 42 Bänden gebracht) gestehen gleich zu Anfang ein, dass “das Ganze dieser Anordnungen … keinen im eigentlichen Sinne systematischen Ausbau der Statistik des Deutschen Reiches [bildet]. Es umfasst nicht alle Gesichtspunkte und Bedürfnisse, welche sich aus den Zwecken und der Kompetenz des Reiches nach … der Reichsverfassung als Aufgabe der Reichsstatistik ergeben müssten.” (Band 1, Einleitung, S. 9).

Wozu die Statistik gut sein soll, stellt man nur indirekt fest: Man “ging in der Unterscheidung der Waarenartikel, und bezüglich der Trennung des Verkehres nach Grenzstrecken und Gebietstheilen, nach Land-, See- und Flussverkehr, nach der Art der Abfertigung u. dgl. so weit ins einzelne, dass den schwierigen und nicht ohne lebhaften Kampf geführten Verhandlungen über die wirthschaftliche und Tarifpolitik des Zollvereins wesentliche Grundlagen geboten wurden.” Was wohl nichts anderes sagen will: Die Wirtschaftspolitik und die Zollregeln brauchen detailliertes Datenmaterial, damit die “nicht ohne lebhaften Kampf geführten Verhandlungen” zu einem akzeptablen Ende kommen können.

Die reklamierte “ins einzelne gehende Unterscheidung der Waarenartikel” führt dazu, dass das Warenverzeichnis der Reichsstatistik 403 Positionen für die Aus- und Durchfuhr und für den Wasserverkehr und 457 Positionen für die Einfuhr umfasst. Diese Zahlen mögen dem unbefangenen Leser groß erscheinen. Wenn man aber weiß, dass die heute u.a. verwendete Standard International Trade Classification Rev. 4 (SITC-4) insgesamt 2.970 Produkte unterscheidet (Statistisches Bundesamt: Deutsche Übersetzung der Standard International Trade Classification, Revision 4, der Vereinten Nationen, Ausgabe 2006), dann muss man doch von einem eher übersichtlichen Warenverzeichnis ausgehen: Es gibt ca. 5½-mal so viele SITC-4-Warencodes wie Reichsstatistik-Warencodes! (Auf die SITC-4 werde ich in weiteren posts noch eingehen.)

Zur Erstellung des Warenverzeichnisses greift man auf ein Vorgängerverzeichnis zurück. Man moniert allerdings u.a., “dass die Anordnung der betreffenden Zusammenstellungen nicht die nöthige Uebersichtlichkeit gewährt”. Trotzdem unternimmt man kaum Anstrengungen, das Warenverzeichnis mit diversen Strukturelementen auszustatten, die das Auffinden spezieller Waren erleichtern könnten: Das Warenverzeichnis ist in seinem Kern eine flache Liste von Waren mit zugeordneten Warencodes, wobei die letzteren schlicht und ergreifend aus der fortlaufenden Nummerierung der Waren gewonnen werden. Lediglich neun in die Liste eingefügte Zwischenüberschriften sorgen für Struktur und Übersicht. Die SITC-4 dagegen baut eine fünfstellige Hierarchie auf.

Viele Begrifflichkeiten der Reichsstatistik sind problematisch: Da wird z.B. unter ein und dem gleichen Warencode von Abfällen und Halbzeug gesprochen. Nach meinem Verständnis sind Abfälle Dinge, die in irgendeine geeignete Deponie kommen, während Halbzeug in die Produktion neuer Produkte eingeht. (Beim recycling macht man heute manchmal Halbzeug aus Dingen, die früher Abfall waren.) Probleme bereiten solche Vermischungen, wenn man die Codes des einen Warenverzeichnisses auf die Codes des anderen abbilden will. Die SITC-4 z.B. trennt Abfälle und Halbzeug sorgfältig voneinander; es wird hier kaum möglich sein, eine Abbildung zwischen der Reichsstatistik und der SITC-4 zu finden.

Richtige Kapriolen werden geschlagen, wenn es um den “eisernen Kredit” geht. Was das ist? Ich habe es auch nachschlagen müssen. Es geht um eine spezielle Subvention für Wein bzw. den Weinhändler – was man bei diesem Begriff keinesfalls vermuten hätte. “Der fortlaufende (eiserne) Zollkredit besteht darin, dass … für ein Weinquantum, das dem Umfang des Lagers angemessen ist, die Verzollung sowie die Feststellung des Zollbetrags ausgesetzt bleiben …” (Verhandlungen der General-Konferenz in Zollvereins-Angelegenheiten, 1839, S. 95) Ich würde mich liebend gerne mit diesem Weinquantum näher auseinandersetzen …

Über einige weitere Eigentümlichkeiten der Reichsstatistik werde ich sicherlich noch in nachfolgenden posts berichten. Aber vielleicht hast Du, liebe Leserin, schon einen ersten Eindruck davon gewonnen, wie spannend es sein, sich mit dem “Reichtum der Gesellschaften, in welchen kapitalistische Produktionsweise herrscht”, etwas näher zu beschäftigen.

Comments are closed.