OCRopus check groundtruth

2017-06-09 - Jesper Zedlitz

When training a character model for OCRopus you need a good selection of ground truth data for training and testing. To be able to recognize a certain charater it must be included in the training data. Otherwise the neuronal network has no chance to detect the character’s appearance. Although not strictly required, it is also […]

Testing OCRopus character models

2017-03-15 - Jesper Zedlitz

After you have trained an OCRopus character model or selected an existing character model you want to measure its character recognition accuracy. Do measure it you need ground truth data (images and text) that has not been used in the training for the model. If you would use images that have been used in the […]

Optimizing Binarization for OCRopus

2017-02-03 - Jesper Zedlitz

In many hours of work and frustration I have learned that page segmentation and character models have a strong influence on the result of OCR. However, I always underestimated the effects of the initial step – the binarization. Now I have looked at the binarization step more closely. Starting material are rather poor scans  of […]

Historische Fotos aus Kiel

2016-10-27 - Jesper Zedlitz

In Zusammenarbeit mit dem Stadtarchiv Kiel möchten wir eine Webanwendung entwickeln, in der historische Fotos aus Kiel auf einer Karte georeferenziert dargestellt werden. Man kennt solch eine Ansicht vielleicht von eine großen Firma, die einen entsprechenden Dienst mit aktuellen Fotos zum Novmeber 2016 schließt. Das Stadtarchiv hat bereis 15.000 Fotos online gestellt. Allerdings ist es etwas […]

< comsys:Berechenbarkeit folge="3" >

2014-12-12 - Norbert Luttenberger

Ordnung muss sein. Ordnung ist das halbe Leben. Es gibt viele schwierige Erziehungsaufgaben. Eine davon ist: Wie bringe ich meinen Kindern Ordnung bei? Das Fragezeichen ist kein Zufall. Ich würde von mir behaupten, dass ich es auch nach der Erziehung von zwei Töchtern immer noch nicht richtig weiss, wie das geht – Kinder zur Ordnung zu […]

< comsys:Berechenbarkeit folge="2" >

2014-12-01 - Norbert Luttenberger

1867: Karl Marx vollendet den ersten Band seines Hauptwerks: Das Kapital. Und das ist der erste Satz dieses Wälzers: “Der Reichtum der Gesellschaften, in welchen kapitalistische Produktionsweise herrscht, erscheint als eine ungeheure Warensammlung.” Klingt das nicht wie die unbedingte Aufforderung, sich mit Warenstatistiken zu beschäftigen? Vier Jahre später, nach dem Krieg mit Frankreich, gründet sich […]

< comsys:Berechenbarkeit folge="1" >

2014-11-23 - Norbert Luttenberger

Es würde mir schmeicheln, wenn mich in diesem Semester irgendjemand im Hörsaal vermissen würde. “Herr Luttenberger, wo sind Sie, was machen Sie?” Nun, ich habe das Glück, ein Forschungssemester einlegen zu dürfen, d.h. ich widme mich ein Semester lang einer Forschungsfrage, die so schwierig ist, dass ich all meine Zeit dafür brauche. Das ist ein […]

Who put the D in the cloud?

2013-09-05 - Jesper Zedlitz

LOD is the abbreviation for Linked Open Data. You might find it in the context of a cloud: the LOD-cloud. This refers to the amount of open accessible and linked data of the semantic web – usually RDF documents. But how does the data get into the cloud? Direct entering of the triples One possibility […]