Blogsatz

http://community.pennfoster.edu/blogs1/default.aspx

Neulich war ich bei einer PhD School, in dem es u.a. um das Web 2.0 ging. Einer der Vortragenden berichtete, daß weltweit ca. 156 Mio. Blogs betrieben werden. Es sei auf irgend eine Art und Weise die Anzahl der WordPress- und Blogger-Instanzen gezählt worden.

156 Millionen! Selbst wenn man von dieser Zahl ein Drittel abziehen muß, und selbst wenn von den übrig bleibenden Blogs nur die Hälfte aktiv ist – 50 Mio. Blogs fände ich immer noch eine riesige Zahl. 50 Mio. Menschen, die ihre Gedanken zu allen möglichen Themen ins Netz stellen! Ich interessiere mich – wie ich ja schon zuvor bekannt habe – vor allem für food blogs. Wollte ich alles nachkochen, was da besprochen wird, müßte ich bestimmt noch einige hunderttausend Jahre leben – nur allein, um zu kochen; vom Essen will ich gar nicht reden.

Rechnen wir weiter. Nehmen wir an, daß von diesen 50 Mio. bloggenden Menschen nur 1% Wissenschaftler sind – dann hätten wir 500.000 wissenschaftliche Blogs. Wissenschaftliche Blogs? Wissenschaftliche Blogs?

Was ist denn bitteschön ein wissenschaftlicher Blog? Liest Du, liebe Leserin, gerade eben einen wissenschaftlichen Blog? Ich bin nicht enttäuscht, wenn Du sagst: Nein, bei aller Liebe, aber das hier ist kein wissenschaftlicher Blog. Wirklich nicht. Nett, aber nicht wissenschaftlich. Ehrlicherweise finde ich das auch.

Allerdings, man hätte wie folgt denken können: In der AG ComSys wird WordPress eingesetzt – also ist es ein Blog, und in der URL steht uni  – also schreibt da doch bestimmt eine Wissenschaftlerin. Und jetzt mal Hand aufs Herz: Kann so eine Wissenschaftlerin denn was anderes, als über wissenschaftliche Themen schreiben? Kann man kaum annehmen. (Ausnahme Luttenberger: Es könnte sein, daß der den ComSys-Blog mißbraucht, um über Maltagliati mit Safran-Mandel-Pesto zu schreiben. Ist dem zuzutrauen. Tut er aber nicht. Also – in diesem Blog tut er das nicht.)

Also: Was ist ein wissenschaftlicher Blog?

Das genau wollen wir im Projekt Blogsatz herausfinden.

Aus heutiger Sicht sollte man dazu in vier Schritten vorgehen:

  1. Man läßt einen crawler auf das Netz los. Der soll dort eine Menge von Blogs auffinden, die mit einigem Recht als “Kandidaten” bezeichnet werden können. Also, der crawler soll Blogs finden, die von wissenschaftlichen Einrichtungen betrieben werden. Man kann das natürlich noch weiter einengen und den crawler so programmieren, daß er nur englischsprachige Blogs findet, daß nur Blogs von Informatik-Instituten, nur Blogs von bestimmten Personen usw. Der crawler liefert die Kandidaten-URLs an die Blogsatz-Datenbank ab.
  2. Eine Textaufbereitungskomponente sucht die gefundenen URLs auf, liest eine Menge von Blog-Posts mitsamt den zugehörigen Kommentaren ein und speichert diese Texte zusammen mit einem Schwung Metadaten in der Blogsatz-Datenbank ab. Die Menge aller gefundenen Posts wird als Textkorpus bezeichnet.
  3. Nun kommt der aufwendigste Verarbeitungsschritt: Die Blog-Posts des Textkorpus werden mit Hilfe von NLP-Algorithmen (Natural Language Processing) nach bestimmten Kriterien klassifiziert: “wahrscheinlich wissenschaftlicher Inhalt” bzw. “wahrscheinlich nicht wissenschaftlicher Inhalt”. Die Definition der Kriterien für “wissenschaftlich”/”nicht wissenschaftlich” und ihre Umsetzung in einen entsprechenden NLP-Algorithmus sind die schwierigsten Arbeitsschritte. Ein mögliches Kriterium könnte z.B. die Verwendung von Fachbegriffen sein. Dazu braucht man einen Thesaurus der Fachbegriffe des ausgewählten Gebiets und einen Algorithmus, der diese Begriffe im Testkorpus finden kann. Möglicherweise ist die Klassifikation sehr rechenzeitaufwendig, so daß es sinnvoll sein kann, einen Hochleistungsrechner oder eine Menge von cloud-Rechnern zu verwenden.
  4. Der letzte Schritt schließlich ist die Evaluierung: Wie viele false positives und wie viele false negatives haben wir? Diese Evaluierung verlangt wahrscheinlich einen menschlichen Post-Leser und kann ggf. nur auf der Basis von Stichproben durchgeführt werden.

Aus den Aufgabenstellungen dieses Projekts fallen eine Menge von Themen für Bachelor- und Master-Arbeiten an. Bitte sprechen Sie uns an! Wir freuen uns auf die Zusammenarbeit mit Ihnen.

PS: Also gegen Ende ist dieser Post doch beinahe wissenschaftlich geworden … Oder etwa nicht? Aber ehrlich gesagt: Ich muß jetzt an den Herd, und da besuche ich vorher noch schnell einen von “meinen” food blogs und klassifiziere die angebotenen Rezepte in “lecker”/”nicht lecker” und “kochbar”/”nicht kochbar”. Mein persönlicher NLP-Algorithmus hat bislang immer ganz prima funktioniert. Dafür ist mein crawler aber wahrscheinlich ein sehr unterentwickelter Bursche …

 

Comments are closed.