Data Mining – nicht nur für Datenjournalisten ein mächtiges Werkzeug

Data Mining
Sopra Steria
durch

Jüngst hat die Süddeutsche Zeitung (SZ) unter der schönen Bezeichnung „Im Maschinenraum der Sprache“ untersucht, wie der Deutsche Bundestag in 70 Jahren und mehr als 4.200 Sitzungen debattiert hat. Dafür hat die SZ über einen Algorithmus einen Datensatz mit mehr als 213 Millionen Wörtern ausgewertet. Das Fundstück zeigt sehr schön, dass Data Mining und Data Analytics ihren Weg in die Praxis finden.

„Jede Sitzung des Deutschen Bundestages wird von den Stenografinnen und Stenografen protokolliert und steht als Plenarprotokoll, sogenannter Stenografischer Bericht, der Öffentlichkeit zur Verfügung“, heißt es auf der Webseite des Bundestags. In den Berichten finden sich nicht nur alle Reden, sondern auch jeder Kommentar und jeder Zuruf aus dem Plenum. „Jedes einzelne Wort, das Abgeordnete im Plenarsaal sprechen“, so die SZ, „wird festgehalten“. Einzusehen sind diese Dokumente wiederum auf dieser Webseite.

Wie die Süddeutsche diese Daten ausgewertet hat, beschreibt sie selbst ausführlich in dem Artikel „So haben wir den Bundestag ausgerechnet“. Dort berichtet die Redakteurin, wie die SZ computerlinguistische Verfahren einsetzt, um die Bundestagsprotokolle von 1949 bis 2019 zu durchdringen. Ein Algorithmus hat dabei Millionen Wörter in Zahlen übersetzt und so etwa 455 Millionen Datenpunkte geliefert, die datenjournalistisch ausgewertet werden konnten.

In dem Artikel können die Leserinnen und Leser in einer interaktiven Grafik einzelne Ergebnisse dieser aufwändigen Recherche sehen, etwa Veränderungen der Begrifflichkeiten bei Wörtern wie „Flüchtling“, „Grenze“ oder „Heimat“.

„Über Themen wie Flucht und Migration ist noch nie so intensiv debattiert worden wie in jüngster Zeit“, schließt die Süddeutsche Zeitung beispielsweise aus den Analysen. „An den Daten aus den Bundestagsprotokollen lässt sich ablesen, dass die Art und Weise, wie die Politik über das Thema spricht, sich zuletzt stark verändert hat.

Weitere Ergebnisse präsentiert die SZ nach und nach auf Twitter unter den Hashtag #sprachemachtpolitik.

Data Mining in Pandemiezeiten

Das SZ-Beispiel zeigt, wie gut sich Data Mining und Data Analytics dazu eignen, Zusammenhänge aufzudecken und Erkenntnisse zu gewinnen, die mit dem bloßen Auge und wegen der schieren Masse verborgen blieben.

Eine Anwendung mit aktuellem Bezug sind die Fallzahlen zur Corona-Pandemie. Datenanalyst David Kriesel, der bereits die Pünktlichkeitsstatistik der Deutschen Bahn genauer untersuchte, bereitet auf seiner Webseite aktuelle Fallzahlen auf und liefert Interpretationshilfen, um mögliche Missdeutungen aufzuklären. Er schafft damit alternative Wissensquellen und liefert gleichzeitig Impulse für kommende Data-Mining-Anwendungen.

Öffentlich zugängliche Daten wichtiger Wirtschaftsfaktor

Gerade die Corona-Krise zeigt zudem, wie wichtig öffentlich zugängliche Daten sowie erfahrene Datenanalysten sind, die solche Daten verstehen und analysieren können. Oder, wie es Bitkom-Präsident Achim Berg Anfang April 2020 ausdrückte: „Die Corona-Krise hat uns vor Augen geführt, welche herausragende Bedeutung aktuelle und qualitativ hochwertige Daten für Gesundheitsversorgung, Gesellschaft und Wirtschaft haben können.“ Berg verbindet diese Analyse mit der Forderung, dass die Bundesregierung nun die Umsetzung der Datenstrategie zügig vorantreiben solle. Dazu gehöre es, „unsere Datenschätze stärker (zu) öffnen. Daran entscheidet sich auch, ob wir Zukunftstechnologien wie Künstliche Intelligenz umfassend nutzen und dort auch eine weltweite Führungsrolle übernehmen können.“

Link-Tipp: 2020 wird das Jahr der Daten

Foto: Getty Images / Laurence Dutton


Sopra Steria

Unsere Redaktion betreut den Blog inhaltlich und technisch


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.