Korrelation und Kausalität
- Verhalten sich zwei Datensätze "ähnlich", so spricht man von Korrelation.
- Kausalität hingegen beschreibt einen Ursache-Wirkung-Zusammenhang.
Beim Suchen von Zusammenhängen muss man aufpassen: Korrelation ist nicht gleich Kausalität. Wenn beispielsweise viele Suchanfragen zu Grippesymptomen in einer Region auftreten, so heißt dies noch nicht, dass die Grippe dort besonders stark wütet. Immerhin kann es ein drittes Merkmal geben, das die beiden anderen beeinflusst.
Auch wenn man Zusammenhänge zwischen zwei Variablen statistisch nachweisen kann, heißt das nicht automatisch, dass eine die andere beeinflusst hat. Eine solche Scheinkorrelation wäre z. B. der (statistisch nachweisbare) Zusammenhang von Habilitationen von Frauen im Bereich der Humanmedizin bzw. den Gesundheitswissenschaften (cyan) mit der Anzahl an Platin-Awards für Musikprodukte von Helene Fischer (blau).
Vielleicht ist aber auch nur uns der offensichtliche Zusammenhang entgangen *grübel*.
Weitere amüsante Beispiele sammelt der Blog Blog 'Spurious Correlations'.
Korrelation: 0,9674; Quelle: scheinkorrelation.jimdo.com/
Datenvisualisierungen
Ziel einer "Datenvisualisierung" ist es, Informationen so aufzubereiten, dass sie für uns leichter zu interpretieren sind.
Dies ist eine wichtige Methode, mit deren Hilfe wir Muster, Trends oder Korrelationen finden können, die wir sonst vielleicht nicht entdeckt hätten.
Bei der Visualisierung von Daten geht es darum, eine Darstellung zu wählen, die es erlaubt, schnell die Kernaussage zu erfassen – ohne den Betrachter in die Irre zu führen. Um den Trend einer Aktie zu visualisieren, ist ein einfaches Liniendiagramm ausreichend. Je mehr Parameter wir allerdings dazunehmen, desto komplexer wird unsere Visualisierung.
Ein schon älteres, aber sehr berühmtes Beispiel, kennen wir aus dem Chemieunterricht: das Periodensystem der Elemente. Es ist ein Beispiel dafür, wie aus Textdaten eine interessante und nützliche Darstellung werden kann, indem Zeilen und Spalten verwendet werden, um verschiedene Elemente zu gruppieren, und Farben, um darzustellen, ob es sich um ein Edelgas, Halbmetall, usw. handelt.
Das Periodensystem der Elemente ist ein klassisches Beispiel für Datenvisualisierungen.
Spannende Beispiele gibt es außerdem auf der Website Information is Beautiful.
Wie unterschiedliche Datenvisualisierungen beim Erfassen der Kernaussage helfen können, zeigt das folgende Applet. Probieren Sie es doch einmal aus!
Der Abschnitt Datenvisualisierungen stellt ein Derivat des unter CC-BY-SA stehenden CS Field Guide Kapitels dar.
Manipulation von Visualisierungen
Diagramme lassen sich leicht manipulieren, um Daten anders erscheinen zu lassen, als sie sind. Dazu reicht es oft schon, einen anderen Ausschnitt der Datenwerte oder eine andere Form der Darstellung zu wählen.
Im folgenden Beispiel sind dreimal die selben Daten dargestellt. Lediglich der Ausschnitt der x- und y-Achse wurde verändert. Dennoch kommt man beim oberflächlichen Betrachten des Diagrammes schnell zu sehr unterschiedlichen Schlüssen!
Daher gilt der scherzhafte Merksatz: "Vertraue keinem Diagramm, das du nicht selbst gefälscht hast".
"In den letzten Jahren gab es kaum Veränderungen. Es besteht also kein Anlass zur Sorge."
"In den letzten Jahren gab es drastische Veränderungen! Wir müssen dringend etwas unternehmen!"
"In den letzten Jahren gab es immer mehr Falken als Mäuse. Das wird auch so bleiben"
Dieser Abschnitt ist von Martin Forster unter CC-BY-SA lizenziert.