Wenn Computer Störche für Kindersegen verantwortlich machen

Wenn man auf der genauen Bedeutung von einem Begriff herumreitet, gilt man oft als obergescheit und naseweiß. Das gibt keine Sympathiepunkte. Im englischen wird dies noch klarer auf den Punkt gebracht: Als “smart ass” bezeichnet zu werden, ist nicht als Kompliment zu verstehen.

Aber manchmal macht es Sinn, die Bedeutung von Begriffen sauber auseinander zu halten, weil es in der Anwendung einen großen Unterschied macht. Das trifft zum Beispiel auf die folgenden beiden Begriffe zu:

Kausalität vs Korrelation

Das sind keine Synonyme, auch wenn sie möglicherweise von manchen als solche verstanden und verwendet werden. Beide Begriffe haben mit der Erklärung von Zusammenhängen zu tun. Aber die Herangehensweise und Perspektive ist unterschiedlich.

Zunächst möchte ich beide Begriffe kurz definieren und dann komme ich auf den eigentlichen Punkt, warum ich diese Thematik für diesen Blog gewählt habe:

“Korrelation bezeichnet eine Beziehung zwischen zwei Fakten, die zumeist mit statistischen Methoden berechnet werden kann.“

“Kausalität bezeichnet eine klassische Ursache-und-Wirkung-Beziehung, die inhärent (von Natur aus) gegeben ist.”

Ein gutes Beispiel, um die Unterschiede darzustellen ist der Zusammenhang zwischen dem Merkmal “Anzahl von Störchen an einem Ort/Region” und der “Geburtenrate an diesem Ort/Region”. Statistische Untersuchungen haben ergeben, dass für die beiden Variablen eine klare positive Korrelation festgestellt werden kann, d.h. je mehr Störche in einer Region leben, desto mehr Kinder werden dort (relativ gesehen) geboren. 

Das überrascht dann doch etwas: 

Haben wir im Sexual-Unterricht in der Schule etwas verpasst? Hatten unsere Großeltern doch recht? Haben Störche einen wundersamen Einfluss auf unsere Familienplanung?

Nun, bei genauerer Betrachtung lässt sich keine Ursache-Wirkung-Beziehung zwischen diesen Variablen finden, es gibt also keine Kausalität zwischen der Anzahl von Störchen und der Geburtenrate.

Die Auflösung ist, dass es eine dritte Variable gibt (sogenannte Stör- oder Kontrollvariable), die diese Korrelation bewirkt und die auch kausal mit den zuvor genannten Variablen verbunden ist. Das ist in diesem Fall der “Grad der Industrialisierung”. Dort wo es mehr Industrien gibt, gibt es einerseits weniger Störche und außerdem auch weniger Familien (siehe https://statistik-und-beratung.de/2013/05/von-storchen-und-babys-die-partielle-korrelation/).

Bei diesem Beispiel schmunzeln viele, und es führt hoffentlich dazu, die Begriffe bewusster zu verwenden. Doch das ist nicht der Punkt. Die Unterscheidung der Begriffe Korrelation und Kausalität hat sehr große Relevanz für unser alltägliches Leben. Nämlich beim Herbeiführen von Entscheidungen, insbesondere wenn diese computer-unterstützt sind.

Um das zu erklären, muss ich etwas ausholen:

Künstliche Intelligenz gibt es schon sehr lange, es gab in der Vergangenheit immer wieder Hypes, gefolgt von Ernüchterung, gefolgt von Hypes und so weiter. Die ersten Anwendungen für Künstliche Intelligenz waren zumeist regelbasierte Experten-Systeme, die versuchten auf Fragestellungen in einer bestimmten Domäne eine Antwort zu finden. Diese Experten-Systeme wurden von menschlichen Experten mit Informationen gespeist und arbeiteten hoch-komplexe Entscheidungsbäume ab. Das Gute daran war, dass die Schlußfolgerungen kausal und logisch erklärt werden könnten. Der Nachteil war, dass man damit bei Fragestellungen des realen Lebens schnell an Grenzen stieß. 

Würden sich damit komplexe Szenarien wie autonomes Fahren oder strategische Entscheidungen in sich ständig verändernden Märkten abbilden? Wohl kaum.

Aus diesem Grund sind heutzutage Ansätze wie Machine Learning weitaus populärer, denn sie verfolgenn einen komplett anderen Ansatz:

Mit Hilfe von großen Datenmengen versucht das System Korrelationen zu berechnen und diese auf neue Fragestellungen anzuwenden. Der große Vorteil ist, dass diese Systeme nicht von Experten gespeist werden müssen und dass es sehr flexibel auf neue, ähnliche Fragestellungen reagieren kann. Dem liegt aber eine wesentliche Annahme zugrunde: Die identifizierten Korrelationen müssen auch kausal sein!

Wenn wir uns an das Beispiel mit Störchen und der Kinderrate erinnern, wird schnell klar, dass diese Annahme nicht immer zutrifft.

Welche Konstellationen gibt es also und wie können wir damit umgehen?

  • nicht-korrelierend, nicht-kausale:

Meine Entscheidung heute rote Socken anzuziehen und das Bevölkerungswachstum in Australien, ist offensichtlich nicht korrelierend und nicht kausal. Das würden wir als Menschen so sehen und auch ein Computer-Programm.

  • nicht-korrelierend, kausal:

Wenn für kausale Beziehungen keine Korrelation berechnet werden kann, ist in der Regel die Datenbasis zu gering und/oder es handelt sich um eine schwache Kausalität. Darunter fallen oftmals strategische Entscheidungen, die in ihrer Konstellation einzigartig sind. Ob diese von Menschen besser getroffen werden, ist eine philosophische Fragestellung. 

  • korrelierend, kausal: 

Diese Variante ist das Ziel von Machine Learning – Szenarien, weil es damit gelingen kann, unbekannte bzw. nicht offensichtlichte Kausalitäten aufzudecken. Die Maschine „weiß“ in diesem Fall mehr als ein menschlicher Entscheidungsträger.

  • Korrelierend, nicht-kausal:

Darunter fällt das Störche-Beispiel, das bei Machine Learning tatsächlich auftreten kann und heftige Probleme verursachen. Neben der genannten Störvariable, kann auch eine zu geringe und/oder verzerrte Datenbasis die falschen Schlüsse herbeiführen. 

Was kann man aus dieser Betrachtungsweise mitnehmen? 

Machine Learning bietet große Potentiale, die heute erst ansatzweise realisiert sind. Die gesteigerten Rechen- und Speicherkapazitäten können mit großen Datenmengen umgehen, diese in Echtzeit für Entscheidungsunterstützung und -findung verarbeiten. Die Maschine wird auf dieser Basis ihre Berechnungen korrekt durchführen.

Aber wir dürfen nie vergessen, dass es sich um statistische Methoden handelt und diese der Annahme unterlegen, dass die Datenbasis ausreichend groß und repräsentativ ist. 

Ein Computer versteht nicht die Fach-Domäne, ein Computer hat kein Bauchgefühl, ob die Ergebnisse plausibel sind. Und kein Computer muss am nächsten Tag vor die Öffentlichkeit treten und Entscheidungen erklären. 
Wir sollten daher die Unterscheidung zwischen Kausalität und Korrelation immer im Auge behalten – auch wenn wir uns dadurch als “Smart Ass” outen. Zur Beruhigung: Es ist bis heute weder ein korrelierender, noch kausaler Zusammenhang zwischen “Smart Ass”-Faktor und Größe des Freundeskreis nachgewiesen.

Hinterlasse einen Kommentar