Wahlumfragen aus Data Science Perspektive

Shownotes

Im Vorfeld der kommenden Bundestagswahl sprechen Tim und David über die Statistik von Wahlumfragen und analysieren, wie sie zu deuten sind. Es geht neben den statistischen Grundlagen, die für eine gute Wahlumfrage zu beachten sind auch um weiterführende Themen wie Zeitreihenanalyse und den Umgang mit Unischerheiten in Machine Learning Modellen.

Transkript anzeigen

00:00:00: Wir sind live. Hi Tim.

00:00:03: Hallo David.

00:00:05: Willkommen zur Podcastaufnahme.

00:00:08: Wir wissen gar nicht, ob es deine erste sein wird oder deine zweite nach Datum der Ausstrahlung.

00:00:14: Du hast mit Janis schon mal einer aufgenommen, ne?

00:00:17: Ja, wir haben uns vor Weihnachten zusammengesetzt.

00:00:20: Das war ein deutlich anderes Setting.

00:00:23: Da saß man ganz gemütlich mit Mikros in der Hand bei Janis im Büro und heute in leicht anderer Ausstattung und anderer Zusammensetzung.

00:00:35: Vielleicht mein erster, vielleicht mein zweiter Podcastauftritt.

00:00:39: Ja, wir sind alle ein bisschen voll geworden. Früher saß ich auch mal mit Janis im Büro und jetzt gibt es immer mal auch eine Remoteaufnahme.

00:00:47: Aber umso schöner, aber dann würde ich dich doch bitten, da wir nicht wissen, ob du dann bekannt bist bei uns mit einem Stammhörer an,

00:00:55: stelle dich doch nochmal kurz vor. Was hat dich zu Elio geführt, was ist dein Hintergrund und kannst du dann direkt anschließen, worüber wollen wir heute sprechen?

00:01:05: Das war ja dein Vorschlag.

00:01:07: Ja, super. Ja, ich habe jetzt die ersten drei Monate bei Elio schon überstanden quasi.

00:01:14: Hatte auch einen super Einstieg mit dem Vacation in Dänemark und bin seitdem bei Elio an Bord offiziell als Data Scientist,

00:01:29: bearbeite aber was so Projekte angeht jetzt erst mal am Anfang so quer beet, weil ich da ja auch schon viele Erfahrungen mitbringe, was so Data Engineering angeht.

00:01:40: Das hören wir dann im Podcast mit Janis und auch so der DevOps-Themen.

00:01:45: Ich war vorher fünf Jahre bei einem Software-Headsteller im Paderborn auch als Data Scientist und als Teamleiter und da haben wir versucht,

00:01:56: mit Data Science und Machine Learning Magie-Email-Postfächer sicherer zu machen.

00:02:04: Und ja, für mich war dann aber mal Zeit, so ein paar mehr Projekte auch mal kennenzulernen und deshalb bin ich dann nach einem sehr guten Bewerbungsprozess zu Elio gekommen,

00:02:18: wo ihr mich überzeugen konntet, dass das hier bei Elio ein cooles Team ist, wo man interessante Projekte zusammen umsetzen kann und bis jetzt hat sich das auch ziemlich bestätigt.

00:02:32: Sehr gut. Und ein kleines Zwischenprojekt von dir war, wir können ja eine Podcast-Folge machen und zwar im Vorgang für unsere nächste Bundestagswahl.

00:02:44: Was war da dein Vorstark?

00:02:46: Ja, also ich habe mir gedacht Podcast, klar, wir können über Projekte sprechen, die wir umgesetzt haben, über Technologien und da gibt es ja auch schon einiges.

00:02:58: Aber meine Idee war, wir können ja auch mal was Aktuelles machen, wo sicherlich auch Data Science und Statistik Themen in Bezug zu haben und mal aus der Sicht eines Data Scientistens auf die jetzt kurzfristig anstehende Bundestagswahl schauen,

00:03:18: die wurde uns ja quasi vom Bundespräsidenten unter den Weihnachtsbaum gelegt und was hat eine Wahl mit Data Science zu tun, mittlerweile glaube ich eine ganze Menge,

00:03:29: aber eine Sache, die sehr offensichtlich ist, sind glaube ich Wahlumfragen, Meinungsumfragen, wo wir immer schön Daten präsentiert bekommen und da geht natürlich die Gedankenkette bei uns Data Scientists los.

00:03:47: Was steckt da eigentlich hinter und darüber wollen wir heute mal ein bisschen sprechen mit aktuellem Bezug.

00:03:54: Genau, also uns einzuordnen, wir wollen uns wirklich eher damit beschäftigen, wie technischen von der Datenverarbeitung her Wahlumfragen funktionieren, was die Anknüpfungspunkte zu Data Science sind,

00:04:07: wir lassen sämtliche politische Dimensionen außen vor und da haben wir unsere Meinung zu, aber die gehört jetzt gerade nicht in den Podcast

00:04:15: und wir wollen vielleicht so ein bisschen Anregungen dafür geben, wie man mit Informationen, die in der Zeitung stehen, zu Wahlumfragen, wie man mit denen umgehen kann, wie man die interpretieren kann.

00:04:27: Und vielleicht lassen wir das doch mal ganz vorne anfangen. Was sind denn so die zentralen Themen und Begriffe, mit denen ich mich auskennen muss, wenn es um eine Wahlumfrage geht,

00:04:40: dass wir nehmen erstmal einfach eine einfache Umfrage. Ein Meinungsforschungsinstitut möchte mir sagen, wie viele Prozent dann jetzt eine Partei erringen würde.

00:04:52: Der erste Punkt, den du da so langsam eingewoben hast, ist natürlich auch schon mal ein Meinungsforschungsinstitut. Da gibt es ja mittlerweile auch eine ganze Menge.

00:05:07: Wenn man das mal so aufmerksam auch in verschiedenen Medien verfolgt, ist die Wandbreite an Instituten da jetzt in den letzten Jahren noch deutlich größer geworden.

00:05:19: Und da fängt es schon an, wie werden den Daten überhaupt erhoben? Da gibt es ja auch sehr unterschiedliche Methodiken.

00:05:28: Ganz grundsätzlich basieren wir Meinungsumfragen darauf, dass man Leute nach ihrer Meinung fragt. Damit fängt es natürlich an.

00:05:38: Wir wollen eine Wahl prognostizieren mit mehreren 10 Millionen Wahlberechtigten. Wie viele Leute muss man denn dafür fragen, um eine gute Vorhersage zu treffen?

00:05:50: Und wenn man mal schaut, was wird denn so gemacht, sind da so Stichprobengrößen von 2000 Leuten, die dann herangezogen werden, um da ein Bild zu bekommen, wie das denn aussehen würde.

00:06:05: Schon am nächsten Sonntagbundestagswahl werden Bäre. Und ja, das ist halt so diese berühmte Sonntagsfrage.

00:06:14: Und jetzt kann man sich als Data Scientist oder halt auch als Nicht-Data Scientist die Frage stellen.

00:06:21: Ja, das ist ja eigentlich, sind das ja ganz schön wenig Leute, das Verhalten von so einer großen Gruppe vorher zu sagen, wie geht das eigentlich?

00:06:31: Dass man da doch dann relativ belastbare Ergebnisse bekommt.

00:06:36: Ich glaube, das Stichwort, was im Erfeld ist ja repräsentativ. So was muss eigentlich eine Stichprobe erfüllen, um repräsentativ zu sein.

00:06:46: Das heißt, um so, sodass die Aussagen dieser wenigen 1000 Leute quasi das wiedergeben, was ich auch bekehme, wenn ich es wirklich am Ende schaffe.

00:06:56: Alle, was haben wir? Ich würde jetzt raten, 40 Millionen Wahl berechtigt haben, haben wir nicht nachgeguckt vorher.

00:07:03: Oder die nehmen auf jeden Fall Teilamende, wenn ich die alle befragt hätte.

00:07:07: So, erst vielleicht mal ganz vorne, wie wird denn so eine Stichprobe erhoben?

00:07:13: Wie kommt man an die Leute ran? Wie weht man die Leute aus?

00:07:18: Du hast ja schon den Fachbegriff in den Raum gestellt, repräsentative Umfrage.

00:07:25: Und ich glaube, der aller einfachste Ansatz wäre, das einfach auszulosen.

00:07:31: Und dann hat man zufällig definiert, man seine Stichprobe und kann dann gucken, je größer die Stichprobe wird an Leuten, desto belastbarer ist das Ergebnis.

00:07:46: Da gibt es dann ja auch mathematische Formen, wie man das nähern kann, wie belastbar man da ist.

00:07:56: Aber das hat natürlich auch seine Probleme.

00:07:59: Erst mal ist vielleicht gar nicht jede Person erreichbar, die man sich da so zufällig gerne befragen würde, beziehungsweise ist es vielleicht erreichbar, aber will gar nicht antworten.

00:08:10: Und zum anderen ist es vielleicht auch ein bisschen ineffizient.

00:08:14: Und da kommen dann halt geschichtete Stichproben zum Tragen, dass man sagt, okay, wir teilen unsere Bevölkerung in verschiedene Gruppen ein und gucken dann, dass wir in den Gruppen einzeln belastbare Ergebnisse haben, zum Beispiel nach Alter.

00:08:35: So, dann kann man sagen, okay, ist ja jetzt auch, wenn man sich Analysen zu Wahlen anguckt, eine sinnvolle Unterteilung, weil, keine Ahnung, die Gruppe über 60 zum Beispiel wählt anders als Leute unter 30 und guckt dann, dass man da die einzelnen Gruppen abarbeitet.

00:08:57: Und das hat ja auch technische Implikation.

00:09:02: Leute über 60, über 65 wird man wohl wahrscheinlich besser auch noch per Festnetztelefon erreichen.

00:09:12: Wohingegen man, wenn man in Erstwähler sich angucken will, ist es vielleicht keine gute Strategie, die muss man dann anders erreichen.

00:09:21: Genau, also zusammenfassend, die Reinform einer Stichprobe ist die Zufallsstichprobe.

00:09:31: Das ist aber in der Realität gar nicht so leicht.

00:09:34: Plus, ich möchte vielleicht auch Variabilität in unterschiedlichen Bevölkerungsgruppen abdecken und mache dann eine geschichtete Zufallsstichprobe.

00:09:42: Das ist eine Möglichkeit. Ich glaube, was jetzt immer schon so mitschwangen, was man noch ergänzen kann, es gibt eigentlich so zwei Arten, was ich gelesen habe, die Umfragen gemacht werden, nämlich am Telefon oder online.

00:09:53: Oder gibt es da noch mehr?

00:09:55: Also die klassischen Sonntagsumfragen würde ich auch so sagen.

00:10:00: Es gibt natürlich auch, was ja auch in dieses Thema rein spielt, diese sogenannten Nachwahlumfragen.

00:10:09: Ich weiß gar nicht, ob du das schon mal gesehen hast.

00:10:13: Ich konnte das einmal live verfolgen, weil in unserem Wahllokal damals der andere Stimmbezirk da eine Nachfallbefragung auch hatte, wo dann die Leute gehen erst wählen und werden danach von dem jeweiligen Umfrageinstitut dann nochmal gefragt.

00:10:28: Wollen Sie an der Nachwahlumfrage teilnehmen und gehen dann in den Extra-Raum und dann werden Sie gefragt, was haben Sie denn gewählt und auch noch ein paar andere Fragen, weil es ja für so ein Umfrageinstitut auch noch mehr interessante Informationen gibt, als wenn man bei der Wahl gewählt hat, zum Beispiel, ob man bei der letzten Wahl, wenn man das gewählt hat, solche Sachen.

00:10:50: Und das würde ich noch so als dritte Methode sehen, dass man wirklich in dem Person sowas macht.

00:10:59: Aber das ist natürlich dann auch eine Kostenfrage, wie viel man da investiert.

00:11:06: Ich glaube, Nachwahlumfragen dann auch gerade wichtig kennt man dann immer bei der Wahl für so Dinge wie Wählerwanderung.

00:11:12: Ich habe erst das gewählt und jetzt das.

00:11:14: Warum?

00:11:15: Da gibt es dann auch immer schöne Grafiken.

00:11:18: Vielleicht noch ein Punkt.

00:11:20: Du hast ja eben schon angerissen Probleme, die ich habe in der Realität mit einer Stichprobe und Effekte, die da quasi meine Datenqualität beeinträchtigen können.

00:11:32: Kannst du da vielleicht so ein paar Beispiele nennen?

00:11:34: Was kann mir so passieren, wenn ich Telefonumfragen mache, wenn ich online Umfragen mache?

00:11:40: Ja, eine Sache ist natürlich, ich kann mir überlegen, ja, ich mache hier meine Schichten und gucke, ich will die Gruppe, ich will die Gruppe, ich will die Gruppe.

00:11:51: Aber die unterschiedlichen Gruppen sind ja vielleicht unterschiedlich responsiv.

00:11:56: Manche antworten sofort und manche sind vielleicht auch meinen Institut gegenüber skeptisch oder was auch immer.

00:12:05: Und dann kann es natürlich sein, dass diese Schichten unbalanceiert sind.

00:12:10: Gerade wenn die Antwortwahrscheinlichkeit mit dem, mit der Wahlaussage korreliert.

00:12:20: Ja, das ist, und da kann man sich natürlich in seine Umfrage systematische Fehler einbeziehen.

00:12:27: Und da muss man halt, glaube ich, wenn man so umfragen, Design sehr stark aufpassen, dass man halt, dass man da halt wirklich repräsentativ ist und dann gegebenenfalls nachjustieren oder halt sagen, ja, das können wir halt nur mit einer höheren Unsicherheit unsere Größen angeben.

00:12:46: Das ist sicherlich ein Problem, was ich da, was ich da auf jeden Fall sehen würde.

00:12:53: Eine andere Sache, die oft besprochen wird, ist so dieses Motto, was im Englischen unter Desireability bias läuft, dass Leute bei Umfragen manchmal nicht die Wahrheit sagen.

00:13:07: Auch bei psychologischen Umfragen oder Tests, dass die Leute eher gerade bei Umfragen antworten, dass was sie meinen, was gut ankommt oder was richtig ist und nicht was sie wirklich wählen würden.

00:13:24: So, da hat auch bei anderen Aussagen, das ist, glaube ich, noch viel krasser als bei so einer Wahlumfrage.

00:13:31: Da muss man natürlich auch aufpassen, dass man jetzt nicht, ja, die Leute nur abfragt danach, was meinen sie denn, was will man hören.

00:13:45: Und ich glaube, die Geschichte ist am Telefon nochmal deutlich stärker als zum Beispiel bei so einer Online-Umfrage.

00:13:56: Weil immer dann, wenn man mit einem Menschen interagiert, kommt das, glaube ich, nochmal stärker zum Vorschein, dass man dem vielleicht nicht die Wahrheit sagt.

00:14:09: Ja, das heißt also, je nachdem für welchen Weg ich mich entscheide, schon in der Systematik, in der Methodik meiner Umfrage, fange ich mir gewisse Datenfahrzehrungen ein.

00:14:22: Oder muss versuchen, die rauszurechnen und muss bewusst sein, dass es die gibt, also Dinge, die ich da noch einstreuen kann.

00:14:29: Also du hast so Probleme mit, wer überhaupt noch übers Festnetz erreichbar ist oder nicht.

00:14:34: Das sind vielleicht, manche junge Leute, ich zum Beispiel, ja, mitteljungen, gar nicht mehr erreichbar.

00:14:41: Dann bekomme ich da vielleicht eher ältere Leute.

00:14:45: Gleichzeitig hat das Telefon aber den Vorteil, dass es technisch viel leichter ist, eine Zufallsschichtbrühe zu machen.

00:14:51: Es gibt ja viele Kennen dieses, ich weiß nicht, wie man es ausspricht, Ziväumfragen, hier gibt es bei Spiegel Online und so, das sind Online-Umfragen.

00:14:59: Die haben das Problem, die laufen eben oft über bestimmte Webseiten, wenn die angesteuert und ich kriege halt einen Bayes, wer nutzt überhaupt diese Webseiten?

00:15:06: Leute, die nicht auf der Webseite sind, nehmen ich an der Umfrage teil.

00:15:10: Das ist auch sehr spannend, was man da hat.

00:15:13: Ich musste beim Lesen viel an einen Kumpel von mir denken, der Psychologe ist, der sich viel auch mit Fragebögen beschäftigt hat.

00:15:21: Daher geht das ja in der Wissenschaft für sich.

00:15:23: Ich stelle eine Frage und die Antwort auf die Folgefrage ist vielleicht von der ersten Frage beeinflusst.

00:15:29: Nennt man Halo Effect.

00:15:31: Wenn man sagt, sind sie nicht auch dafür, dass die Steuer niedriger werden und als nächstes würden sie die FDP wählen, führt in so eine gewisse Richtung.

00:15:41: Auch dann einfach mit schlechten Fragebögen.

00:15:45: Genau, okay, sehr spannend.

00:15:47: Du hast eben noch, dass wir das nur kurz an Stupsen genannt, die Themen, wie sicher möchte ich mir sein und wie verlässlich ist im Prinzip die Aussage,

00:16:04: ich habe, hast du da vielleicht so grobe Zahlenwerte, mit denen da hantiert wird bei solchen Umfragen?

00:16:11: Ich würde da erstmal grundsätzlich nochmal einen Schritt zurückgehen, da wir haben ja beide so ein bisschen so ein naturwissenschaftlichen Hintergrund.

00:16:21: Und wenn ich mit dem Naturwissenschaftler Auge so auf die Umfrage Ergebnisse publiziert werde,

00:16:31: dann denke ich immer so ein bisschen zurück an meinen Praktikum.

00:16:34: Damals in der Uni physikalischer Chemie, wenn ich so einen Grafen in mein Protokoll geschrieben hätte,

00:16:42: das hätte mir der Assistent um die Ohren gehauen, weil, was muss immer dran, da fehlen die Fehler bei Algen.

00:16:50: Das ist ja ganz wichtig.

00:16:52: Und ja, ist natürlich, wenn man jetzt so dieses Thema Datenjournalismus sich anguckt, manchmal macht es das halt unmöglich kompliziert.

00:17:02: Aber das ist glaube ich ganz wichtig, wenn man solche, ja meistens sind es ja so Balkendiagramme,

00:17:08: da sollte man sich immer Fehleralken dazu denken.

00:17:12: Und manchmal kommen die auch auf der Tonspur dazu, wenn man jetzt zum Beispiel im Fernsehen so Deutschland trennt oder sich mal anschaut.

00:17:23: Und da wird immer gesagt, ja gut, bei kleineren Parteien, wohingegen also diese Unterscheidung zwischen kleinen und großen Parteien mittlerweile so ein bisschen brockelt.

00:17:34: Aber so, ja, wenn der Wert so bei unter 10% liegt, dann kann man so sicherlich ein bis 2% Fehler in beide Richtungen annehmen.

00:17:45: Und ja, über 20% kann man dann auch wieder größere Fehler, sogar von 3% bis 4% annehmen,

00:17:54: die auch, was man jetzt auch aus den Umfragendaten sicherlich errechnen könnte.

00:18:01: Und ja, das sollte man immer so ein bisschen glaube ich mitdenken, wenn man solche Diagramme ließ, beziehungsweise dann natürlich auch interpretiert.

00:18:11: Genau, da merkt man halt auch, dass der Journalismus eben auch darauf angewiesen ist, dann vielleicht eine Schlagzeile zu haben.

00:18:19: Aber wenn jemand schreibt, Partei im Höhenflug hat um 1% zugenommen in den Umfragen,

00:18:25: ich habe aber eine Unsicherheit von 2%, dann ist das eine fragwürdige Überschrift vielleicht.

00:18:33: Ja, und gerade, ich meine, das ist ja jetzt auch eine der wirklich spannenden beziehungsweise ja auch sehr neuen Aspekte der Bundesfasswahl, die uns jetzt ins Haus steht,

00:18:47: wo man mal einfach auf die Fachthematik kommt, dass ja, wenn man sich die Umfragen mittlerweile im Moment anguckt,

00:18:54: es ja mehrere Parteien gibt, die so an der 5% oder Katzen leicht runter liegen, leicht drüber liegen.

00:19:01: Diese Aussagen sind natürlich wenig belastbar und es ist halt eine hohe Unsicherheit.

00:19:06: Und manchmal mogeln sich so umfragende Institute da auch durch mal rum, dass sie dann irgendwie bewusst die Parteien einfach fest auf 5% vorhersagen und sagen,

00:19:20: ja, können wir halt nicht sagen, aber da dann zu viel rein zu interpretieren, ist glaube ich schwierig.

00:19:27: Ja, aber sehr spannend und eigentlich was auffällt, wenn wir so zu unseren sonstigen Projekten den Vergleich ziehen,

00:19:37: das sind gar nicht so unbekannte Konzepte, was du am Anfang ja auch schon sagtest.

00:19:41: Also wenn ich darüber nachdenke, so eine Art Halo Effekt, den hatten wir kürzlich auch,

00:19:47: wir haben ein Projekt, wo wir in einer Fakkationshalle bestimmte Produkteigenschaften vorhersagen

00:19:54: und wir empfehlen einzustellende Parameter und das wird den Operatoren gezeigt

00:20:01: und danach entscheiden sie, was sie einstellen.

00:20:03: Und wir haben eine Zeit, dann haben wir das gegeneinander ausgewertet, haben halt geguckt, das Modell besser als der Operator

00:20:10: und man merkt mittlerweile, das ist eine beeindruckende Art.

00:20:13: und dadurch, dass er das vorher gesehen hat, stellt er andere Dinge ein.

00:20:16: Das ist auch sehr spannend und im gleichen Projekt war es auch so, beim Trainieren des Modells

00:20:21: trainieren wir auf historischen Daten, die wir haben und stellen dann fest, dass die halt immer in einem bestimmten Bereich sind.

00:20:30: Das heißt quasi in unserer geschichteten Zufallsprufe haben wir die eine Gruppe stark übergewichtet,

00:20:36: nämlich die, die immer eingestellt werden, gerade wenn ich was optimieren will,

00:20:39: sieht mich ja auf die anderen Gruppen, was passiert links und rechts davon.

00:20:43: Das heißt, diese typischen Data Science Probleme, die finden wir jetzt hier alle in einer anderen Koleur wieder.

00:20:49: Ich meine, das ist ja jetzt hier an der Stelle bei unserem Projekt ganz schön zu sehen

00:20:56: und das ist ja auch bei jeder Menge anderer Data Science Projekte,

00:21:00: dass man halt in der echten Welt dann oft das Problem hat,

00:21:04: dass es halt eine Rückkopplung zwischen seiner Vorhersage und der Wirklichkeit dann gibt.

00:21:09: Ja, wenn wir jetzt den Operator sagen, ja, weiß ich nicht,

00:21:13: seit dann mal ein bisschen Anführungszeichen mutiger, die Maschine auszusteuern,

00:21:18: das ist ja dann bei uns manchmal, dann kriegt man dann auch andere Daten vielleicht.

00:21:26: Und genauso solche Effekte hat man ja auch bei den Wahlumfragen.

00:21:30: Weswegen das halt auch, ja, den Instrument zum Beispiel auch der Beeinflussung sein kann,

00:21:35: dass man sieht, okay, die Partei ist im Aufent, dann gibt es eine Euphorie

00:21:42: und dann kriegt die vielleicht wirklich mehr Wähler oder jetzt auch wieder,

00:21:46: beispielsweise 5 Prozent hört, es macht einen wahnsinnigen Unterschied,

00:21:49: ob für eine Partei, ob man jetzt relativ sicher sein kann, dass sie diese Hürde überspringt,

00:21:54: dann gibt es nochmal einen Wählerpotenzial oder die Leute sind eher skeptisch,

00:22:00: geht meine Stimme vielleicht in Anführungszeichen verloren und wählen dann eher wen anders.

00:22:05: Das sind natürlich alles Effekte, denen man sich bewusst sein kann,

00:22:09: dass halt die Umfragen selber nicht nur beschreiben sind,

00:22:13: sondern halt auch Politik machen können, bzw. das Ergebnis beeinflussen kann.

00:22:18: Jetzt hast du mir ja im Vorgespräch auch erzählt, dass es deswegen eine ganze Zeit lang

00:22:23: eigentlich verpönt war, Wahlumfragen kurz vor der Wahl noch zu veröffentlichen,

00:22:27: was sich erst seit kurzem geändert hat.

00:22:29: Genau, ich würde aber noch den nächsten Schritt gerne machen in unserer Komplexität,

00:22:35: denn wir haben ja bisher jetzt uns quasi mit einer einzelnen Wahlumfrage beschäftigt.

00:22:40: Und du hast ja aber auch schon gesagt, die typische Sonntagsfrage,

00:22:44: die gibt es ja nicht nur einmal an einem Sonntag gemähr, sondern jeden Sonntag,

00:22:47: das heißt eigentlich, was wir jetzt bekommen ist, eine Zeitreihe.

00:22:51: Eigentlich haben wir jedes Jahr ein neues Meinungsbild

00:22:55: und das können wir uns jetzt schön über die Zeit den Verlauf angucken,

00:22:58: das sehen wir ja auch mittlerweile immer schön.

00:23:00: Ich habe gerade bei Zeit online die Verläufe gesehen, wie das passiert.

00:23:05: Da habe ich ja jetzt nochmal ganz neue analytische Möglichkeiten.

00:23:08: Also wenn ich jetzt auf einmal so einen Verlauf der Wählerstimmung

00:23:12: über mehrere Umfragen sehe, was macht man denn da?

00:23:16: Erst mal ist es ja sogar noch mehr.

00:23:19: Wir haben ja nicht nur verschiedene Zeitpunkte,

00:23:22: sondern auch verschiedene Umfrageinstitute.

00:23:25: Also das heißt, wir haben an einem Zeitpunkt gegeben,

00:23:28: im Fall sogar mehrere Datenpunkte, was natürlich auch interessant ist,

00:23:33: weil man aus diesen mehreren Datenpunkten dann ja auch mal ablesen kann,

00:23:37: sowas wie ein Fehler, dass die sich die Institute unterscheiden.

00:23:41: Muss man natürlich aufpassen, gibt es bessere und schlechtere Umfragen.

00:23:45: Aber so ein Zeitverlauf ist natürlich spannend,

00:23:48: weil der natürlich nochmal eine ganz andere, ja erstmal Interpretation zulässt,

00:23:55: weil eine Veränderung ist ja auch nochmal eine ganz andere Aussage,

00:24:02: als eine Punktmessung.

00:24:04: Und man kann dann natürlich gucken, ja, wie erkläre ich mir die Veränderung

00:24:10: und wie modellier ich sie auch,

00:24:12: dann vielleicht nochmal ein besseres Bild über Fehler, über Verläufe zu bekommen

00:24:17: und kann da natürlich dann den ganzen Werkzeugkasten anwenden,

00:24:21: den wir Data Scientist so für Zeitreihen haben.

00:24:25: Das heißt, an der Stelle wird dann jetzt auch vermehrt auf Machine Learning wirklich gesetzt, ne?

00:24:32: Ja, also ich würde auch da so ein bisschen diesen Cut sehen,

00:24:38: sowas, was wir jetzt am Anfang besprochen haben,

00:24:41: das hat mit dem Thema Machine Learning.

00:24:44: Also klar, braucht man für Machine Learning auch Daten,

00:24:48: aber also dieses, wir haben irgendwie ein maschinelles Lernen an Modellen,

00:24:53: was wir anwenden, das ist da glaube ich nicht so wichtig

00:24:57: und das kommt jetzt hier ins Spiel.

00:25:00: Wobei ich auch immer sagen würde, ja, wir sind ja Data Scientist,

00:25:03: wir machen mehr als Machine Learning,

00:25:05: aber da hast du natürlich völlig recht,

00:25:08: wenn du jetzt die Zeitreihen hast

00:25:14: und diese Daten und halt auch andere Daten,

00:25:18: die wahrscheinlich relevant sind für eine Wahl,

00:25:21: die auch in der Zeit ablaufen, zum Beispiel Wirtschaftsdaten,

00:25:25: wie ist das Wirtschaftswaggstum, wie ist es in Arbeitslosenzahlen

00:25:29: und solche Dinge, da kann man dann natürlich gucken,

00:25:33: ja, kann ich Zeitreihen, kann ich die vorher sagen, gibt es Korrelation

00:25:38: und vielleicht auch kann ich die so ein bisschen in die Zukunft extrapolieren.

00:25:43: Genau, und das ist ja jetzt hier eine spannende Sache,

00:25:49: also die hier besonders auffällt, jetzt zum Inspektive-Thematik,

00:25:51: eigentlich hat man die tatsächlich, finde ich auch in anderen Projekten,

00:25:54: aber hier besonders, wir haben jetzt immer mit Unsicherheiten gesprochen,

00:25:57: also jede Wahlumfrage hat ihre eigene Unsicherheit,

00:26:01: jetzt habe ich eine Zeitreihe von mit Unsicherheit behafteten Werten.

00:26:05: Wie kann ich denn das in einem Machine Learning-Modell darstellen,

00:26:10: dass ich sage, mache mir eine Vorhersage,

00:26:13: aber also so ein klassisches Machine Learning, so wie das losgeht,

00:26:16: wenn man damit anfängt, der Tutorial-Level ist,

00:26:19: ich habe feste Eingabedaten

00:26:21: und ich habe einen festen Ausgabe, Output, ein Wert,

00:26:25: und der Wert sagt 12.

00:26:27: Wie bekomme ich denn meinen Modell dahin,

00:26:30: dass mir das sagt 12, aber plus/minus 0,5?

00:26:35: Also wie bekomme ich die Unsicherheiten aus meinem Modell raus?

00:26:39: Ich glaube, da führen verschiedene Regeln nach oben, sag ich jetzt mal.

00:26:45: Eine Möglichkeit ist natürlich so ein, ja, man nutzt einen Ensemble an Modellen,

00:26:53: die auf die entweder so leicht unterschiedlich,

00:26:56: einfach Arten von Modellen sind

00:26:58: und dann gegebenenfalls auf unterschiedlichen Daten trainiert wurden

00:27:03: und zu gucken, okay, wir werden jetzt einen Satz von Modellen aus

00:27:07: und dann kriegen wir halt eine Verteilung von Vorhersagen

00:27:10: und daraus können wir dann, weiß ich nicht, zum Beispiel,

00:27:13: Mittelwert und eine Standardabweichung bilden

00:27:16: und haben dann unsere Vorhersage.

00:27:18: Das würde ich sagen, ist so, ja, zumindest finde ich,

00:27:23: das ist das, was man sich am einfachsten vorstellen kann.

00:27:27: Und hat natürlich den Vorteil, dass das sehr flexibel ist,

00:27:34: also man kann alle Arten von Maschinenlearningmodellen dafür benutzen,

00:27:38: hat natürlich den Nachteil, dass es gegebenenfalls echt teuer werden kann,

00:27:43: weil, weiß ich nicht, wenn man jetzt dann 20 tiefe neuronale Netze trainieren muss,

00:27:49: das kann ja mal in die Rechenkosten gehen.

00:27:54: Das würde ich so als ersten Schritt sehen, was man da machen kann.

00:28:01: An der Stelle, ich weiß nicht, ob dir das bewusst ist, aber...

00:28:04: Das habe ich online, so was man da machen.

00:28:07: In dem einen Projekt von uns haben wir genau so ein Ensemble mit 20 neuronalen Netzen.

00:28:13: Hast du uns genau getroffen, ist aber tatsächlich in unserem Fall

00:28:17: vertretberuf der Aufwand.

00:28:19: Also die sind verhältnismäßig schnell trainiert

00:28:22: und können am Ende sogar alle in einem Lockercontainer vernünftig laufen

00:28:27: und auch schnell Vorhersagen machen.

00:28:29: Aber du hast natürlich recht, im Endeffekt, ich trainiere dann halt 20 mal so viele Modelle,

00:28:35: als anderenfalls.

00:28:37: Wie hat ihr die denn alle auf den gleichen Daten?

00:28:41: Die müssen wir sogar auf den gleichen Daten trainieren,

00:28:45: weil wir da eine temporale, also eine zeitliche Abhängigkeit haben.

00:28:50: Aber die haben einfach über den Trainingsprozess selber eine gewisse Variabilität.

00:28:57: Ja, also das ist auch so eine Sache.

00:28:59: Zeitdaten und so dieses "leave one out" Strategien, da muss man mal wahnsinnig aufpassen.

00:29:06: Da kann ich mich noch an ein Gespräch auf der letztjährigen pi.com.de erinnern,

00:29:12: wo dann auch relativ ähnlich Maschinen-Daten, Zeit rein

00:29:17: und wo sich dann jemand, der sich sehr mit auskannte, drüber aufgeregt hat,

00:29:22: okay, die haben "leave one out" gemacht

00:29:24: und haben dann immer den dritten Punkt der Zeit-Serie ausgelassen.

00:29:27: Ja, dann kann man sich das auch sparen.

00:29:31: Das ist klar, da muss man ein bisschen nachdenken, wie man das macht.

00:29:36: Aber geht natürlich auch.

00:29:38: Da ist man dann sagt, okay, wir gucken jetzt nur einzelne Jahre

00:29:43: oder hier im Beispiel Wahlumfragen, ja, wir gucken uns,

00:29:47: wir lassen immer einen Wahlzyklus aus auf die Wahl raus

00:29:51: und dann kann man natürlich auch so arbeiten.

00:29:54: Und okay, wir haben die eine Möglichkeit, ich trainiere ein Ensemble

00:30:00: oder die zweite Möglichkeit ist, ich trainiere vielleicht auch das gleiche Modell,

00:30:08: aber mit immer ein bisschen anderen Datensplits, wenn das möglich ist,

00:30:11: eine Art Bootstrapping-Geschichte.

00:30:14: Hast du noch eine alternative Parade, die ich verwenden kann,

00:30:19: wo vielleicht das Modell selber eine gewisse Unsicherheit modulieren kann?

00:30:24: Ja, also da gibt es, glaube ich, so zwei Stichworte,

00:30:30: die man da mal in den Raum werfen kann.

00:30:32: Zu einem gibt es ja von unserer Seite auch schon ein relativ ausführliches Webinar,

00:30:38: dass man sich so dieses Thema Conformal Predictions mal anschaut,

00:30:42: was dann quasi auch wieder so eine Unsicherheit auf ein trainiertes Modell drauflegen kann,

00:30:48: sag ich jetzt mal so, ganz grob.

00:30:51: Aber was tatsächlich in dem Kontext der dieser Metamodelle von Wahlumfragen halt auch oft genutzt wird,

00:31:00: sind so diese Basementon, dass man halt sagt, okay,

00:31:05: wir wollen unsere Modellparameter nicht als einzelne Werte annehmen,

00:31:11: sondern immer als Verteilung selber.

00:31:14: Dass in dem Framework ist dann quasi dieses Unsicherheitsmaß schon quasi mitgeliefert,

00:31:22: weil halt alle Größen, die man rein gibt, beziehungsweise rausberechnet, Verteilung sein können.

00:31:31: Und das kann in Mitte der Wahl sein,

00:31:36: um sich halten zu modellieren, auch unterschiedliche Unsicherheiten zu erkennen.

00:31:42: Genau, das heißt, das sind Modelle, die, also jetzt sind wir schon sehr technisch,

00:31:49: aber wenn ich in meinem neuronalen Netz die Gewichtungsfaktoren habe,

00:31:53: dann sind die jetzt nicht festgesetzt,

00:31:55: sondern ich kann für jeden dieser Gewichtungsfaktoren eine Wahrscheinlichkeitsverteilung annehmen.

00:32:00: Und kann damit entweder Gewichtung machen oder ich habe gesehen,

00:32:04: dass das gibt es sogar auch für die Aktivierungsfunktionen in dem neuronalen Netz,

00:32:09: dass man die auch stochastisch modelliert.

00:32:11: Also, oft ist halt die Sache, würde ich auch sagen,

00:32:19: dass dadurch, dass man da halt viel mehr Freiheit lässt,

00:32:23: oft auch mit viel einfacheren Modellen ausschauen.

00:32:26: Also, dann so, das weiß ich, das reicht halt eine legale Regression mal mit guten Features oder was auch immer.

00:32:34: Aber du hast recht, auch komplexere Modelle sind dadurch auch möglich.

00:32:41: Und dann geht man halt da hinüber.

00:32:45: Genau, das ist natürlich auch in der Findung dieser Verteilungsfunktionen

00:32:51: und dann auch hinterher in dem Computational-Kost auch ein bisschen höher auffahren als ein normales neuronales Netz.

00:32:59: Ja, also, man muss sagen, da hat sich in den letzten Jahren, in den letzten zehn, 15 Jahren viel getan,

00:33:07: dass auf einmal auch Dinge möglich wurden, wo man vorher gedacht hat,

00:33:12: das ist aber recht intensiv, das lassen wir jetzt mal lieber.

00:33:17: Aber klar, so ein bisschen ist man dann halt in der Komplexität der Modelle limitiert,

00:33:22: aber oft braucht man auch gar nicht so komplexe Modelle, dass das trotzdem funktioniert.

00:33:28: Und was man dann halt auch hat, man hat halt eine Verteilung, die man jetzt,

00:33:33: wenn man wieder auf dieses Wahl- und Fragen-Thema geht, wo man dann aus dem Verteilung ziehen kann

00:33:39: und im Grunde viele Szenarien bekommt.

00:33:42: Und jetzt, wenn man jetzt das Beispiel Deutschland zum Beispiel hat, ist ja so eine Stimmverteilung,

00:33:48: ist ja noch nicht das endgültige Ergebnis einer Wahl.

00:33:55: Das endgültige Ergebnis einer Wahl sind Sitze im Bundesrat und nicht 25 Prozent.

00:34:02: Das kann verschieden sein, wie viele Sitze das sind.

00:34:06: Und das ist natürlich toll, wenn man dann viele Szenarien hat und dann halt auch in den Szenarien die Sitzverteilung berechnen kann,

00:34:14: weil ja zum Beispiel es einen Unterschied macht für die Sitzverteilung, ob eine Partei in der Vorhersage 4 oder 6 Prozent hat.

00:34:24: Das ist halt auch so eine charmante Möglichkeit, wenn man dann Modelle trainiert hat, die Szenarien generieren können.

00:34:33: Ja, ein Stichwort dabei noch und dann hat ja Alex gesagt, ich soll darauf achten,

00:34:39: dass seine Freunde mich ausschaltet, wenn wir zu technisch werden.

00:34:42: Aber ein Stichwort, immer wenn ich so verschiedene Szenarien zufällig modellieren will, sind ja auch Monte Carlo Simulation.

00:34:49: Da gibt es noch eine coole Variante zu den besianischen Netzen.

00:34:54: Das habe ich jetzt kennengelernt.

00:34:57: Und zwar, ich kann einfach ein normales, neuronales Netz trainieren,

00:35:01: aber mit Dropoutlayern, also das heißt ja, dass ich bestimmte Neurone ausschalte.

00:35:07: Und das kann ich wiederum mit Monte Carlo randomisieren, also nicht nur im Training,

00:35:14: sondern auch in der Inferenz.

00:35:16: Also ich möchte Vorhersagen machen und ich mache einfach ganz viele Vorhersagen

00:35:19: und zufällig schalte ich mal bestimmte Neurone aus.

00:35:24: Und dadurch bekomme ich unterschiedliche Modellvorhersagen.

00:35:27: So als hätte ich unterschiedliche Modelle trainiert, die unterschiedliche Gewichtungen haben.

00:35:32: Und das ist halt ganz charmant, weil ich nur einmal trainiere

00:35:35: und halt einfach in der Inferenz mir den Zufall mache.

00:35:38: Ist auch noch cool für die Techies, die uns hören, die das Maus probieren wollen.

00:35:43: Das geht halt auch. Es ist wenig Änderungen im Code, um das zu machen.

00:35:47: Das ist ganz cool.

00:35:49: Okay, genau.

00:35:51: Das heißt, zusammengefasst.

00:35:54: Wir haben jetzt herausgefunden, wie einzelne Wahlumfragen aufgebaut sind,

00:36:00: worauf man achten muss, was die repräsentativ macht.

00:36:04: Und wir haben dann gesehen, jetzt habe ich mehrere, jetzt kann ich Zeit rein,

00:36:08: Vorhersagen und mache Metaanalysen.

00:36:11: Hast du dem noch was hinzuzufügen, worauf wir noch speziell achten sollten,

00:36:16: wenn wir jetzt in den nächsten Wochen die Zeitung lesen?

00:36:20: Ja, erstmal Zeitung lesen.

00:36:26: Ist schon mal gut.

00:36:28: Also, es ist glaube ich immer jetzt gerade im Angesicht einer Wahl.

00:36:34: Ich so politisch dürfen wir, glaube ich, werden, gut, die Entscheidung informiert zu treffen.

00:36:39: Das würde ich mal schon sein.

00:36:42: Und vielleicht geben wir auch ein bisschen Anlass,

00:36:45: mal einen genaueren Blick auf so eine Wahlumfrage zu werfen.

00:36:49: Wir kommen ja auch immer als Data Scientist in Projekte rein

00:36:54: und stellen dann viele, im besten Fall eine Menge Fragen und lernen eine Menge

00:37:01: und versuchen dann auch immer so ein bisschen die Probleme zu kategorisieren

00:37:05: und so ein Bauchgefühl zu bekommen.

00:37:08: Was macht es denn hier schwer?

00:37:10: Wo haben wir es denn hier leicht?

00:37:12: Und da habe ich mal so ein bisschen versucht, mich so zum Abschluss in diesen Gedanken

00:37:18: von so einem Data Scientist rein zu versetzen, der so Wahlumfragen macht.

00:37:23: Und der kriegt, glaube ich, wenn man so die Deutschland über die letzten 30 Jahre

00:37:29: begutachtet, immer einen schwereren Job.

00:37:32: Also, es wird, glaube ich, immer schwieriger, gute Vorhersagen zu machen,

00:37:36: weil wir haben es ja schon gesagt, viele Parteien, die an der 5%-Hürde rangieren.

00:37:43: Es gibt halt auch eine viel schwächere Wählerbindung mittlerweile.

00:37:47: Ich glaube, vor 30 Jahren kommt man noch ein Großteil der Wählerschaft durch

00:37:51: sehr einfache Vorhersagen einer Partei zuordnen.

00:37:55: Das wird immer schwieriger und es wird halt auch immer vielfältiger,

00:38:00: was ja auch sich dann auch nach der Wahl widerspiegelt in Koalitionsverhandlungen.

00:38:07: Ich kann mich noch an Wahlen früher erinnern, wo die Frage war,

00:38:12: ja, Rot-Grün oder Schwarz-Gelb,

00:38:14: wirkt ja so ein bisschen aus der Zeit gefallen mit der Weine.

00:38:17: Und das macht natürlich auch die Vorhersagen schwieriger und aber auch relevanter wahrscheinlich.

00:38:24: Was man dann auch sieht, ich habe mal, es gibt ja so Seiten,

00:38:30: so wie Wahlrecht.de, wo einfach die Umfragen alle aggregiert werden von den verschiedenen Instituten.

00:38:39: Dann kann man sich da auch Datensätze runterladen, um eigene Analysen zu machen oder was auch immer.

00:38:45: Ich habe mir einfach mal angeguckt, wie ist das denn über die Zeit?

00:38:50: Sieht man, dass mehr Wahlumfragen gemacht werden.

00:38:53: Und da sieht man das deutlich, dass so in den letzten fünf, sechs Jahren

00:38:59: einiges an Wahlumfragen mehr gemacht wird.

00:39:02: Und man könnte jetzt sagen, okay, das ist vielleicht sogar ein Indikator dafür,

00:39:07: wie turbulent die politischen Zeiten sind, wie relevant das ist, wie Umfragen sind.

00:39:15: Das fand ich ein interessantes Take-Away aus diesem ganzen Thema,

00:39:19: wenn man sich das mal größeren Ebene anschaut.

00:39:22: Das wäre so eine Sache, die ich mitnehmen würde.

00:39:25: Okay, cool.

00:39:28: Ich glaube, an der Stelle sind wir bei 40 Minuten, das passt ganz gut, um die Sache hier abzubinden.

00:39:35: Ich finde das Thema auch sehr interessant.

00:39:37: Wir haben nebenbei ein paar Querverweise zu Dataseins, Info-Recten und zu spannenden Methoden,

00:39:43: die man auch abseits von den Wahlumfragen nutzen kann, gemacht.

00:39:48: Wir zwei treffen uns dann bei dir, würde ich sagen, auf einen leckeren Espresso

00:39:52: und gucken uns mal an, wie die Wahl ausgegangen ist.

00:39:55: Vielen Dank für das Gespräch, Tim.

00:39:57: Und schauen wir mal, welche Podcast-Folge mit dir als Erstes rauskommt.

00:40:01: Ja, es wird ein enges Kopf und Kopf rennen.

00:40:04: Es sieht dann so aus, als ob wir eine sehr produktive Woche gehabt hätten.

00:40:08: Ich habe von einem Institut gelesen, dass ich davon ausgehe, dass unsere zuerst rauskommt.

00:40:13: Aber ich schaue mal, es gab keinen Fehlerbalken dabei.

00:40:16: 70 Prozent.

00:40:18: Bis dann, David. Ciao.

00:40:20: [MUSIK]

00:40:22: [MUSIK]

Neuer Kommentar

Dein Name oder Pseudonym (wird öffentlich angezeigt)
Mindestens 10 Zeichen
Durch das Abschicken des Formulars stimmst du zu, dass der Wert unter "Name oder Pseudonym" gespeichert wird und öffentlich angezeigt werden kann. Wir speichern keine IP-Adressen oder andere personenbezogene Daten. Die Nutzung deines echten Namens ist freiwillig.