Was ist eigentlich eine PCA?

Shownotes

Janis und David sprechen über die PCA und ergründen mögliche Anwendungsgebiete.

Transkript anzeigen

00:00:00: So Ailio Podcast Folge 3 heute wird's konkret es geht um die PCA principal component analysis und ich habe unseren.

00:00:10: Physiker und data scientist und Freizeit Erklärbär David vor mir sitzen hallöchen David Jannis ich hoffe dir geht's gut.

00:00:20: Mir geht's gut bisschen warmes ist denn dein Büro in meinem wo ja es ist super warm ABC nervös.

00:00:27: Du wirst sowieso auch immer her muss man ja sein sonst wird es nicht gut aber ich glaube wir sind mir die Temperaturen die mich schwitzen hassen her kenne wird vorbereitet schweißgebadet perfekte Voraussetzung für ein.

00:00:38: Erzähl gerne einmal ganz großes Gi Group es geht heute um die Pissoir kannst du vielleicht einleitend so leicht.

00:00:47: So kurz wie möglich und so verständlich es geht einmal runter brechen was das eigentlich ist man könnte meinen werden uns gerade erst kennengelernt du fragst mich ob ich es kürzen kann die Antwort ja,

00:01:01: okay the principal component analysis oder Hauptkomponentenanalyse auf deutsch ist im Prinzip nein,

00:01:12: einen Tool aus der Statistik was wir Data-Science Bereich immer mal benutzen was aber quasi mathematisch 4T vergeht du findest im Prinzip,

00:01:21: diese Anwendungen sogar auch in Quantenmechanik oder wie auch immer und im Endeffekt.

00:01:28: Er steckt dahinter dass du einen Datensatz hast der ziemlich hochdimensional ist und hoch korreliert,

00:01:38: und mit der PCI versuchst du den die Dimension zu reduzieren also einen niedrig dimensionaler von Datensatz zu erzeugen der trotzdem möglichst alle Informationen behält man die du da drin hast du dann machst du das ganze handhabbarer,

00:01:52: und kannst das dann vielleicht selber hinterher besser abblocken und kannst schneller und besser damit weiterrechnen oder Dinge.

00:02:00: Deine Modelle werden vielleicht auch effizienter Fingers mal selber spannen und wir kommen gleich.

00:02:06: Zu ein paar Fragen die es dazu gibt aber erzähl doch gerne mal und jetzt mal so ein Kontext zu machen vielleicht von ein zwei Projekten wo die Pisse ich mal verwendet hast.

00:02:16: Grundsätzlich dass das coole daran ist einer der Gründe weshalb ich data-science ganz cool finde man hat so eine Methode wie so ein Schweizer Taschenmesser,

00:02:27: du kannst ja mit die unterschiedlichsten Dinge machen weil alles was du brauchst ist irgendwo ein hochdimensionale korrelierte Datensätze und vielleicht ist es eine gute Idee nafiseh zu benutzen und ich habe das tatsächlich schon gemacht,

00:02:40: in meinem früheren Leben als ich noch Geographie studiert habe und da eine Bachelorarbeit geschrieben habe über.

00:02:48: Die die quasi Beschreibung von niederschlagsvariabilität in Südamerika.

00:02:54: Das war ein Beispiel in anderes Beispiel könnte sein du bist einen online retail shop und du hast ganz ganz viele Kunden die ganz ganz viele Produkte kaufen,

00:03:04: du würdest gerne deine Kunden irgendwie segmentieren in bestimmte Gruppen auch da kannst du vielleicht eine PC benutzen oder,

00:03:13: du bist Mediziner und du hast irgendwie ganz viele Proben von also oft hat man Beispiel oder Anwendungen in der Krebsdiagnostik hast halt Krebs Proben und du hast Genexpression starten.

00:03:27: Und du möchtest gucken.

00:03:30: Welche Gene spielen vielleicht zusammen bei der Entstehung von Krebs oder oder haben einen Einfluss auf die Überlebenswahrscheinlichkeit auch da macht.

00:03:40: Vielleicht sind die PCL zu benutzen.

00:03:42: Das ist natürlich sehr sehr abstrakt kannst du das vielleicht an einem deiner drei Projektbeispiel ein bisschen konkretisieren wo genau an der Stelle du eine PCR verwendet hast oder verwenden würdest.

00:03:53: Du kann ich mich schwer entscheiden nimm das erste ich habe.

00:04:00: Genau in dem indem der Geographie Bachelorarbeit da.

00:04:06: Haben uns ja mit klimageographie beschäftigt und was wir hatten war zum einen einen Datensatz in dem.

00:04:14: Niederschlag in Südamerika gemessen wurde und zwar hat man in 0,5 Grad Schritten Südamerika gerastert in Längengrade und Breitengrade,

00:04:23: und hat dann immer die monatlichen niederschlagsmittel Werte in diesem Daten gehabt das dann noch über den ganzen Zeitraum über den man das aufgenommen hat.

00:04:33: Und hat jetzt also ziemlich viele Niederschlags Rohdaten und was uns interessiert hat war dann können wir quasi das Auftreten dieser Niederschläge können wir das in Beziehung setzen zu atmosphärischen Zirkulationsmuster an.

00:04:47: Und speziell in meinem Fall waren das so Indices die man sich baut aus Druckmessungen an der Wasseroberfläche da gibt's dann den.

00:04:56: Ich glaube der hieß North Atlantic Index es gibt den Safran Oszillation Index über dem Pazifik und was man dann im Prinzip gerne hätte wäre so eine Aussage der Form.

00:05:08: Im Dezember sind die Niederschläge in Brasilien stark beeinflusst von der Variabilität des atlantischen,

00:05:16: Druck Indizes solche Aussagen haben wir da,

00:05:21: auch dann bekommen ja und jetzt habe ich immer noch nicht raus gehört wo die pcf.va tschuldigung genau was Du was zu einem ich also was wir gemacht haben ist.

00:05:34: Wir haben unsere Indizes die stehen und die wollen jetzt mit irgendwas korrelieren.

00:05:39: Und auf der anderen Seite haben wir diese Rohdaten dessen sehr hoch dimensionale Matrix von gemieteten Niederschlags werten.

00:05:47: Und was wir da gemacht haben es darauf genau die PCE angewendet das heißt die PDL.

00:05:54: Liefert dir dann Hauptkomponenten von dieser Niederschlags Matrix und diese Hauptkomponenten die ganz zu interpretieren,

00:06:01: also im Prinzip die wahrscheinlichsten Konfigurationen von Niederschlags Mustern.

00:06:08: Die du dann in diesem Datensatz findest das heißt das kann irgendwie so ein Muster sein.

00:06:14: Starkregen in Brasilien Dürre in Peru oder so also ich erinnere mich jetzt nicht mehr ob es das genau gab aber das heißt es das im Prinzip ja.

00:06:25: Muster in diesem Daten die Du damit identifizierst ich ich greife jetzt vielleicht noch mit einer Frage vorweg vielleicht macht die später mehr sind zu beantworten,

00:06:37: einmal kurz zum Verständnis die die hohe Dimensionalität die kommt durch das Raster zustande weil jeder Rasterpunkt quasi sein eigenes Feature ist sehr,

00:06:45: genau featuren einer Matrix ok ne dann macht das Sinn warum ist denn eine hohe Anzahl von Dimensionen problematisch.

00:06:54: Also zum einen ist es natürlich für uns als Menschen schon mal sehr schwer sich vorzustellen.

00:07:00: Und zum anderen jetzt in in dem genauen Beispiel.

00:07:06: Ist SM auch unwahrscheinlich dass du sagst ich korrigiere den Niederschlag den ich in diesem einen Pixel irgendwo habe,

00:07:13: den korrigiere ich mit irgend einem Index und vielleicht auf dem Nachbar Pixel kriege ich einen komplett anderen Wert raus also wenn du quasi pixelweise diese Korrelation machst,

00:07:22: kriegst du irgendein Flickenteppich vielleicht von Ergebnissen und ich die Aussage an dir du interessiert bist ja eher Anna.

00:07:28: Globalen Aussage interessiert du möchtest ja quasi diese was ich eben gesagt habe Niederschlags Konfigurationen die dich interessieren diese Allgemeinen Muster,

00:07:37: die vielleicht nicht zerstört werden von dem neues den du im lokalen Bereich dann mal hast du solchen Geschichten Keller ist natürlich auch sehr sehr bezogen auf das Problem welches du da gelöst hast na das ist kein Sinn macht diese diese filigranen Dimension zu betrachten.

00:07:53: Am jetzt habe ich mich natürlich auch ein bisschen vorbereitet und jetzt hast du natürlich auch 2-3 Beispiele genannt,

00:07:59: wir können kurz zum Beispiel Switch machen Einrichtungen nehmen wir meinetwegen die die den Onlineshop da hast du jetzt auch eine hochdimensionale Matrix mit Kundendaten irgendwie drin

00:08:10: ich nehme an die die Dimension der Matrix entstehen z.b. durch die Artikel die ein Kunde kauft also als würde man sich

00:08:17: weiß ich nicht ist auch ein anderes Thema nur recommendation Engine zusammenbauen wollen hat man ja auch cool hat diesen Artikel gekauft,

00:08:23: wann trägt man irgendwie die Kunden gegen die Artikel auf und dann entstehen simension

00:08:28: warum macht da denn eine principal component analysis sind da ist das Problem ja ein ganz anderes also dort kann es ja total Sinn machen Kunde kauft

00:08:37: banana

00:08:39: korreliert auf Kunde kauft Apfel oder sowas also da macht dieses dieses filigrane Rastermuster doch unter Umständen sogar Sinn warum würde man denn da eine PCL verwenden

00:08:49: ihr kommt natürlich ganz stark drauf an was im Einzelnen du dann machen willst mit den Daten und wenn du weißt es nicht irgendeine.

00:08:59: Assoziationsanalyse machen willst der Kunde der Äpfel kauft kauft hinterher auch Banane dann ist es bestimmt.

00:09:06: Interessant für dich vielleicht willst du aber auch eher sagen ich habe die Obst Käufer und ich habe die,

00:09:15: was tut Käufer oder so und dann sind vielleicht in dem Fall,

00:09:20: Apfel und Banane eigentlich das Gleiche du hättest es gerne quasi auf einer Achse abgebildet und da könnte dir das helfen allgemein wenn wir sowieso mehr in die machine learning Bereiche com.

00:09:33: Na gibt's auch den Begriff vom curse of Dimension ality in machine learning das heißt die hochdimensionale du.

00:09:41: In dein Parameterraum hast wenn Du hinterher Maschinenmodelle darauf trainierst.

00:09:46: Kannst dir sehr schnell passieren dass die overfitting das liegt daran wenn du sehr hohe Dimension hast dann wird dein Parameterraum da recht also.

00:09:57: Steht immer die deutsche Übersetzung von space also recht recht dünn besetzt.

00:10:02: Und das bedeutet Dein Modell kann auf einmal sehr nah sich an die Daten fitten und bestimmte Dinge auswendig lernen und das sagt dann ja aber die Kunden die haben ja immer nur.

00:10:12: Die Magier mich von irgendeinem mager Milch Hersteller den wir nicht einfällt gekauft und lernen nur das und sobald du irgendwelche anderen Daten da rein gibst können sie nicht mehr generalisieren und da hilft sie auch immer wenn du eine dimensionsreduktion hast du wenn du quasi,

00:10:26: Hauptkomponenten als deine neuen Feature benutzt,

00:10:30: genau da hast du jetzt hast du gerade so das overfitting erklärt dass das Model welches man trainiert ist zu streng mit dem was es kriegt und kann mit neuen Werten nicht so gut umgehen ne

00:10:39: man dafür Ding ist wahrscheinlich entsprechend genau das Gegenteil vielleicht kannst du das andere ganz kurz erklären was anderes hitting wäre ich muss sagen ich gesagt underfitting habe ich,

00:10:49: so in dem Fall auch noch nie gehört es begriffen muss ich selber noch mal nachlesen ja aber.

00:10:55: Was dir natürlich passieren kann ist du machst mit dimensionsreduktion und du die ist zwar so die sein dass du versuchst alle Informationen zu behalten ist kann dir aber natürlich passieren,

00:11:04: dass du mal wichtige Informationen verlierst.

00:11:07: Oh das kann sein dass deine Daten sich nur in den letzten Prozent der Informationen unterscheiden und du sagst dann in deiner pcei ich.

00:11:17: Wähle die so dass die mir immer noch 90% der Varianz meiner Daten erklärt aber deine Daten da scheiden sich halt auf den letzten 10% noch einmal hast du in deinem,

00:11:25: Cassie fire oder was weiß ich was weiß ich nicht schlechte curious EM ich vermute dann,

00:11:31: dass du dass das auch anders für Dingen sein soll ja ich würde vielleicht gehen wir da gar nicht so genau drauf ein habe ich komme dann jetzt ganz gut raus gehört hat was im Kontext dieses.

00:11:42: Viel wichtiger ist ist auf der einen Seite hast natürlich zu viele Dimensionen also du hast einen sehr sehr hoch dimensionale Matrix

00:11:48: und dadurch gehst du sehr schnell in das Problem dass deine Models die du unter Umständen trainierst sehr sehr schlecht mit neuen Werten umgehen können weil nicht generalisiert,

00:11:59: auf der anderen Seite klingt es mir jetzt so als kannst bei einer PCL Gefahr laufen dass du zuviel generalisiert weil du die Dimension zu stark reduziert,

00:12:09: Moment sprechen zu viel Information verlierst und zu ungenau wirst oder habe ich das jetzt richtig mit einem Ohr raus gehört

00:12:17: das ist auf jeden Fall eine der Gefahren dies geben kann wäre schön tatsächlich ich weiß nicht ob wir später noch dazu kommen aber eine Sache die ich ganz interessant finde aus meiner Physiker Zeit hatte ich einen Kollegen der,

00:12:29: hat quasi einen Erweiterung der PC entwickelt und damit auch echt schon viel viel publiziert.

00:12:38: Und man sieht hat er so eine Art krummlinige Hauptkomponenten der nimmt das stwm wenn jemand mal nachgucken will.

00:12:47: Und ein Problem was der da beschreibt dass dir bei der PDA auch passieren kann liegt in der Natur der Sache dass diese Hauptkomponenten von der Hauptkomponentenanalyse dieses sollen alle senkrecht aufeinander stehen.

00:12:58: Das heißt im Prinzip legst du dann ein erste Hauptkomponente in die Daten.

00:13:04: Und dann ist sofort festgelegt dass alle folgenden Hauptkomponenten dazu im orthogonal sein müssen.

00:13:11: Und ist es aber nicht unbedingt gesagt dass deine Daten das auch sind also vielleicht sind deine Daten liegen zwar im Klaren.

00:13:18: Also sind zwar voneinander separierbar aber nicht unbedingt orthogonal separierbar.

00:13:24: Und das wegen das was er macht ist das ist dann so eine Art des also be monotone Regression und der kann quasi krummlinige Hauptkomponenten da reinlegen und kann damit eben auch solche Daten zeperfs,

00:13:35: na interessanter Exkurs ist es natürlich so dass wir noch gar nicht soweit sind ich habe jetzt ganz ganz auf den Begriff Hauptkomponente gehört und er ist für mich jetzt gerade ich meine,

00:13:44: ich darf mich ja vielleicht auch ein Stück weit über stellen als ich bin das ist ja das Schöne in meiner wolle hier aber für mich klingt das jetzt gerade sehr sehr abstrakt Hauptkomponente wir reden jetzt über hochdimensionale Matrizen das ist,

00:13:55: da sind da sind Features drin äpfel Bananen würden das kann man sich super vorstellen ich kann mir vorstellen dass ich mir einen einen einen,

00:14:02: eine Matrix Aufzeichner steht in meinem Name Jannis kauft Apfel drin da habe ich gerade in meinem Namen drin stehen wann kann ich mein Kreuz in reinmachen unter Jannis apfeljahr mit Banane und dann steht da eben feste sich,

00:14:13: mia naturnah Bananen im Supermarkt gekauft habe und jetzt höre ich Hauptkomponenten was ist das.

00:14:22: Im Endeffekt warst du mit einer mit einer pcm8s du versuchst.

00:14:32: Also mathematisch würde man sagen denn Basis wechsel zu vollziehen.

00:14:36: Und zwar so ein dass du quasi deine Koordinatenachsen so geschickt legst das deine Datenpunkte so gut wie möglich entlang dieser Achsen liegen.

00:14:45: Das heißt die 1 und Achsen sind dann die Hauptkomponenten unten Hauptkomponente die soll möglichst viel der Varianz deiner Daten erklärbar machen.

00:14:55: Das heißt deine Daten sollen möglichst entlang diese Hauptkomponente liegen das heißt die komplette Streuung die deine Daten haben ist entlang dieser Achse und nicht quasi,

00:15:04: senkrecht zu der Achse.

00:15:07: Und das wäre vielleicht die visuelle Beschreibung dich von der Hauptkomponente geben kann also eine Achse.

00:15:17: Im Endeffekt eine Achse mathematisch gesprochen ist indess.

00:15:27: Geht es um die Diagonalisierung der Kovarianzmatrix und das bedeutet du versuchst eben.

00:15:35: Deine Daten so zu.

00:15:38: Um zu fahren dass die einzelnen also dass die übrig dein deine neu projizierten Daten möglichst unkorreliert miteinander sind das heißt du hast dann nur noch.

00:15:48: Auf der Diagonalen der Kovarianzmatrix Einträge das sind dann die sogenannten Eigenwerte und wenn man das dann so lineare Algebra,

00:15:58: mäßig betrachtet und herleitet um diese Matrix zu diagonalisieren hat man hilfs Matrix und dies aufgebaut aus den,

00:16:05: nur die Spaltenvektoren sind die sogenannten Hauptkomponenten das sind quasi diese Achsen und dann,

00:16:10: multiplizierst du die an deine Kovarianzmatrix ran und dann durch also genau und dadurch wird die diagonalisiert,

00:16:16: das wäre die mathematische Beschreibung erkennen hauptkomponent jetzt wissen wir ja gar nicht genau wer alles unsere HörerInnen sind das ist ja jetzt die dritte Folge können wir ganz Blumen noch ein bisschen weiter vorne einsteigen ich hätte jetzt,

00:16:31: Korrelation und Kovarianz Matrix gehört kannst du vielleicht beide Begriffe einmal ganz grob erklären.

00:16:38: Genau also wir hatten ja am Anfang gesagt wie wenn das immer dann an wenn wir einen hoch Dimension ein Datensatz sehr korreliert hat Daten haben also die PCR ja genau die PDL und.

00:16:48: Das bedeutet also Varianz ist ja ein Maß für die Streuung einer.

00:16:54: Zufallsvariablen ist hässlich habe irgend eine Variable die kann mehrere Werte annehmen und wie sehr können diese Werte jetzt streuen dafür kann ich die Varianz berechnen.

00:17:03: Und wenn ich.

00:17:05: Die Varianz einer Variable habe dann ist das gleichzeitig die Kovarianz dieser Variablen mit sich selber Kovarianz ist quasi eine Verallgemeinerung des Varianz Prinzips denn ich muss nicht nur mich mit mir selber,

00:17:18: die Kovarianz angucken soll ich kann das auch mit anderen Variablen machen und die stehen dann auch zueinander in Beziehung das heißt ich gucke mir an wie stark korrelieren die.

00:17:27: Das heißt die eine geht hoch geht die andere auch hoch die eine geht runter geht die andere dann hoch oder geht die auch Hunde kann ich ihn wieder positive oder negative Kovarianz haben und jetzt kann ich quasi für alle meine Features,

00:17:39: kann ich mir jeweils die kovarianzen miteinander angucken und kann das in der Matrix schreiben ja jetzt hast du die Kovarianz erklärt was ist eine Korrelation.

00:17:50: Korrelation ist das was ich im Prinzip eben gesagt habe das ist.

00:17:56: Wie verhalten sich also wie steht das Verhalten zweier Variablen miteinander in Beziehung ja das heißt,

00:18:03: geht der Wert der einen hoch was passiert dann mit dem Bett die anderen geht der dann auch hoch oder geht er dann vielleicht Hunde sind die entweder positiv oder negativ korreliert wenn der davon,

00:18:11: Mittel komplett unbeeindruckt ist dann hat man da eine Null dann ist der quasi sind die nicht korreliert und ich würde jetzt gerne meine Daten so darstellen dass die alle.

00:18:22: Nicht korreliert sind und ich dann quasi ja,

00:18:26: also das ist das Ziel von der pc-ok dann haben wir so ein paar Begriffe erklärt jetzt hast du dir große Mühe gegeben die Hauptkomponenten zu erklären oder eine Hauptkomponente was das hilft.

00:18:42: Erklärt was eine Pisse im Einzelnen genau ist haben wir jetzt noch nicht komplett oder sind damit der Definition schon komplett durch was was fehlt dir da noch.

00:18:51: Also was die PCM 8 ist im Prinzip genau das dass die diese.

00:19:00: Dass die quasi diese hauptachsentransformation an der Kovarianzmatrix durchführt das heißt dass die versucht.

00:19:06: Zu meinen zu meinen Daten die Hauptkomponenten und die Eigenwerte zu finden.

00:19:11: An die Eigenwerte sind dann die Werte die auf der Diagonalen der Kovarianzmatrix stehen und was die mir machen ist die geben mir gleichzeitig eine Ordnung meiner.

00:19:19: Hauptachsen vor und sagen dann die mit dem höchsten Eigenwert ist die wichtigste die erklärt die meiste Varianz in den Daten danach das ist die nächst wichtige die erklärt die zweitmeiste und das nimmt dann nach unten ab.

00:19:31: Und.

00:19:33: Was ich dann machen kann in der Pisse ey ich kann einfach definieren wie viele dieser Hauptkomponenten will ich mitnehmen und kann dann über die Eigenwerte mir auch sagen wie viel.

00:19:42: Varianz meiner Daten will ich noch weiterhin damit erklären können also wie viele Komponenten brauche ich.

00:19:49: Und was ich dann mache ist ich benutze diese Hauptkomponenten quasi als neue.

00:19:55: Koordinaten meines Koordinatensystems und projiziere meine Daten auf die das heißt ich mache im Prinzip nur in koordinatenwechsel basistransformation.

00:20:06: Und das heißt ich habe dann was ich eben mache es ich nehme natürlich weniger Komponenten er sich vorher Dimensionen hatte,

00:20:12: und das heißt anstatt dass ich jetzt also vorher hätte ich ja meinen Daten geplottet indem quasi jedes Feature eine Achse wären dann wäre das Leben sehr hochdimensional gewesen jetzt sage ich ab,

00:20:21: mir reichen vielleicht die zehn wichtigsten Hauptkomponenten und dann habe ich irgendwas was vorher 500.000 Dimension wie auch immer hatte auf 10 Dimensionen.

00:20:30: Und ich kann dann auch sagen wie viel Prozent der Varianz meiner Daten ist damit noch erklärt.

00:20:38: Was heißt eingenommen könntest du auch 1000 Dimension auf 2 runter brechen wenn du es möchtest.

00:20:44: Winnetou ist ein bisschen die Funktion also wir können jetzt 1000 Dimensionen auf 2 runter brechen oder auf 10 oder auf 15 da stellen sich.

00:20:55: Im Prinzip zwei Fragen für mich die erste Frage wenn ich das mache dann verliere ich doch bestimmt information,

00:21:02: Arm ist das nicht schlimm und die zweite Frage wäre im Prinzip an,

00:21:09: die habe ich auch immer beim beim neuronalen lernen wenn du mal ganz anderen Kontext aber woher weiß ich eigentlich wie viele Hauptkomponenten bzw auf wie viele Dimension nicht das ganze runterbrechen möchte.

00:21:21: Also da gibt's Problem angepasst unterschiedliche Vorgehensweisen also zum einen ist das was ich eben schon mal angerissen habe,

00:21:29: die ich kann also die PDL gibt mir nicht nur die Hauptkomponenten sondern sie sagt mir auch wie viel Prozent,

00:21:35: der Informationen quasi enthalten die noch über die Eigenwerte das heißt ich kann dann einfach festlegen.

00:21:43: Ich möchte hinterher immer noch mindestens 90% der Informationen in meinen Daten drin haben.

00:21:51: Also wenn ich das z.b. mit scikit-learn mache und da die die PCL benutze in der der library.

00:21:58: Ähm kann ich sogar einfach den Prozentwert angeben und dann habe ich genauso viele Hauptkomponenten wie ich dafür brauche das heißt ich bin dann auf jeden Fall habe ich schon mal im Griff wie viel Informationen nicht verlieren kann mir natürlich passieren dass ich dann noch recht viel Hauptkomponenten habe,

00:22:12: je nachdem was für Daten ich habe das ist also die eine Möglichkeit.

00:22:16: Im Folgenden würde ich dann sagen also wenn ich z.b. das mache irgendwie eisernen preprocessing step vorne machine learning Model sind durch das Entscheidende wie gut ist hinterher mein Model und.

00:22:28: Dementsprechend erhöhe ich oder reduziere ich dann noch mal die anzahl der Hauptkomponenten bisschen und so einem iterativen Prozess bis ich eben das beste Ergebnis für mein Model habe.

00:22:38: Manchmal ist es aber auch so dass ich.

00:22:42: Vielleicht irgendein Problem schon vorgegeben habe ich möchte das auf eine bestimmte Anzahl Hauptkomponenten unterbrechen und dann kann ich auch einfach sagen nimm die ersten vier weil.

00:22:52: Ich möchte eben am Ende sagen das sind die vier wichtigsten Muster oder 44 wichtigsten Hauptrichtung dich in diesem Daten erkennen dann,

00:23:02: lege ich einfach schnell die Zahl fest wie ist das mit dem Informationsverlust.

00:23:11: Der ist vorhanden ist das nicht schlimm Informationen zu verlieren oder ist wie geht man damit um.

00:23:21: Ja das ist.

00:23:25: Dass das kommt dann sehr davon darauf an was du machst also wie gesagt wenn du mir schienen den Modell dann damit trainierst hinterher und das hat hinterher funktioniert super und hat weiß ich nicht 95% Genauigkeiten du bist glücklich.

00:23:39: Dann war er offensichtlich nicht schlimm so wenn das nicht ausläuft und da rein zu Hagen diese Genauigkeit heißt von 90 % Genauigkeit heißt du erhältst hier 95% Sabine Disney ich meine wenn du z.b. also,

00:23:52: z.b. ein classifier trainierst und eine wichtige Metrik ist die curious See oder so ja so und jetzt hast du Zeit hinterher,

00:24:00: offensichtlich geschafft deine Klassen zu klassifizieren das heißt die Informationen die in deinen Hauptkomponenten die du Eis,

00:24:06: Feature für dein Modell benutzt hast waren wohl noch ausreichend für den classicfire,

00:24:10: wenn wir aber auf einmal extrem schlecht ist dann hast du wohl mit deinem Hauptkomponenten zu viel Informationen weggeworfen und vielleicht genau die dir für die Klassifizierung gebraucht hätte.

00:24:19: Dann ist es eine gute Idee mal ein paar Hauptkomponenten mehr mit rein zu nehmen und zu gucken wie wenn wir die jetzt noch die wichtigen Informationen die für die Klassifizierung nötig es kann ja sein dass.

00:24:29: Deine die Klassen die du unterscheiden willst dass die.

00:24:34: Sich dass sie sich in weiten Teilen sehr ähneln und quasi erst in den in den hinteren Hauptkomponenten die Unterschiede auftreten und dann wäre es wichtig dass man die dabei hat.

00:24:48: Wenn ich jetzt meine Dimensionen reduziere dann gehe ich ja davon aus dass ich vorher etwas habe was ich verstanden habe

00:24:56: meint die Features die sind ja super leicht zu verstehen und jetzt breche ich die runter auf irgendwas verallgemeinertes

00:25:01: woher weiß ich denn was mir die PCL versucht zu sagen was ich jetzt da vor mir habe also nehme mal an nicht spreche jetzt 100 Dimensionen auf 4 runter woher weiß ich denn welche Eigenschaften dieser vier Dimensionen haben.

00:25:16: Also erstmal würde ich in Zweifel ziehen dass du immer deine hochdimensionale Daten verstehst also wenn du.

00:25:24: Oder also ich meine.

00:25:27: Ja die haben die haben vielleicht irgendwelche es ihr Einheiten oder so dahinter und die verstehst du aber trotzdem ist es ja zu schwer sich sich das dann im Einzelnen vorzustellen was das bedeutet.

00:25:42: Also wenn du die die Pixel über Südamerika hast und du weißt ja Zeit genau in dem weiß ich nicht Längengrad soundsoviel und Breitengrad soundsoviel habe ich.

00:25:51: 50 l Niederschlag ich meine du verstehst zu aus 50 Liter sind aber im Großen und Ganzen sagt dir das nichts wohingegen.

00:26:00: Vielleicht irgendeine eine Hauptkomponente am Ende Niederschlags Muster darstellt oder oder korreliert mit anderen Dingen wo du sagst ah okay das verstehe ich also,

00:26:12: z.b. ein ein Beispiel was mir einfällt wo man sehr gut hauptkomponent oder in dem Fall waren das dann Signaturen von diesem,

00:26:19: SCCM Projekt verstehen konnte was ich eben angerissen habe von dem Kollegen mit den Krebs als Passionszeit nicht meint er hat ich glaube.

00:26:27: Zwang um die 50 000 Gene.

00:26:31: Ansonsten vielen Patienten und wie viel also wie waren die gehen explosions Niveaus und dass das jetzt im Einzelnen auch erstmal relativ nichtssagend und dann hat er darauf im Prinzip diese.

00:26:43: Schmelz jetzt mal fancy die CIA gemacht scheint sie würde ihn das stören weil es kühler ist aber im Endeffekt raus und was er daraus bekommt er nennt das Signatur nur so eine Art Hauptkomponente.

00:26:54: Krummlinige Hauptkomponente könnt mir sagen so und das in die die erste die er immer findet ist die männlich oder weiblich das heißt der erkennt da drin dann wieder Geschlechter bei bei Männern bestimmte andere Gene exprimiert werden als bei Frauen,

00:27:07: das heißt ist es schon auch möglich dass man Hauptkomponenten interpretierbar macht hinterher.

00:27:12: Man muss aber fairerweise sagen nicht immer also du kannst auch quasi eine gewisse Interpretierbarkeit verlieren.

00:27:20: In einer losen Rolle der Geschichte mir das unglaublich schwierig vor wir wir reden ja letztlich.

00:27:29: Immer über numerische Werte ja das heißt am Ende steht da eine Zahl und,

00:27:34: eine Zahl die verschiedene andere Zahlen zusammengefasst hat das ist ja letztlich genau das was passiert na und diese eine Zahl für sich genau zu verstehen das stelle ich mir jetzt

00:27:44: ja vielleicht auch insbesondere als Aussenstehende Person dieses Podcast

00:27:48: aber sehr schwierig vor mir also ich weiß ich weiß dass du immer ein bisschen zurück zockst wenn wir zu sehen die Mathematik gehen aber,

00:27:57: noch mal vielleicht erst kleiner versucht diesbezüglich weil du es probierst im Prinzip ich habe ja gesagt wenn man sich noch erinnert ist so eine so eine,

00:28:07: hauptachsentransformation ist im Endeffekt ein Basiswechsel das heißt ich habe vorher meine Feature wo du wa,

00:28:13: jetzt mal die mutige Behauptung gemacht hast dass du die alle verstehst mehr so und jetzt,

00:28:19: und jetzt wissen die die Achsen quasi deiner alten Basis meines alten Koordinatensystems und jetzt wirst du in neues,

00:28:27: mist das über deine neuen Hauptkomponenten darstellen was du da machst ist eine Linearkombination das kennt man wenn man lineare Regression oder so oder logistische Regression schon mal benutzt das Essen ja auch,

00:28:41: die die Linearkombination on and effect.

00:28:47: Kannst du jetzt jede deiner kannst du jetzt deine Hauptkomponenten in der Linearkombination dir angucken und kannst dann gucken okay was sind die Koeffizienten.

00:28:57: M dich quasi als Gewichte von meiner alten Feature schreibe und dann kannst du sagen ok in die Hauptkomponente geht so und so viel Gewicht von dem Feature rein und so und so viel Gewicht von dem anderen feature,

00:29:08: und vielleicht kannst du damit dann zu einer Interpretation zu einer besseren Interpretationen Hauptkomponente kommen.

00:29:14: Na das klingt spannend und ich hoffe man versteht das.

00:29:20: Ich sag mal wir wir wir denken jetzt gerade in diesem Moment gemeinsam darüber nach dass wir quasi nach dem Podcast bei Gelegenheit das kann ein paar Monate dauern vielleicht auch so ein kleines du wieder Notebook bzw so eine einfach,

00:29:35: einfach nur.

00:29:36: Na blogger Tegeler zu bereitstellen damit man den Themen vielleicht noch mal ein bisschen besser folgen kann man sich das auch visualisieren kann ich glaube das ist nicht mehr ganz einfach sich das bildlich vorzustellen aber manchmal hilft es auch einfach sich Sachen bildlich vor ich würde auch jedem empfehlen.

00:29:51: Ähm auch wenn man nicht auf uns warten will bis wir das dann veröffentlicht haben es gibt ja super Visualisierung oder Tutorials wo man einfach ja ich glaube wenn wir mit dem Irish data set macht man ganz oft PCs und.

00:30:05: Dann kriegt man eine visuelle Vorstellung die hilft,

00:30:08: ah jetzt haben wir sehr viel darüber geredet was die PCR eigentlich ist die haben so ein paar Begriffe angestoßen vielleicht gehen wir einmal ein bisschen mit in die

00:30:18: Praxis am gibt es irgendetwas was man vorbereiten muss wenn man eine PCA macht im Sinne von weiß ich nicht Normalisierung Skalierung muss man die Features vorher schon ein bisschen vorsortieren am gibt es da Sachen,

00:30:33: also die vor allem der erste. War schon eine wichtige Antwort PC ist relativ sensibel was Ausreise angeht.

00:30:43: Weil die ja Prinzip auf den Varianzen beruht und was heißt es ist.

00:30:49: Man Best Practice dass man wo man die PDL macht die daten normalisiert.

00:30:56: Was ist denn noch mal eine Normalisierung typischerweise versucht man.

00:31:04: Den Mittelwert zu Entferner so auf Mittelwert 0 zu setzen und die Ware Aldi Standardabweichung auf einzusetzen das heißt wenn man irgendwie z.b. den pfeifenständer Zähler benutzt der zieht von allen Variablen erst IN Mittelwert ab und teilt die dann durch die.

00:31:20: Standardabweichung und das heißt jedes Feature hat dann Mittelwert 0 und Standardabweichung 1 und das heißt ich habe die quasi alle.

00:31:30: Die gleiche Skala gefragt re skaliert,

00:31:33: ah jetzt geht's ja bei der der der apiserum dimensionsreduktion Osama schon klar gemacht aber macht es Sinn also wir wir wir reduzieren lässt sich die Anzahl der Features.

00:31:46: A mach das denn die Features vorzusortieren und jetzt ein Beispiel sagen geht dieses Feature das ist wahrscheinlich unrelevant das Schmeißer Weg für die PS2 das interessiert uns gar nicht oder korrumpiert man sich damit die P-Serie unter Umständen oder hat den Personen Baez Ergebnis.

00:32:04: Also da die PDL ja.

00:32:07: Quasi genau dazu genutzt wird die Feature zu dekorieren wüsste ich jetzt nicht warum du das vorher selber versuchen solltest das heute Jan Ergebnis dann der PCL sein.

00:32:18: Also ist habe ich jetzt nie gemacht okay.

00:32:21: Lass mal so stehen also wie gesagt das weiß einfach nur mal so frei raus ne Frage weil man man knight ja durchaus dazu ich bin gerade bei dem bei der linearen Regression was jetzt ein ganz anderes Thema ist macht es natürlich total Sinn bestimmte Features zu betrachten und andere nicht,

00:32:35: und es hat ja sein können dass das bei der PCR jetzt aus deiner Sicht endlich ist,

00:32:41: ist aber auch nicht so schlimm so wir sind jetzt im Prinzip bei einer halben Stunde angekommen ich habe mal eine Fake Check Frage,

00:32:50: ich habe es jetzt mehr oder weniger schon raus gehört und mir ist es damals.

00:32:57: Halbschwer aufgestoßen als ich als ich das gesehen habe und zwar habe ich mir irgendwann vor vor,

00:33:06: geraumer Zeit mein youdemi Kurs gebucht und der hat es sehr sehr viele gute Bewertungen und auch sehr sehr viele Kursteilnehmer erinnern und dort wurde ein Satz,

00:33:17: gesagt der lässt sich mehr oder weniger am gesagt hat dass die PCM reines pre-processing von Daten ist.

00:33:27: Weiter nicht für die Models oder sowas verwendet wird.

00:33:32: Würdest du sagen das ist eine wahre Aussage oder würdest du ihr einen gewissen Fehler unterstellen.

00:33:42: Also wenn ich jetzt anders Beispiel meine Geographie Arbeit denke dann sind ja quasi die.

00:33:49: Die Hauptkomponenten auch ein zentrales Ergebnis der Arbeit also nicht nur eine Vorverarbeitung sondern ich gucke am Ende wirklich wie stark korreliert was mit diesem Hauptkomponenten und die definiere ich dann als die.

00:34:01: Hauptsächlichen Niederschlags Konfiguration insofern würde ich sagen es ist dann nicht nur eine Vorverarbeitung,

00:34:08: ja genau das ist also ich habe mir das jetzt nicht so vorgestellt wie du es dir vorgestellt hast aber genau das war ja auch mein Gefühlen aber letztlich.

00:34:17: Kannst du ein unglaublich komplexes,

00:34:20: Themen signifikant vereinfachen und mit Hilfe dieser Vereinfachung entsprechend auch ein machine learning Model trainieren

00:34:30: na das bedeutet dass spielt sehr sehr direkt auch in das Ergebnis rein ist im Prinzip außen sehr sehr schönes Beispiel dafür dass nicht alles was man vorgetragen kriegt immer richtig sein muss auch wenn es gut bewertet ist,

00:34:42: gewisse Aussagen inklusive dieses Podcasts auch immer schön mit Vorsicht zu genießen sind

00:34:48: haben wir schon einen offizielles faktenchecker Team über alles was wir hier Verbrechen das weiß ich nicht, vielleicht unsere Hörer und Hörerinnen ja ich meine man muss dazu sagen dass wir das ja vorher nicht,

00:35:02: üben was wir hier so sagen das heißt ihr müsst Émilie mit uns sein ja das stimmt jetzt,

00:35:11: einfach mal so gefragt also für mich ich bin total zufrieden jetzt mit dieser Folge aber hättest du noch etwas worüber du reden wollen würdest uns zusammen an dieses Thema.

00:35:21: Vielleicht wenn ich mir die Folge an höre wird mir die der Gedanke gekommen dass hätten wir mal besser anders erklärt umgeschrieben aber,

00:35:31: für jetzt denke ich wir haben unser Bestes gegeben

00:35:34: wir haben unser Bestes gegeben na gut versucht genau und Zweifel am können wir auch gerne noch eine zweite Folge dazu machen wie gesagt wie er wieder arbeiten irgendwann bestimmt auch an einem kleinen Blogartikel dazu die man veröffentlichen kann oder einen Jupiter Notebook auf Github welches man einsehen kann

00:35:51: ohne Netzteil zuviel Druck mitmachen zu wollen,

00:35:54: am aber ich denk dass das schon selber sinnvoll ist und auch sehr sehr einen ein sehr guter Versuch war mal ein ziemlich komplexes Thema.

00:36:03: Sei mal auditiv zu erklären und demnächst dann mit Bildern und blood

00:36:09: ja vielleicht nein da wir arbeiten dran sei mal so ansonsten bleibt natürlich nur zu sagen also gibt diverse Feedback und Wunsch Kanäle also

00:36:19: alle Personen sind herzlich eingeladen damals zuschauen und ich bedanke mich für deine Zeit David

00:36:24: und wir hören uns ganz ganz ganz sicher noch mal auch in diesem Podcast ich bin gespannt vielen dank dir auch supi Jessi.

Kommentare (2)

Janis von Ailio

Besten Dank fuer das Feedback! Ich reiche es mal an David durch ;-) Dein Einwand mit dem Preprocessing stimmt natuerlich. Ich habe mich im Podcast auf einem Kurs bezogen, der es sich mit der Argumentation "da die PCA nur reines Preprocessing ist koennen wir keine Aussagekraeftigen Informationen daraus ziehen und machen hierzu jetzt kein Workbook" sehr leicht gemacht hat das Thema zu umgehen. Da wir bei uns im Podcast noch nicht ueber SVMs gesprochen haben, lade ich dich bei Interesse sehr gerne ein dies mit mir zu tun 🙂

Jochen Wersdörfer

Hallo Janis, hat mir gut gefallen :). In eurem Büro ist noch etwas viel Hall, aber klingt schon viel besser als in der ersten Episode. Die Erklärung zu PCA fand ich super. Ist PCA nur Preprocessing? Ich würde spontan auch dazu tendieren, solche Verfahren als Preprocessing aufzufassen, wenn es nur darum geht, ein Modell zu trainieren. Denn da ist Dimensionsreduktion eben ein Schritt in einer Pipeline zum Erzeugen der Feature-Matrix, die dann an das Modell übergeben wird. Und wenn ich ein Modell wie xgboost habe, das nicht damit klarkommt, wenn diese Matrix sparse ist, dann mache ich halt vorher PCA (ich nehme meist SVD). Viele Grüße Jochen

Neuer Kommentar

Dein Name oder Pseudonym (wird öffentlich angezeigt)
Mindestens 10 Zeichen
Durch das Abschicken des Formulars stimmst du zu, dass der Wert unter "Name oder Pseudonym" gespeichert wird und öffentlich angezeigt werden kann. Wir speichern keine IP-Adressen oder andere personenbezogene Daten. Die Nutzung deines echten Namens ist freiwillig.