Data:Unplugged Recap - Datenplattformen, AI und Kaffee!
Shownotes
Endlich mal wieder eine Folge von David und Janis! <3
In dieser Folge gibt es einen kleinen Rückblick auf die Data Unplugged 2025. Dabei gibt es jeweils einen inhaltlichen Abriss der gehaltenen Masterclasses "Datenplattform 360°: ETL, Persistierung & Governance für nachhaltige Datenstrategien" und "Kaffeebohnen und KI-Algorithmen - Ein Data Science Rezept für die Fertigungsindustrie".
Die kompletten Masterclasses gibt es bei uns natürlich auch! Kontaktiert uns dafür einfach.
Transkript anzeigen
00:00:00: Sehr gut, ein neuer Tag, neuer Podcast-Folge, Pizzatag heute, Eingangsfrage, die gewöhn ich
00:00:06: mir jetzt mittwochs an.
00:00:07: Was war deine Lieblingspizza?
00:00:09: Uuh, erst mal hi, Janis.
00:00:12: Ach.
00:00:13: Und Lieblingspizza heute, Pizza-Fungi mit Pesto.
00:00:17: Ja, war auf jeden Fall interessant.
00:00:19: Ich muss sagen, also hallo ich bin David, wir haben uns ja schon gesehen, von daher
00:00:23: sind die Höflichkeitsfloske ein bisschen unter den Tisch gefallen.
00:00:26: Wir nehmen Podcasts ja üblicherweise mittwochs auf am Pizzatag, bei uns bei Elio.
00:00:34: Und beim letzten Pizzatag ist die Auswahl auch auf hohe Begeisterung gestoßen, seitens
00:00:40: Tim, der der letzte Gast war.
00:00:42: Also David, du hast ein gutes Gespür.
00:00:44: Ja, das heißt, Alex, weil du das hörst, sei ruhig häufiger nicht da.
00:00:49: Wir kriegen das hin mit der Pizza.
00:00:51: Das will ich so nicht sagen.
00:00:52: Wobei ich auch, also ich bin wirklich freuen von wilden Pizzen.
00:00:55: Ich muss sagen, auch meine Hackfleisch, Meistpizza heute, die hatte Stil, die hatte was.
00:01:01: Doch, kann man sich mal trauen.
00:01:03: Hackfleisch ist der rote Faden bei dir.
00:01:05: Letzte Woche hatten wir die Burger, irgendwas Pizza und das war de facto auch Hackfleisch.
00:01:11: Ja, natürlich.
00:01:12: Ja, ja, ich würde sagen, letzte Woche war noch ein bisschen wilder als diese Woche.
00:01:15: Die Sauregurke, ne?
00:01:16: Die war es.
00:01:17: Sauregurke.
00:01:18: Zitat Janis, das muss man können.
00:01:19: Das muss man sich erst mal trauen, genau.
00:01:22: Ja, nee, und diese Woche hat die Sauregurke gefehlt, aber trotzdem war auch gut.
00:01:27: War ein guter Pizzatag.
00:01:28: Ja, die Folge ja jetzt, Wecap Data & Plugged, die Data & Plugged vielleicht als Hintergrund.
00:01:33: Wie würdest du die Data & Plugged mit deinen eigenen Worten beschreiben?
00:01:37: Du meinst jetzt dieses Jahr oder grundsätzlich als Datenfestival?
00:01:42: Sowohl als auch.
00:01:44: Ja, groß.
00:01:46: Überraschend groß.
00:01:48: Also ich glaube, es waren 6.500 Leute.
00:01:51: Das war für mich in der Größenordnung jetzt das erste Mal.
00:01:55: Ich kenne das eher mit ein paar Hundert Leuten.
00:01:59: Cooles Flair.
00:02:02: Also es war zwar nicht mehr diese Skatehalle, aber es hatte noch den Charme enthalten mit
00:02:09: Food Trucks und allgemein, was mich abgeholt hat, war eine sehr lockere und ungewungene
00:02:17: Umgangsform.
00:02:18: Im Vergleich zu vielleicht eher förmlichen Events.
00:02:22: Das fand ich sehr gut.
00:02:24: Und dann aber auch lang.
00:02:26: Also für uns dann de facto drei Tage, jeder Tag nicht vor 12 Uhr geendet.
00:02:32: Man muss also sowohl inhaltlich Stehvermögen haben als auch hinterher dann an der Bar.
00:02:39: Da weiß man auch, was man getan hat.
00:02:43: Ja, vielleicht auch hier eine Datenfestival ist so ein schönes Wort.
00:02:47: Letztendlich war das ja, ich will sagen, wie kann man das nennen, Fachveranstaltung?
00:02:54: Es hatte einen fachlichen Themenschwerpunkt auf Data Science, Machine Learning, Datenplattform,
00:02:58: alles rund um Daten, Infrastruktur und IT.
00:03:01: Und da so ein Festival mit 6.000 Leuten ist schon nicht schlecht.
00:03:06: Das war auch das Größte, wo ich bisher war.
00:03:08: Ich glaube die Picon, die könnte sich in ähnlichen Dimensionen bewegen, ist aber auch
00:03:13: ja, ich sage mal weniger spezifisch.
00:03:15: Ja, würde ich sagen Podcast nächste Woche, dann kannst du unser Picon-Team dazu befragen.
00:03:20: Ja.
00:03:21: Ja, ich muss auch sagen, ich glaube ich könnte auf die gleiche Data Unplug noch mal gehen.
00:03:27: Mir würde nicht langweilig, weil ich neue Dinge sehen könnte.
00:03:30: Also man kann ja nicht alles mitnehmen.
00:03:31: Man kann nicht jeden Talk hören, nicht mit jeder Person gesprochen haben.
00:03:35: Es ist wie ein gutes Konzert, also ein gutes Festival.
00:03:39: Da gibt man sich zwar Mühe, möglichst viel rauszuholen, aber ...
00:03:43: ... aber Janis, wir müssen in medias Reskin wissen, ganz schön talky in diesem Podcast.
00:03:47: Wenn das für dich okay ist, lass uns mal mit deiner Masterclass anfangen.
00:03:51: Mit meiner Masterclass.
00:03:53: Ich finde die passt ...
00:03:54: ... also es war ja auf der Data Unplug anders.
00:03:58: Das Los hat dir entschieden, dass ich gestartet habe und du geendet hast, ...
00:04:02: ... aber eigentlich geht es ja mit dir los, wenn wir zusammen an einem Projekt arbeiten.
00:04:07: Wie war der Titel deiner Masterclass?
00:04:09: Ja, 360 Grad Datenplattform.
00:04:12: Genau.
00:04:14: Wir hatten beide eine Masterclass und mein Fachgebiet ist typischerweise mehr ...
00:04:19: ... ich sage mal Data Engineering beziehungsweise, ich würde fast sagen Platform Engineering.
00:04:22: So klassisches Data Engineering in Sinne von Query Optimierung, ...
00:04:26: ... was man da nicht alles machen kann, das mache ich ja gar nicht so wirklich.
00:04:30: Ich baue im Prinzip immer so ein paar Pipelines zusammen.
00:04:33: Muss aber auch auf relativ wenig Sachen achten, glücklicherweise.
00:04:37: Ich habe dafür aber sehr viele Systeme, mit denen ich gleichzeitig interagiere.
00:04:41: Entsprechend würde ich mein Titel mittlerweile nicht mehr nur als Data Engineer ...
00:04:45: ... Phrasen oder Frame, sondern eben auch als Plattform Engineer.
00:04:49: Und in dem Bereich war dann eben meine Masterclass, ...
00:04:52: ... in der es primär auch darum ging, dass man verschiedene Arbeitsweisen ...
00:04:56: ... mit Daten ermöglichen möchte und ich sage mal unter den Schirm von Data Governance ...
00:05:02: ... hängen sollte.
00:05:04: Ich habe ja, ich saß ja drin in deiner Masterclass, ich kann mich noch grob erinnern, aber ...
00:05:10: ... ich glaube der erste, eine deiner ersten Folien, ...
00:05:14: ... war ja die, was sind denn die zentralen Elemente einer Datenplattform?
00:05:19: Vielleicht können wir ja da nochmal einsteigen.
00:05:22: Ja, genau die Grund oder die, ich sage mal da wo es startet, ...
00:05:26: ... ist ja typischerweise haben wir verschiedene Quellsysteme, verschiedene Datenhaltender ...
00:05:30: ... Systeme und da will man einen zentralen Zugriffspunkt für schaffen.
00:05:34: Das heißt sowohl die verschiedenen Datenhaltenden Systeme sind Teil einer Datenplattform ...
00:05:38: ... als auch die Zentralisierung dieser Systeme in zum Beispiel ein Data Warehouse.
00:05:43: Das ist eben einer dieser fünf Punkte gewesen.
00:05:45: Ein anderer der fünf Punkte waren die ETL Strecken.
00:05:49: Ich muss jetzt gestehen, ich habe die Folien gar nicht mehr vor mir, ...
00:05:51: ... aber ich kann mich an das meiste zum Glück noch erinnern.
00:05:54: Das waren die ETL Strecken, das heißt wie bewegen sich Daten eigentlich durch das Unternehmen?
00:05:59: Das würde ich eben auch als Teil der Datenplattform sehen.
00:06:02: Der dritte Punkt war die Data Governance.
00:06:05: Da fällt extrem viel drunter.
00:06:08: Ich habe es im Vortrag ein bisschen gesplittet.
00:06:10: Die Data Governance als solches war im Vortrag eher ein Berechtigungskonzept.
00:06:15: Wer hat worauf Zugriff und wie werden Daten gesehen?
00:06:19: Und ich habe am Rande auch das Auditing erwähnt.
00:06:22: Vielleicht analog dazu könnte man auch Logging sagen.
00:06:25: Aber im Prinzip, wer greift wann auf welche Daten wie zu?
00:06:28: Das fällt unter dem Begriff Governance.
00:06:32: Der vierte Punkt dieser 360 Grad Datenplattform war die Discovery.
00:06:39: Das heißt Katalogisierung von Daten.
00:06:41: Und damit meine ich nicht, dass man Tabellen irgendwie in einem Data Warehouse hat, ...
00:06:46: ... sondern einfach, dass man Meterinformationen von Tabellen verfügbar macht und durchsuprbar macht.
00:06:51: Damit du zum Beispiel als Data Scientist siehst, mit welchen Daten kannst du prinzipiell arbeiten?
00:06:57: Wo liegen sie?
00:06:57: Wen musst du fragen, um darauf Zugriffe zu kriegen?
00:07:00: Und das fällt quasi mit unter dem Begriff Discovery und wurde in den letzten Jahren auch zunehmend wichtiger.
00:07:06: Und der letzte Teil ist letztlich der Service Teil.
00:07:09: Also wir wollen ja auch mit diesen Daten arbeiten.
00:07:11: Wir wollen was damit machen.
00:07:13: In unseren Kontexten ist es oft Machine Learning und Data Science.
00:07:15: Deswegen stand das auf den Folien, dass wir das eben auch als Teil der Datenplattform-Lösung sehen.
00:07:21: Tendenziell Dashboards, tendenziell alle möglichen Anwendungen würden dann entsprechend auf den letzten Punkt zufallen.
00:07:29: Das heißt alles, was irgendwie mit diesen Daten interagiert.
00:07:32: Und wenn ich mich richtig erinnere, hast du dich selber ja im Vortrag nicht nur Plattform-Engineer genannt, ...
00:07:38: ... sondern auch Wunschfee.
00:07:40: Kannst du das nochmal erklären?
00:07:42: Wem erfüllst du denn alles Wünsche?
00:07:44: Ich glaube allen.
00:07:46: Letztlich, finde ich, ist das auch ein sehr treffender Titel.
00:07:50: Und am Ende geht es ja darum, dass du zum Beispiel mit den Daten arbeiten möchtest.
00:07:56: Und du möchtest vielleicht eine Plattform haben, auf der du unterwegs sein kannst.
00:07:59: Du brauchst da ein Comput.
00:08:01: Du brauchst da Berechtigungen.
00:08:02: Du willst dich da bewegen können.
00:08:04: Und letztlich kannst du entweder Entscheidungen selbst treffen oder du fragst jemanden, wie jetzt mich.
00:08:10: Und der dich bestenfalls dabei unterstützt und dir erstmal die Grundlage legt.
00:08:14: Der dich mit Daten versorgt.
00:08:16: Der dir die Plattform stellt und solche Sachen.
00:08:19: Und das wäre jetzt eben ein Beispiel, wo ich quasi deine Wunschfee wäre, wo du dir sagen könntest ...
00:08:24: ... oder wo du dir Sachen wünschen würdest, die ich realisiere.
00:08:27: Ein anderes Beispiel wäre auch für Alex Fegel, den hatte ich ja auch im Vortrag eingebunden.
00:08:33: Er ist jetzt kein Data Scientist, kein Programmierer.
00:08:36: Er möchte unter Umständen trotzdem mit Daten arbeiten und er möchte diese Daten trotzdem irgendwie bereitgestellt haben.
00:08:42: Und auch diese Bereitstellung, die würde eben oder läuft im echten Leben sehr, sehr häufig über mich.
00:08:48: Indem ich dann entsprechend irgendwelche Datenpipelines baue und sie ihm bereitstelle dann einfach.
00:08:53: Ja, er an der Stelle auch nochmal lob an dich.
00:08:56: Ich finde tatsächlich, das war eines der Highlights deines Vortrags, wo du auch einfach sehr anschaulich gezeigt hast, ...
00:09:03: ... wie die unterschiedlichen Personen damit arbeiten.
00:09:05: Also du in deinem Pitchum Setup, der Hardcore Developer, Highly Customized ...
00:09:12: ... mit allen Plugins und Connectoren, der da seinen Code schreibt.
00:09:16: Ich als jemand, der das vielleicht könnte, aber nicht so gut und ist nicht so sehr will ...
00:09:22: ... und der lieber auf der einen Plattform in Notebooks auf die Daten zugreift und alles schon an einem Ort hat ...
00:09:30: ... mit den Berechtigungen und dann der Alex, der sagt, ich kann Deutsch, ich kann Englisch, ich habe Fragen.
00:09:39: Bitte beantworten mir die.
00:09:42: Sind im verschiedenen Schwerpunkt und Interessen.
00:09:45: Ich glaube, das was ich ja auch gesagt habe, ich bin die Wunsch-Wee.
00:09:49: Data Scientist habe ich vielleicht auch als Metzger der guten Software-Entwicklung gefrased.
00:09:53: Aber was ich dazu auch sagen muss, die Schwerpunkte sind ja schlichtweg andere.
00:09:58: Also ich lebe ja überwiegend im Code, ich schreibe Code, ich lebe in der IDE.
00:10:04: Ich habe ja überhaupt kein Problem damit, aber wenn ich jetzt ein Data Scientist von der Uni hire, ...
00:10:10: ... der wahrscheinlich gute mathematische Kenntnisse hat oder ein Mathematiker oder ein Physiker, so wie du jetzt einer bist, ...
00:10:16: ... aber dafür keinen tiefgreifenden technischen Schwerpunkt in seiner Laufbahn hatte, ...
00:10:21: ... dann sind natürlich die Ansprüche andere.
00:10:23: Und das Tolle ist eben, dass man mit diesen verschiedenen Ansätzen eben alle Leute in irgendeiner Weise integrieren kann.
00:10:34: Und dir in dem Fall auch eine Plattform bereitstellen kann, die du einfach nutzen kannst, ...
00:10:39: ... ohne dass du tiefgreifende technische Kenntnisse über alle Prozesse haben musst und ohne dass du Angst haben musst, ...
00:10:43: ... dass du irgendwas produktiv abreißt.
00:10:46: Das ist halt genau eine der Schwerpunkte in dieser Veranschaltung gewesen für mich.
00:10:50: Ja, genau, vielleicht auch noch mal dahin, ich glaube du hast es gerade schon mal erwähnt, ...
00:10:56: ... die ganzen unterschiedlichen Systeme, die wir haben.
00:11:00: Weil leider starten wir ein Projekt ja nicht in der Datenplattform, ...
00:11:04: ... sondern wir müssen Daten aus anderen Systemen erst mal dahin bekommen ...
00:11:09: ... und haben da jetzt noch verschiedene Challenges.
00:11:11: Also irgendwie mein CRM-System, lebt irgendwo, mein ERP-System lebt irgendwo anders.
00:11:17: Ich habe vielleicht noch Sensor-Daten aus der Fabrik.
00:11:20: Alles ändert sich, alles wird vielleicht voneinander auch beeinflusst.
00:11:27: Was war denn dein Vorschlag?
00:11:29: Wie führen wir das zusammen?
00:11:31: Was ist der Kleber in der Mitte vielleicht?
00:11:35: Ja, erst mal wo soll es hingehen, da angefangen ist die häufigste Antworten Data Warehouse, Data Lakehouse, ...
00:11:42: ... wie jetzt in unserem Fall Databricks.
00:11:45: Das ist dann erstmal so eine Grundvoraussetzung.
00:11:48: Also man hat viele, viele, viele verschiedene Daten, man hat nur große Datenmengen, ...
00:11:52: ... man hat verschiedene Datentypen und die legt man eben am liebsten im Data Warehouse ab.
00:11:59: So jetzt weiß man wohin das Ganze gehen soll und jetzt muss man sich natürlich ...
00:12:02: ... und das ist ja deine Frage überlegen wie ist der Weg dahin.
00:12:05: Und an der Stelle habe ich im Vortrag den Data Integration Layer vorgeschlagen.
00:12:11: Das heißt, dass man die Daten nicht direkt ins Data Warehouse, Data Lakehouse schreibt, ...
00:12:16: ... sondern ich sage mal eine Mittelschicht reinschreibt, ...
00:12:20: ... von der aus die Daten dann ins Data Warehouse, Data Lakehouse gehen.
00:12:25: Warum jetzt die Mittelschicht?
00:12:27: Ganz einfach, es geht ja nicht nur darum, dass Daten ins Data Warehouse geschrieben werden, ...
00:12:31: ... sondern unter Umständen müssen auch verschiedene Anwendungen untereinander kommunizieren.
00:12:35: Als Beispiel hatte ich im Vortrag ganz explizit gesagt, ...
00:12:40: ... dass man sich einfach mal vorstellen kann, dass jetzt der Support angerufen wird von einem Kunden.
00:12:45: Und der Kunde sagt, mein Adress hat sich geändert.
00:12:48: So diese Adressänderung wird dann ins CRM System geschrieben ...
00:12:51: ... und die muss eben an verschiedenen anderen Stellen im Unternehmen gespiegelt werden.
00:12:54: Wie jetzt zum Beispiel MEAP System, weil dort womöglich der Lieferschein rauskommt.
00:12:59: Das heißt, wir wollen diese Adressänderung einmal im Data Warehouse haben, ...
00:13:04: ... weil das Data Warehouse das CRM spiegeln soll.
00:13:07: Und andererseits wollen wir diese Adressänderungen eben auch im ERP System haben, ...
00:13:11: ... weil diese Information von hoher Relevanz ist.
00:13:14: Und genau da ist eben dieser Data Integration Layer eigentlich eine sehr, sehr schöne Methode, ...
00:13:18: ... weil alle Anwendungen dort ihre Daten entsprechend bereitstellen können, ...
00:13:22: ... als Datenprodukte und andere Anwendungen sich diese Daten dann in Anführungszeichen abholen können ...
00:13:27: ... und auf ihre eigene Weise verarbeiten.
00:13:29: Muss man nicht immer so machen, wenn jetzt klar ist, wir wollen eher alles nur ins Data Warehouse schreiben, ...
00:13:34: ... dann kann man es gerne so machen.
00:13:36: Aber der Data Integration Layer ist eigentlich ein sehr, sehr guter Ansatz, ...
00:13:39: ... aber den ich, ich glaube die letzten vier Jahre, in denen ich hier arbeite, ...
00:13:43: ... in jedem ETL-Prozess drin hatte.
00:13:46: Das ist schon ein starkes Argument dafür, dass der nicht so ganz dumm sein kann, ne?
00:13:50: Ja, genau. Der hat auch eine gewisse Ausweissicherheit. Also das ist alles sehr, sehr schick da drin.
00:13:55: Ja, genau. Und jetzt erst mal super für mich. Die Daten sind da. Ich kann damit arbeiten.
00:14:05: Und jetzt willst du mich aber vielleicht nicht ganz wild darauf loslassen und mir alles erlauben.
00:14:12: Also vielleicht musst du mich ja an der einen oder anderen Stelle an die Kette nehmen, ...
00:14:16: ... Dinge, die ich sehen darf, Dinge, die ich nicht sehen darf.
00:14:19: Und ich habe ja noch die Anforderung, ich baue irgendeinen Machine Learning Modell ...
00:14:24: ... und das wird auditiert und irgendjemand will von mir wissen, was ist denn da eigentlich reingegangen, ...
00:14:30: ... wie kommt das zustande und kannst du nachweisen, dass das alles nur ein Bedatem passiert ist, ...
00:14:37: ... die dafür auch freigegeben waren. Wie hilfst du mir dabei?
00:14:41: Ich weiß gar nicht, ob ich dir dabei helfe oder ob du das nicht durch die Wahl von Databricks selbst steuern kannst.
00:14:46: Wenn wir damals fair sind, ist das glaube ich etwas, was du im Zweifel nachweisen müsstest.
00:14:51: Ich sage mal, das was du natürlich machen kannst, ist mit MLflow, also deine Modelle in MLflow zu registrieren ...
00:14:59: ... und dort wird dann eben alles registriert.
00:15:02: Das heißt, auf welcher Version deines Datensatzes wurde dein Modell trainiert, ...
00:15:06: ... welches Modell kam eigentlich hinten raus, wer hat es trainiert, wann wurde es trainiert und solche Faktoren.
00:15:11: Das heißt, im Prinzip wird alles, was das Training angeht, ich sage mal, in MLflow selbst transparent gemacht ...
00:15:19: ... und nachvollziehbar. Wenn wir jetzt ein Auditproblem haben und sagen, ja, wir haben in Modellen jetzt mit persönlichen ...
00:15:26: ... Nutzerdaten gearbeitet, hätten wir nicht machen dürfen, dann haben wir mit MLflow eben eine Möglichkeit zu ...
00:15:31: ... tracken, welche Modelle, sage ich mal, die trainiert wurden, unter Umständen korrumpiert sind oder weggeworfen werden müssen ...
00:15:38: ... oder neu trainiert werden müssen oder wie man damit auch immer umgehen möchte.
00:15:42: Das heißt, wir haben irgendwo eine Transparenzschicht.
00:15:46: Ich glaube, interessanter ist die Überlegung, wie gesagt, das fällt ziemlich stark auch mit in deinen Bereich rein, ...
00:15:52: ... wo ich sage, da habe ich ehrlich gesagt weniger Ahnung als du.
00:15:56: Daher würde ich sagen, interessanter ist die Tatsache, wer worauf denn generell zugreifen kann.
00:16:02: Also dieses ganze Governance-Thema.
00:16:05: Und das lässt sich innerhalb einer einzelnen Plattform typischerweise immer ganz gut regeln.
00:16:11: Also ich kann sehr gut steuern, was du sehen kannst, du kannst sehr gut steuern, was ich sehen kann ...
00:16:15: ... oder auch wie ich mit Daten arbeiten kann oder wie du mit Daten arbeiten kannst.
00:16:19: Das kann alles mit einem Berechtigungskonzept innerhalb von Databricks zum Beispiel geregelt werden.
00:16:24: Aber interessanter wird dann die Frage, wie man eben plattformübergreifend solche Konzepte eben etabliert.
00:16:31: Wo man eben plattformübergreifend sagt, okay, wir haben jetzt einen transparenten Ort, wo wir Berechtigungen sichtbar machen.
00:16:38: Wo wir sichtbar machen können, wer worauf zugreifen kann, wer was sehen kann ...
00:16:43: ... und wie sich vor allem die Daten durch verschiedene Systeme, über verschiedene Systeme hinwegbewegen.
00:16:49: Und ich sage mal, das war so die vorvorletzte Folie meines Vortrags.
00:16:54: Und da muss ich sagen, ich habe so ein bisschen das Gefühl, dass es da noch keine wirklich gute Lösung gibt.
00:16:59: Wir haben verschiedene Ansätze, so was die Microsoft Perview, wer zum Beispiel einen Ansatz, der genau das ermöglichen will, ...
00:17:07: ... hat aber auch immer verschiedene Drop-Acks, will ich sagen.
00:17:11: Und genau, das war letztlich ein kleiner, sehr nüchterner Teil meines Vortrags.
00:17:17: Ich persönlich, ich realisiere es immer mit Git, aber ich bin auch Coder.
00:17:20: Also ich glaube, im tiefsten Herzen glaube ich immer an Code.
00:17:24: Und ich glaube daran, dass ich so was wie Berechtigungen einfach via CLI steuern kann ...
00:17:29: ... und über die ICD Pipelines ausrollen kann.
00:17:32: Und das ist für mich die transparenteste Art und Weise, etwas nachvollziehbar zu machen, wer was erlaubt hat, wer worauf Zugriff hat.
00:17:39: Aber das ist eben nicht für dich vielleicht schon, aber vielleicht nicht für unseren Werten Herrn Fegel, Alex, ...
00:17:46: ... die beste Lösung, weil er schlichtweg kein Coder ist.
00:17:49: Und sowas nicht kann und sowas nicht will.
00:17:51: Vielleicht kann er es, aber er will es in der Regel nicht.
00:17:53: Das heißt, uns mangelt es hier noch an guten GUI-Tools, die das ermöglichen.
00:17:59: Und da muss ich sagen, ich bin gespannt, was die nächsten Jahre in diese Richtung bringen.
00:18:04: Es gibt gute Ansätze, wie gesagt Microsoft Perview ist ein Ansatz.
00:18:08: Open Metadata wäre ein Open Source Ansatz.
00:18:11: Der Unity Catalog wurde geopensourced.
00:18:13: Aber all diese Ansätze haben bestimmte Drawbacks.
00:18:16: Und keiner davon ist wirklich komplett, würde ich sagen.
00:18:19: Und keiner davon kann genau das gewährleisten, was ich mir hier wünsche.
00:18:23: Ich meine, ein Stück weit ist es vielleicht auch eine Frage der Definition von Rollen.
00:18:28: Also muss der Alex Fegel das Berechtigungsmanagement machen können, dürfen, sollte er das?
00:18:36: Oder sagen wir vielleicht, dass es auch einfach bei dir in guten Händen?
00:18:40: Ja, du brauchst halt immer ein Entscheider.
00:18:42: Also inwieweit kann ich als Data Engineer entscheiden, welche Person worauf Zugriff hat.
00:18:48: Und inwieweit sollte ich das nachvollziehen können?
00:18:51: Oder inwieweit sollte das nicht eher ein Manager wie jetzt zum Beispiel der Alex entscheiden und nachvollziehen können?
00:18:55: Und ich würde sagen, doch genau das ist etwas, was der Alex im besten Fall tun möchte.
00:19:00: Weil er eben entscheiden kann, ob du jetzt auf bestimmte Sachen zugreifen darfst.
00:19:05: Also es ist klar, dass du auf Sachen zugreifen möchtest.
00:19:08: Aber ich sage mal, wenn man Daten als Produkt sieht, Data as Product,
00:19:14: das ist ja ein relativ moderner Ansatz aus der Self-Service-Welt,
00:19:18: wo du letztlich immer einen Owner definierst, der über alles entscheiden kann,
00:19:22: für diesen speziellen Datensatz jetzt,
00:19:24: ist es eben auch wichtig, dass man nicht technische Personen so gut es geht in diesen Prozess mit integriert.
00:19:29: Und deswegen würde ich schon sagen, geht funktioniert für kleine Lösungen, für überschaubare Lösungen.
00:19:36: Aber sobald es größer wird, und auch das war ein Vortrag bei der Data Implugged, den ich am Rande gesehen habe, wird es eben abenteuerlich.
00:19:43: Und da kommt dann tatsächlich auch schon ganze Teams ins Spiel, die sich nur um so was kümmern heutzutage.
00:19:47: Ja. Okay, haben wir noch was Wichtiges aus deiner Masterclass vergessen?
00:19:54: Nein, ich finde, du kannst mal ein bisschen hier über deine reden. Was war denn das Thema so?
00:19:59: Ja genau, ich meine, was wir jetzt bei dir noch gar nicht gesagt hatten,
00:20:04: ist ja, damit wir so eine Demo machen konnten und damit wir auch irgendwas live mit Daten zeigen konnten,
00:20:11: hatten wir uns ja ein Beispiel-Use-Case ausgedacht,
00:20:14: ein bisschen angelehnt an reale Projekte von uns.
00:20:17: Und zwar haben wir gesagt, wir stellen uns eine Kaffee-Rösterei vor,
00:20:21: und die röstet Kaffee, und die Kaffeebohnen als natürlicher Rohstoff,
00:20:27: die haben bestimmte Eigenschaften, feuchte Dichte und so weiter, unterschiedliche Erntejahre,
00:20:33: und die schwanken, das ist einfach mit jeder Ernte ein bisschen anders, mit jeder Bohne ein bisschen anders.
00:20:40: Und dazu gibt es einen Produktionsprozess, und der wird gesteuert.
00:20:45: Ich habe irgendwelche Heiztemperatur- und Luftdrücke, Wagen, wie auch immer, und da kriege ich Sensor-Daten,
00:20:53: die vielleicht 24/7 Daten schreiben frühelich vor sich hin,
00:20:59: und das Ganze wird dann noch ergänzt um irgendwelche Produktionsprotokolle
00:21:05: von der Operator in der Fabrikationshalle,
00:21:09: ... der P-Auftragsdaten, wo Kunden ...
00:21:11: ... bestimmte Dinge bestellt haben.
00:21:13: Und der typische Fall ist, dass ...
00:21:15: ... diese Company sich irgendwann überlegt, ...
00:21:18: ... lasst uns mal Machine Learning machen ...
00:21:20: ... und können wir nicht die Qualität ...
00:21:22: ... unseres Cafés.
00:21:23: Und da habe ich mir an der Stelle einfach ausgedacht, ...
00:21:26: ... wir messen Qualität in vier Kategorien, ...
00:21:29: ... nämlich Säure, Bitterkeit, ...
00:21:31: ... Aroma ...
00:21:33: ... und Mundgefühl oder Körper ...
00:21:35: ... des Cafés.
00:21:36: Und man können wir das nicht ...
00:21:38: ... versagbar machen mit einem ...
00:21:39: ... Machine Learning-Modell, basierend auf ...
00:21:41: ... den Rohstoffparametern, den Prozessparametern ...
00:21:44: ... und können wir dieses Modell dann nicht benutzen, ...
00:21:46: ... um Werte zu schaffen.
00:21:48: Und ...
00:21:50: ... meine Masterclass war übertittelt mit ...
00:21:54: ... einem Rezept für Data Science ...
00:21:56: ... in der Fertigungsindustrie, das heißt ...
00:21:58: ... typischerweise hat man eine solche ...
00:22:00: ... oder ähnliche Ausgangssituation ...
00:22:02: ... und wie geht man vor, um am Ende ...
00:22:04: ... ein erfolgreiches Projekt durchgeführt zu haben.
00:22:07: Dann knüpfe ich da mal an, wie geht man denn vor?
00:22:10: Genau.
00:22:12: Im Prinzip, ich habe das, glaube ich, ...
00:22:14: ... unterteilt in sieben Schritte, die wir ...
00:22:17: ... typischerweise machen.
00:22:18: Und der erste ganz wichtige Schritt ist ...
00:22:21: ... ein initialer Workshop, wo man alle ...
00:22:23: ... relevanten Personen an den Tisch holt.
00:22:26: Und die relevanten Personen würde ich mal ...
00:22:28: ... beschreiben als zum einen die Prozess- ...
00:22:30: ... und Domänexperten, ...
00:22:32: ... weil das bin ich auch nicht.
00:22:34: Ich bin ein Data Scientist, ich habe ...
00:22:36: ... mal keine Ahnung von Kaffee ...
00:22:38: ... und die haben das aber.
00:22:40: Und von denen muss ich die wichtigen Infos haben, ...
00:22:42: ... wie funktioniert eigentlich Kaffee-Röstung, ...
00:22:44: ... zum Beispiel was ist eine Maya-Reaktion, ...
00:22:46: ... bei welchen Temperaturen funktioniert, ...
00:22:49: ... die worauf kommt es an, ...
00:22:51: ... wie hängen vielleicht bestimmte Rohstoffe ...
00:22:53: ... mit bestimmten Ergebnissen aus ihrem ...
00:22:55: ... Verständnis schon zusammen, all solche Dinge.
00:22:57: Ich brauche erst mal ein grundlegendes Problem ...
00:23:00: ... Verständnis und Optimierungspotenziale ...
00:23:03: ... müssen wir identifizieren.
00:23:05: Wir müssen auch über User-Stories abbilden, ...
00:23:07: ... das heißt die finalen Anwender des Datenproduktes, ...
00:23:11: ... das wir bereitstellen wollen, die müssen sagen, ...
00:23:13: ... was möchte ich eigentlich haben.
00:23:15: So möchte ich Live-Predictions der Kaffee-Qualität ...
00:23:17: ... im Prozess, möchte ich ein Tool zur Rezeptoptimierung, ...
00:23:20: ... möchte ich ein Dashboard, in dem ich meine ...
00:23:23: ... Produktionsverläufe angucken kann.
00:23:26: Wir brauchen erst mal das Ziel, ...
00:23:28: ... auf das es hinausgehen soll in dem Projekt ...
00:23:30: ... und das Ziel das muss messbar sein.
00:23:32: Wir brauchen Metrigen, eine Form von Baseline ...
00:23:36: ... und ich glaube was ich dann noch explizit angesprochen ...
00:23:40: ... habe neben anderen Dingen ist, damit man so ein Projekt ...
00:23:44: ... zielgerichteten Effizient umsetzen kann, ...
00:23:46: ... brauchst du klarer Rollen und Ansprechpartner, ...
00:23:48: ... das heißt ich möchte einen einfachen ...
00:23:50: ... Kommunikationskanal, im besten Fall irgendeinen Slack ...
00:23:53: ... oder Teams Kanal, wo ich Fragen stellen kann.
00:23:57: Ich will wissen von wem ich die Zugänge bekommen ...
00:24:01: ... mit die Datenberechtigung, all diese Dinge ...
00:24:03: ... und dann kann man schon am Ende des Workshops ...
00:24:06: ... vielleicht den ersten Entwurf für eine ...
00:24:08: ... Servicearchitektur machen.
00:24:10: Was muss der Janis für mich aufbauen, welche Daten ...
00:24:12: ... Quellen muss er erschließen, welche ETL Pipelines ...
00:24:15: ... brauchen wir und wie arbeiten wir mit den Daten, ...
00:24:18: ... wie stellen wir diese ganze Transparenz über, ...
00:24:20: ... die wir in deinem Vortrag schon gesprochen haben.
00:24:22: Ja das muss ja nicht Databricks sein, das kann ja auch ...
00:24:25: ... was anderes sein und wo läuft am Ende das Modell, ...
00:24:28: ... wie monitorn wir das und damit ist quasi der ...
00:24:32: ... der Workshop ist die vorgelagerte große Gesamtplanung ...
00:24:36: ... des Projektes.
00:24:38: Ich glaube manchmal muss man auch nicht die ganze ETL ...
00:24:40: ... Strecke neu planen oder? Also ich glaube in vielen ...
00:24:43: ... Fällen kann man auch in eine bestehende Umgebung ...
00:24:45: ... und da kann man einfach use case bezogen denken.
00:24:47: Umso besser ja.
00:24:49: Dann stellt man sich einfach die Frage, wer sind die ...
00:24:51: ... richtigen Ansprechpartner und bedient sich ...
00:24:53: ... bestenfalls, wenn man schon einen fertigen ...
00:24:55: ... Self-Service-Ansatz oder der Art, den man hier gesagt hat.
00:24:58: Du hast auch Demos gebaut in deiner ganzen Vorstellung.
00:25:03: Du hast ja mit Databricks gearbeitet, du hast ja mit ...
00:25:06: ... Python, verdammt nicht MLflow streamlit, ...
00:25:13: ... hast du Dashboards gebaut, magst du da so ein bisschen ...
00:25:16: ... mal was zu erzählen, zum einen welche Daten hast du ...
00:25:20: ... verwendet, wie kamst du an die Daten und was hast ...
00:25:24: ... du versucht alles zu zeigen in deiner technischen Demo?
00:25:27: Genau, vielleicht ...
00:25:30: ... ich mache es offiziell, ich mache es an dieser Stelle.
00:25:33: Wir hatten eine kleine Challenge, wer von uns hat den ...
00:25:36: ... anderen öfter zitiert in der Masterclass?
00:25:38: Ich gebe zu, du hast gewonnen.
00:25:40: Ja, absolut.
00:25:41: Meine Demo ist quasi gestartet mit einem Dank an dich ...
00:25:44: ... und wir haben gesagt in unserem Imaginier in use case, ...
00:25:46: ... hast du die initiale Plattform aufgesetzt und die Daten ...
00:25:50: ... liegen, sagen wir mal, in einem Silberschema ...
00:25:55: ... liegen vor auf der Datenbank, das heißt du hast die ...
00:25:58: ... Rohdaten mir dahin gebracht und vielleicht haben wir ...
00:26:01: ... die auch schon grob aufgeräumt bereinigt und so weiter.
00:26:04: Und jetzt geht es für mich darum und da ist auch meine ...
00:26:07: ... Demo gestartet, ich möchte jetzt diese Daten nehmen ...
00:26:09: ... und möchte mir daraus Features bauen, um meine ...
00:26:12: ... Modelle zu erstellen.
00:26:14: Und weil ein zentraler, sage ich mal Projektmanagement ...
00:26:18: ... Ansatz von uns, das Data Science zum Anfassen zu machen, ...
00:26:22: ... ich will so schnell wie möglich Dinge sichtbar machen, ...
00:26:25: ... Daten veranschaulichen und auch ein erstes Modell ...
00:26:27: ... zum Ausprobieren bereitstellen, einfach damit ich ...
00:26:29: ... in diese Feedback schleifen komme, haben wir gesagt, ...
00:26:32: ... wir fangen mal an mit den einfachsten Daten, die es ...
00:26:34: ... typischerweise gibt in der Fertigungsindustrie, das sind ...
00:26:37: ... diese Protokolle, die haben wir bei ganz vielen Kunden ...
00:26:40: ... gesehen, das sind manchmal sind das handschriftliche ...
00:26:42: ... Listen, manchmal sind das Excel-Tabellen, aber die sind ...
00:26:44: ... schon in einer tabellaren Struktur, zusammen mit den ...
00:26:46: ... Qualitätsmessungen des Cafés und da bauen wir mal ein ...
00:26:48: ... Baseline-Modell, das heißt wir nutzen die Plattform, ...
00:26:51: ... wir nutzen MLflow für ein transparentes Modell-Training, ...
00:26:56: ... für einen Tracking und Registrierende Daten, ...
00:26:59: ... Versionen, die wir benutzen und erstellen erstes Baseline-Modell.
00:27:03: Was man dann ganz oft herausfindet ist, dass man schon ...
00:27:05: ... kleine Low-Hanging-Fruits abgreifen kann, vielleicht hat ...
00:27:09: ... das Modell ein paar Dinge schon ganz gut verstanden, ...
00:27:12: ... andere noch nicht und wir können jetzt, und du hast ...
00:27:16: ... eben schon gesagt, eine Visualisierung bauen und ...
00:27:19: ... wir nutzen da gerne Streamlit, das liegt einfach daran, ...
00:27:22: ... wir sind eine Pfeifenbude, wir können also vor allem ...
00:27:25: ... auch ich kann pifen und aber sonst ich baue nicht unbedingt ...
00:27:30: ... dein React-Frontend, sondern damit kann ich sehr schnell, ...
00:27:34: ... sehr schön Visualisierung der Daten machen, kann die ...
00:27:37: ... Interaktiv machen, kann die Leute dazu bringen, selber ...
00:27:39: ... mal damit rumzuspielen und vielleicht ihre eigene Daten ...
00:27:42: ... in der Art zu sehen, wie sie die noch nicht so betrachtet ...
00:27:44: ... haben und kann in den Austausch gehen, bis hinunter ...
00:27:47: ... auf die Ebene von einem einzelnen Batch, wo ich merken kann, ...
00:27:49: ... das war das Batch, das habt ihr da an Kaffeequalität ...
00:27:52: ... für herausbekommen und gemessen, jetzt hast du uns mal ...
00:27:55: ... auf den Sensorverlauf gucken, fällt uns da vielleicht ...
00:27:57: ... irgendwas auf und dann gibt es immer ganz spannendes Feedback ...
00:28:00: ... der Experten, die dir vielleicht sagen, jo, Oktober letzten ...
00:28:04: ... Jahres, da haben wir am Heizmandel gearbeitet und dann ...
00:28:07: ... haben wir den irgendwie neu kalibriert, wie auch immer, ...
00:28:10: ... deswegen ist der Verlauf der Temperaturkurve hier anders ...
00:28:14: ... und schon hast du eine ganz wichtige Information für ...
00:28:17: ... deinen Datenmodellierung und auch das Modell können wir ...
00:28:22: ... und da haben wir uns einfach gemacht, in der Rede auch auf ...
00:28:25: ... Databricks einfach als Rest Endpoint bereitstellen, ...
00:28:29: ... können das in die App anbinden und können die Leute damit ...
00:28:32: ... rumspielen lassen und das geht mir eben darum, ...
00:28:34: ... das ist noch was, was ich aus der Uni mitgenommen habe, ...
00:28:37: ... der Elfenbeinturm der Wissenschaft, so gibt es auch den ...
00:28:39: ... Elfenbeinturm der Data Science, man neigt dazu, ...
00:28:43: ... große Notebooks zu produzieren und ganz viele Metrigen, ...
00:28:46: ... das hat einen R Quadrat von 0,81, das hat einen ...
00:28:50: ... Route Mean Square Error von was weiß ich und einen ...
00:28:52: ... Normalize Route Mean Square Error von so und so viel ...
00:28:55: ... und das hören Experten für die Kaffeeproduktion und ...
00:28:59: ... die wissen aber nicht, was die erklärte Varianz in den ...
00:29:01: ... Testdaten ihnen jetzt sagen soll, was die aber ...
00:29:04: ... verstehen ist, hier ist dein Modell, das sind deine ...
00:29:07: ... Eingangsrohstoffwerte und das sagt das Modell und dann ...
00:29:11: ... können die dir sagen, das macht an bestimmten Stellen Sinn, ...
00:29:14: ... an bestimmten Stellen macht das weniger Sinn, wenn du das ...
00:29:16: ... noch visualisiert bekommst in einem Graf, kannst du mit ...
00:29:18: ... denen darüber sprechen und dann kriegst du so Informationen, ...
00:29:21: ... wie diese Vorhersage ist chemisch an der Stelle unlogisch, ...
00:29:25: ... das gibt der Prozess nicht her oder in bestimmten Bereichen ...
00:29:29: ... funktioniert das Modell schon gut und andere nicht und ...
00:29:31: ... diesen Austausch, den wollen wir fördern und das ...
00:29:34: ... kriegen wir eben genau aus diesen Komponenten hin, ...
00:29:37: ... Datenplattform, Transparenz, der Entwicklung, Anbindung ...
00:29:40: ... der Daten mit Versionierung und einfache Bereitstellung ...
00:29:43: ... und Data Science zum Anfassen, das war jetzt viel, aber ...
00:29:46: ... das ist ein zentraler Punkt.
00:29:49: Ich sage mal das Schöne ist, wir haben natürlich auch beide ...
00:29:51: ... Masterclasses, ich sage mal nochmal Postmortem ...
00:29:54: ... aufgenommen und online verfügbar gemacht, von daher kann ...
00:29:57: ... man die sich auch in einer voller Länge anhören, ich ...
00:30:00: ... wette wir haben irgendwo irgendwelche Show Notes und ...
00:30:03: ... können da entsprechendes verlinken, also falls Interesse ...
00:30:06: ... besteht hier gerne Kontakt aufnehmen.
00:30:09: Jetzt hast du ganz viel und auch ich habe ganz viel gesagt, ...
00:30:12: ... was in der Masterclass auch vorgetragen wurde, aber ich glaube ...
00:30:15: ... eine Sache wurde immer nur beiläufig vorgetragen, ich ...
00:30:18: ... finde die ist auch nur ein Randthema, ich finde es super interessant, ...
00:30:21: ... die Daten die verwendet wurden, die wurden ja irgendwie generiert ...
00:30:24: ... da muss ich ja auch mal ein Show-Dot an dich geben, ich habe ja letztlich ...
00:30:27: ... hast du ja gesagt du setzt da an in deiner Masterclass, wo ich ...
00:30:30: ... normalerweise aufhöre, wobei wenn wir ehrlich sind, ...
00:30:33: ... hast du dir viel Arbeit gemacht und ich habe mir an einer ...
00:30:36: ... einen oder anderen Stelle die Law werden einfach ...
00:30:39: ... abgeholt, weil du die Daten entsprechend generiert hast, schon.
00:30:42: Also ich habe mich ja letztlich nur an deinen CSV-Datalen bedient ...
00:30:45: ... oder Paket-Files.
00:30:48: Was mich mal interessieren würde, du hast ja ein richtiges ...
00:30:51: ... Baseline-Modell trainiert, was auch funktioniert für deine Welt ...
00:30:54: ... oder für deinen Vortrag, auf Daten die du dir ausgedacht hast.
00:30:57: Wie hast du dir die richtigen Daten für dieses Baseline-Modell ...
00:31:00: ... ausgedacht und für die Features?
00:31:03: Ja, das ist immer schön, wenn man selber eine Demo baut, ...
00:31:06: ... dann weiß man ja, dass die Dinge funktionieren.
00:31:09: Tatsächlich, also mein Ursprungsgedanke war ich ...
00:31:13: ... wie so ein typischen Use Case aus der Fertigungsindustrie ...
00:31:16: ... abbilden, ich möchte irgendwie Sensor-Daten haben ...
00:31:19: ... ich möchte Rezepte in Form von Rohstoffen haben ...
00:31:22: ... und ich möchte das irgendwie zusammenbringen.
00:31:25: Ich will halt zeigen, wie ich dann Sensor-Daten verarbeite ...
00:31:28: ... auf der Plattform und das andere. Und jetzt sollte das irgendwie ...
00:31:31: ... Sinn machen für Kaffee, also habe ich mich hingesetzt ...
00:31:34: ... und habe mit Chatchi-Biti oder mit Gemini, ...
00:31:37: ... ich weiß nicht mehr mit wem, mit einem von den beiden Jungs ...
00:31:40: ... mich unterhalten, dann habe ich mir erklären lassen ...
00:31:43: ... worauf kommt es eigentlich bei Kaffee an.
00:31:46: Das ist die Maya-Reaktion und was da wichtig ist und nicht ...
00:31:50: ... wichtig ist, dass die von Rösttemperatur und Zeit abhängt, ...
00:31:53: ... sehr Zuckergehalt der Bohnen wichtig ist und so weiter.
00:31:57: Und dann fängt man von hinten an und sagt, okay, ...
00:32:01: ... ich habe meine Kaffee-Qualitäten und die baue ich mir zusammen ...
00:32:04: ... als Formeln, die ich mir selber ausdenke.
00:32:07: Und dann hätte ich gerne das zum Beispiel das Aroma ...
00:32:11: ... des Kaffees hängt zusammen mit aus von der Zuckergehalt ...
00:32:17: ... der Bohnen, der Röstzeit und der Rösttemperatur und zwar ...
00:32:21: ... nicht nur linear, sondern ich möchte da irgendwelche ...
00:32:24: ... Optima drin haben, das heißt ich mache Matte, ich ...
00:32:27: ... mache, ich erstelle mir eine kleine Funktion, F von XYZ ...
00:32:32: ... und habe da irgendwelche quadratischen exponentiellen ...
00:32:36: ... Terme eingebaut, sodass ich wusste zum einen, es ist ...
00:32:39: ... garantiert davon abhängig und zum anderen ist es nicht so ...
00:32:44: ... super einfach und es ist nicht nur linear und ich könnte ...
00:32:47: ... einfach eine lineare Regression machen.
00:32:49: Und dann hat man es ja in der Realität noch so, dass diese ...
00:32:52: ... ganzen Werte auch miteinander ein bisschen korrelieren, ...
00:32:55: ... das heißt was man dann macht ist man erstellt sich alle ...
00:32:58: ... seine Inputvariablen und die erstellt man sich anhand ...
00:33:02: ... irgendwelcher Verteilungen und setzt die miteinander ein ...
00:33:05: ... bisschen in Relation und sagt naja der Zuckergehalt, der ...
00:33:09: ... soll korrelieren mit dem Erntejahr, weil jüngere Bohnen ...
00:33:14: ... irgendwie noch mehr Zucker haben oder irgendwie ...
00:33:17: ... solche Dinge habe ich damit eingebaut, damit das ein ...
00:33:20: ... bisschen korreliert und damit das Ganze nicht so ganz ...
00:33:22: ... offensichtlich ist, habe ich mir noch ganz viele andere ...
00:33:24: ... Sensoren simuliert, die aber gar keinen Einfluss auf ...
00:33:26: ... die Qualität haben, aber das ist ja auch so, eine ...
00:33:29: ... Echtzone Maschine hat tausend Sensoren und vielleicht ...
00:33:32: ... zehn davon sind wichtig um ein gutes Modell zu bauen ...
00:33:35: ... und deswegen, genau man zäumt das Pferd von hinten ...
00:33:40: ... auf, man weiß schon was rauskommen soll, man weiß auch ...
00:33:42: ... wie, dann verschleiert man das Ganze, legt da ...
00:33:45: ... Neues drauf, verwurschtet die Dinge miteinander ...
00:33:49: ... und dann geht man wieder den Weg vorwärts und ...
00:33:51: ... versuch das zu zeigen und das habe ich ja dann auch ...
00:33:53: ... gemacht, am Ende haben wir, also ich hatte am Ende ...
00:33:55: ... 20 Sensoren, fünf waren wichtig, bloß ein paar Rohstoffe, ...
00:33:59: ... die Sensordaten sind zeitrein, das heißt aus denen ...
00:34:03: ... muss ich erst mal irgendwelche Feature berechnen, ...
00:34:05: ... das heißt ich hatte in meiner Demo paar 80 Feature, ...
00:34:08: ... in echt hat man da gerne hunderte oder tausende von Featuren ...
00:34:11: ... und dann macht man Feature Selection und in der Feature ...
00:34:14: ... Selection und ich habe einen einfachen Random Forest ...
00:34:17: ... Recrecer als Modell benutzt, kam dann aber tatsächlich ...
00:34:21: ... auch die Sensoren raus, die ich auch ursprünglich ...
00:34:24: ... in meinen Formeln verwendet habe für die Qualitäten, ...
00:34:27: ... das heißt man hat quasi hinten rum QED gezeigt, es funktioniert.
00:34:32: Ja, das heißt du hast im Vorfeld jetzt nicht gesagt, ...
00:34:34: ... du willst da jetzt einen Random Forest dafür nutzen, ...
00:34:36: ... um das Modell hinterherzubauen, sondern das hat einfach funktioniert.
00:34:39: Tatsächlich bin ich mit meiner Demo nicht ganz so weit gekommen, ...
00:34:43: ... wie ich das ursprünglich geplant hatte, so wie es immer ist.
00:34:46: Ich wollte gezielt am Anfang einen Random Forest nehmen, ...
00:34:49: ... der gut darin ist auf den Daten, die wir haben, ...
00:34:53: ... zu trainieren und zu predicten und der dann aber ganz schlecht ...
00:34:57: ... in der Rezeptoptimierung ist, weil der nämlich eben ...
00:35:00: ... den Parameterraum da abschneidet, auf dem er trainiert wird ...
00:35:03: ... und dann keine kleineren und größeren Werte, ...
00:35:05: ... der kann nicht extrapolieren.
00:35:07: Und im Optimalfall wäre ich da noch hingekommen und hätte gezeigt, ...
00:35:10: ... dass wir dann ein anderes Modell nutzen müssen, ...
00:35:12: ... dass genau das kann, aber dann war schon die Data in Flach.
00:35:16: Also ein Mist.
00:35:17: Und dann musste ich schon meinen Vortrag halten.
00:35:19: Ja, super spannend zu hören.
00:35:21: Ich glaube, diesen ganzen Teil kommt in deiner Masterclass ...
00:35:24: ... so auch vor, nicht in der Tiefe?
00:35:26: Nein, ich erwähne das hinten, ...
00:35:28: ... dass man dann die Modellauswahl beachten muss, ...
00:35:31: ... wenn man noch optimieren will und dass man gucken muss, ...
00:35:34: ... ob die Modell extrapulieren können, ...
00:35:36: ... aber ich habe das halt nicht mehr vorgeführt.
00:35:38: Super, ich würde sagen, das ist für mich erst mal ...
00:35:41: ... so ein Runder Recap unserer Masterclasses.
00:35:44: Wie gesagt, falls jemand da komplett reinhören möchte, ...
00:35:47: ... wir haben jeweils eine Stunde noch mal neue Aufgaben, ...
00:35:50: ... und das, was ihr jetzt gerade in, ich sage mal, ...
00:35:54: ... eine halbe Stunde gehört habt, Roundabout, ...
00:35:57: ... kann man noch mal auf zwei Stunden hören, ...
00:36:00: ... und dann im Detail und mit Bild und mit Folien ausgehen.
00:36:05: Was sind so deine Takeaways von der Data in Flach ...
00:36:08: ... dieses Jahr ganz generell?
00:36:10: Hast du da überhaupt welche?
00:36:12: Gute Frage.
00:36:14: Ich meine, für uns war es natürlich jetzt, ...
00:36:17: ... also gerade für dich und mich mit den Masterclasses, ...
00:36:21: ... die bis wir sie gehalten haben, schon ein bestimmendes Thema, ...
00:36:25: ... wo man sich erst mal darauf fokussiert selber, ...
00:36:27: ... abzuliefern, bevor man so richtig entspannt ...
00:36:29: ... sich die Dinge der anderen anhört.
00:36:31: Also wir haben ja für uns entschieden, ...
00:36:34: ... wir kommen auf jeden Fall wieder, ...
00:36:36: ... weil der Art des Austauschs schon noch mal anders, ...
00:36:41: ... und ich finde besser war es auf anderen Konferenzen, ...
00:36:44: ... also so offen kann man sein, für uns war das auch ...
00:36:46: ... in der Selbsthinsicht recht erfolgreich, ...
00:36:50: ... weil man gut mit Leuten ins Gespräch kommt, ...
00:36:52: ... auf eine ungezwungen Art und Anknüpfungspunkte findet.
00:36:55: Das war sehr gut.
00:36:59: Inhaltlich habe ich so ein paar Schwerpunktthemen gehört, ...
00:37:01: ... ehrlich gesagt, zu meiner Freude nicht nur, ...
00:37:04: ... wie auf anderen Konferenzen, ...
00:37:05: ... Gen AI, Gen AI, Gen AI, ...
00:37:08: ... sondern eben gerade Plattformthemen, ...
00:37:11: ... die interessant sind.
00:37:14: Ja, ich habe mir noch einen Talk zu Databricks und SAP angehört, ...
00:37:18: ... der für uns in Zukunft vermutlich spannend sein wird.
00:37:24: Ich glaube, du hast ja noch mehr als ich ...
00:37:28: ... über die sinnvolle Erstellung und Visualisierung ...
00:37:30: ... von Dashboards-Dinge angeschaut.
00:37:32: Das Vibecoding-Thema, wo man auch schön mit Leuten ...
00:37:34: ... darüber sprechen kann, wie weit ist es schon, ...
00:37:37: ... wie sinnvoll ist das.
00:37:38: Das sind alles so Impulse, die man mitnimmt, ...
00:37:40: ... Kontakte, wo man mal darauf eingehen wird.
00:37:42: Das war schon sehr wertvoll.
00:37:45: Ich muss sagen, für mich inhaltlich weiß ich gar nicht, ...
00:37:50: ... wieviel ich von der Data-Implug mitgenommen habe.
00:37:53: Ich fand es ganz cool, mir im Vorfeld mit Leuten zu sprechen, ...
00:37:55: ... was die allgemeinen von so Veranstaltungen halten, ...
00:37:58: ... was man bei der Data-Implug und vielen anderen halt auch sagen muss, ...
00:38:01: ... es ist irgendwo ein bisschen mainstream orientiert.
00:38:04: Klar, man hat ein spezielles Thema, ...
00:38:06: ... aber da kommen technische Personen, ...
00:38:08: ... technische Personen hin, entsprechend muss man dann halt immer schauen.
00:38:11: Gerade auf den größeren Bühnen, wenn es jetzt da an irgendwelche ...
00:38:14: ... Vorträge geht, wie relevant sind die für uns Techies eigentlich, ...
00:38:18: ... die tagtäglich mit den Lösungen arbeiten.
00:38:21: Und da, muss ich sagen, wurde ich auf anderen Veranstaltungen ...
00:38:23: ... häufiger mal enttäuscht, gerade wie gesagt, ...
00:38:26: ... wenn sie ja eine breite Masse an Leuten ansprechen sollen.
00:38:30: Bei der diesjährigen Data-Implug, muss ich sagen, ...
00:38:33: ... waren die Masterclasses an und für sich schon sehr interessant.
00:38:36: Da gab es wirklich ein paar coole Themen-Schwerpunkte, ...
00:38:39: ... auch Abseits von unsern.
00:38:41: Ein Beispiel, das wir jetzt gesagt haben, das Bound von Dashboards, ...
00:38:45: ... was ich da toll fand, war nicht unbedingt, ...
00:38:48: ... ich fand jetzt, da wurde nichts Neues erzählt, ...
00:38:51: ... aber da wurde im Prinzip das wiedergegeben, ...
00:38:54: ... woran ich quasi sehr gerne denke, wenn ich mit Frontend in Berührung komme.
00:38:58: Und das fand ich einfach mal sehr, sehr schön, ...
00:39:01: ... nochmal von einem anderen Sichtweise auszuhören.
00:39:05: Und ansonsten muss ich für mich sagen, ...
00:39:09: ... würde ich mich gerne, und das hat mir die Data-Implug, ...
00:39:14: ... das war kein Inhalt der Data-Implug, ...
00:39:16: ... aber das ist mir auf dem Weg dahin klar geworden, ...
00:39:18: ... dieses ganze Thema Data Governance, ...
00:39:21: ... da habe ich mir jetzt zumindest vorgenommen, ...
00:39:24: ... mich da ein bisschen noch tiefer miteinanderzusetzen, ...
00:39:26: ... weil ich einfach das Gefühl habe, da gibt es super wenig momentan ...
00:39:29: ... oder viel zu wenig tatsächlich, ...
00:39:31: ... aber da ist super viel Nachfrage hinter, ...
00:39:34: ... und das sieht man veranstaltungsübergreifend.
00:39:36: Also nach, das ist halt der Witz an der Sache, ...
00:39:38: ... nach LLM, nach Gen AI, ...
00:39:40: ... ist das Thema Data Governance bei ganz, ganz vielen Firmen relativ weit oben, ...
00:39:44: ... weil es einfach sehr relevant wird, ...
00:39:46: ... durch die ganze DSGVO, durch die ganzen Richtlinien, ...
00:39:49: ... die kommen oder die gekommen sind.
00:39:52: Und wie gesagt, das ist so eine Sache, ...
00:39:55: ... wo ich dann immer wieder das Gefühl habe, ...
00:39:58: ... da wird zu wenig, da gibt es zu wenig, ...
00:40:01: ... da gibt es zu wenig Know-how, ...
00:40:02: ... da bin ich sehr gespannt, was ich da jetzt in den nächsten Jahren tut.
00:40:05: Genau, ich glaube für uns ist das halt hilfreich, ...
00:40:08: ... weil es uns erlaubt, ein bisschen den Finger am Puls zu haben ...
00:40:12: ... und dann auch zu, zu kalibrieren, was wird in Zukunft benötigt.
00:40:16: Und ich glaube genau da einhaken, was du sagst, ...
00:40:19: ... die, die Hypes der letzten Zeit, ...
00:40:23: ... ob das einfach die, die Interaktion mit einem, ...
00:40:26: ... mit einem GPT ist, ...
00:40:28: ... oder ob das auch so Sachen wie Vibecoding Agents sind, ...
00:40:31: ... die führen dazu, dass Leute sagen, ...
00:40:33: ... oder dass Leute erahnen, cool, da gibt es ja Potenziale, ...
00:40:36: ... da habe ich, da habe ich Lust drauf, da will ich auch irgendwas machen.
00:40:39: Und dass die dann schnell in Positionen kommen wie zum einen, ...
00:40:43: ... oh je, aber wie ich das jetzt richtig mache, ...
00:40:46: ... Production Ready mit Governance und Monitoring ...
00:40:49: ... und was weiß ich, das weiß ich nicht.
00:40:51: Und da kam ich auch an die Grenze.
00:40:53: Du hast ja auch mit jemandem mal darüber gesprochen, ...
00:40:56: ... wie weit man eigentlich kommt, als nicht Techie, ...
00:40:59: ... der sich komplett das alles mit einem Chatboard zusammenbaut ...
00:41:03: ... und wie gut dann diese Anwendung ist.
00:41:05: Und, und das ist für uns eben wichtig zu wissen ...
00:41:09: ... und da dann auch die Leute da abzuholen, wo sie stehen, ...
00:41:12: ... denn was man ja früher hatte, früher musste man auch überzeugen, ...
00:41:15: ... was sind eigentlich die Potenziale, wie funktioniert Machine Learning, ...
00:41:18: ... wie fühlt sich das an und was sind die Ziele, ...
00:41:20: ... auf die du zählen kannst.
00:41:22: Und jetzt sind Ziele schon da, aber wie strukturiere ich ...
00:41:25: ... ein Projekt, damit das in einer überschaubaren Zeit ...
00:41:28: ... vernünftig zum Erfolg kommt.
00:41:30: Wie baue ich das so auf, dass das von Anfang an skalierbar ...
00:41:33: ... und auch safe and sound ist mit Governance?
00:41:36: Das sind so die Dinge, die dann auch Leute am Stand erfragen ...
00:41:39: ... und wo man ins Gespräch kommt.
00:41:41: Und das hilft uns halt dabei auch, uns dahingehend zu schärfen, ...
00:41:45: ... das herauszustellen.
00:41:47: Ja, absolut.
00:41:49: Meine Punkte, das ist immer so komisch, wenn man zum Ende kommt, ...
00:41:53: ... aber meine Punkte, die sind so weit abgehakt, ...
00:41:56: ... wir haben über alles Mögliche geredet, ...
00:41:59: ... wir haben vor allem auch nochmal unsere Masterclasses wiederholt, ...
00:42:02: ... wie gesagt Werbung.
00:42:04: Fragt uns gerne an, falls ihr die haben wollt, ...
00:42:06: ... dann könnt ihr direkt darauf zugreifen.
00:42:09: Ich bedanke mich sehr, sehr für deine Zeit ...
00:42:11: ... und ich sage mal bis zum nächsten Mal.
00:42:13: Bis zum nächsten Mal.
00:42:15: *Klopfen*
00:42:17: Warte mal!
Neuer Kommentar