Data:Unplugged Recap - Datenplattformen, AI und Kaffee!

Shownotes

Endlich mal wieder eine Folge von David und Janis! <3
In dieser Folge gibt es einen kleinen Rückblick auf die Data Unplugged 2025. Dabei gibt es jeweils einen inhaltlichen Abriss der gehaltenen Masterclasses "Datenplattform 360°: ETL, Persistierung & Governance für nachhaltige Datenstrategien" und "Kaffeebohnen und KI-Algorithmen - Ein Data Science Rezept für die Fertigungsindustrie".
Die kompletten Masterclasses gibt es bei uns natürlich auch! Kontaktiert uns dafür einfach.

Transkript anzeigen

00:00:00: Sehr gut, ein neuer Tag, neuer Podcast-Folge, Pizzatag heute, Eingangsfrage, die gewöhn ich

00:00:06: mir jetzt mittwochs an.

00:00:07: Was war deine Lieblingspizza?

00:00:09: Uuh, erst mal hi, Janis.

00:00:12: Ach.

00:00:13: Und Lieblingspizza heute, Pizza-Fungi mit Pesto.

00:00:17: Ja, war auf jeden Fall interessant.

00:00:19: Ich muss sagen, also hallo ich bin David, wir haben uns ja schon gesehen, von daher

00:00:23: sind die Höflichkeitsfloske ein bisschen unter den Tisch gefallen.

00:00:26: Wir nehmen Podcasts ja üblicherweise mittwochs auf am Pizzatag, bei uns bei Elio.

00:00:34: Und beim letzten Pizzatag ist die Auswahl auch auf hohe Begeisterung gestoßen, seitens

00:00:40: Tim, der der letzte Gast war.

00:00:42: Also David, du hast ein gutes Gespür.

00:00:44: Ja, das heißt, Alex, weil du das hörst, sei ruhig häufiger nicht da.

00:00:49: Wir kriegen das hin mit der Pizza.

00:00:51: Das will ich so nicht sagen.

00:00:52: Wobei ich auch, also ich bin wirklich freuen von wilden Pizzen.

00:00:55: Ich muss sagen, auch meine Hackfleisch, Meistpizza heute, die hatte Stil, die hatte was.

00:01:01: Doch, kann man sich mal trauen.

00:01:03: Hackfleisch ist der rote Faden bei dir.

00:01:05: Letzte Woche hatten wir die Burger, irgendwas Pizza und das war de facto auch Hackfleisch.

00:01:11: Ja, natürlich.

00:01:12: Ja, ja, ich würde sagen, letzte Woche war noch ein bisschen wilder als diese Woche.

00:01:15: Die Sauregurke, ne?

00:01:16: Die war es.

00:01:17: Sauregurke.

00:01:18: Zitat Janis, das muss man können.

00:01:19: Das muss man sich erst mal trauen, genau.

00:01:22: Ja, nee, und diese Woche hat die Sauregurke gefehlt, aber trotzdem war auch gut.

00:01:27: War ein guter Pizzatag.

00:01:28: Ja, die Folge ja jetzt, Wecap Data & Plugged, die Data & Plugged vielleicht als Hintergrund.

00:01:33: Wie würdest du die Data & Plugged mit deinen eigenen Worten beschreiben?

00:01:37: Du meinst jetzt dieses Jahr oder grundsätzlich als Datenfestival?

00:01:42: Sowohl als auch.

00:01:44: Ja, groß.

00:01:46: Überraschend groß.

00:01:48: Also ich glaube, es waren 6.500 Leute.

00:01:51: Das war für mich in der Größenordnung jetzt das erste Mal.

00:01:55: Ich kenne das eher mit ein paar Hundert Leuten.

00:01:59: Cooles Flair.

00:02:02: Also es war zwar nicht mehr diese Skatehalle, aber es hatte noch den Charme enthalten mit

00:02:09: Food Trucks und allgemein, was mich abgeholt hat, war eine sehr lockere und ungewungene

00:02:17: Umgangsform.

00:02:18: Im Vergleich zu vielleicht eher förmlichen Events.

00:02:22: Das fand ich sehr gut.

00:02:24: Und dann aber auch lang.

00:02:26: Also für uns dann de facto drei Tage, jeder Tag nicht vor 12 Uhr geendet.

00:02:32: Man muss also sowohl inhaltlich Stehvermögen haben als auch hinterher dann an der Bar.

00:02:39: Da weiß man auch, was man getan hat.

00:02:43: Ja, vielleicht auch hier eine Datenfestival ist so ein schönes Wort.

00:02:47: Letztendlich war das ja, ich will sagen, wie kann man das nennen, Fachveranstaltung?

00:02:54: Es hatte einen fachlichen Themenschwerpunkt auf Data Science, Machine Learning, Datenplattform,

00:02:58: alles rund um Daten, Infrastruktur und IT.

00:03:01: Und da so ein Festival mit 6.000 Leuten ist schon nicht schlecht.

00:03:06: Das war auch das Größte, wo ich bisher war.

00:03:08: Ich glaube die Picon, die könnte sich in ähnlichen Dimensionen bewegen, ist aber auch

00:03:13: ja, ich sage mal weniger spezifisch.

00:03:15: Ja, würde ich sagen Podcast nächste Woche, dann kannst du unser Picon-Team dazu befragen.

00:03:20: Ja.

00:03:21: Ja, ich muss auch sagen, ich glaube ich könnte auf die gleiche Data Unplug noch mal gehen.

00:03:27: Mir würde nicht langweilig, weil ich neue Dinge sehen könnte.

00:03:30: Also man kann ja nicht alles mitnehmen.

00:03:31: Man kann nicht jeden Talk hören, nicht mit jeder Person gesprochen haben.

00:03:35: Es ist wie ein gutes Konzert, also ein gutes Festival.

00:03:39: Da gibt man sich zwar Mühe, möglichst viel rauszuholen, aber ...

00:03:43: ... aber Janis, wir müssen in medias Reskin wissen, ganz schön talky in diesem Podcast.

00:03:47: Wenn das für dich okay ist, lass uns mal mit deiner Masterclass anfangen.

00:03:51: Mit meiner Masterclass.

00:03:53: Ich finde die passt ...

00:03:54: ... also es war ja auf der Data Unplug anders.

00:03:58: Das Los hat dir entschieden, dass ich gestartet habe und du geendet hast, ...

00:04:02: ... aber eigentlich geht es ja mit dir los, wenn wir zusammen an einem Projekt arbeiten.

00:04:07: Wie war der Titel deiner Masterclass?

00:04:09: Ja, 360 Grad Datenplattform.

00:04:12: Genau.

00:04:14: Wir hatten beide eine Masterclass und mein Fachgebiet ist typischerweise mehr ...

00:04:19: ... ich sage mal Data Engineering beziehungsweise, ich würde fast sagen Platform Engineering.

00:04:22: So klassisches Data Engineering in Sinne von Query Optimierung, ...

00:04:26: ... was man da nicht alles machen kann, das mache ich ja gar nicht so wirklich.

00:04:30: Ich baue im Prinzip immer so ein paar Pipelines zusammen.

00:04:33: Muss aber auch auf relativ wenig Sachen achten, glücklicherweise.

00:04:37: Ich habe dafür aber sehr viele Systeme, mit denen ich gleichzeitig interagiere.

00:04:41: Entsprechend würde ich mein Titel mittlerweile nicht mehr nur als Data Engineer ...

00:04:45: ... Phrasen oder Frame, sondern eben auch als Plattform Engineer.

00:04:49: Und in dem Bereich war dann eben meine Masterclass, ...

00:04:52: ... in der es primär auch darum ging, dass man verschiedene Arbeitsweisen ...

00:04:56: ... mit Daten ermöglichen möchte und ich sage mal unter den Schirm von Data Governance ...

00:05:02: ... hängen sollte.

00:05:04: Ich habe ja, ich saß ja drin in deiner Masterclass, ich kann mich noch grob erinnern, aber ...

00:05:10: ... ich glaube der erste, eine deiner ersten Folien, ...

00:05:14: ... war ja die, was sind denn die zentralen Elemente einer Datenplattform?

00:05:19: Vielleicht können wir ja da nochmal einsteigen.

00:05:22: Ja, genau die Grund oder die, ich sage mal da wo es startet, ...

00:05:26: ... ist ja typischerweise haben wir verschiedene Quellsysteme, verschiedene Datenhaltender ...

00:05:30: ... Systeme und da will man einen zentralen Zugriffspunkt für schaffen.

00:05:34: Das heißt sowohl die verschiedenen Datenhaltenden Systeme sind Teil einer Datenplattform ...

00:05:38: ... als auch die Zentralisierung dieser Systeme in zum Beispiel ein Data Warehouse.

00:05:43: Das ist eben einer dieser fünf Punkte gewesen.

00:05:45: Ein anderer der fünf Punkte waren die ETL Strecken.

00:05:49: Ich muss jetzt gestehen, ich habe die Folien gar nicht mehr vor mir, ...

00:05:51: ... aber ich kann mich an das meiste zum Glück noch erinnern.

00:05:54: Das waren die ETL Strecken, das heißt wie bewegen sich Daten eigentlich durch das Unternehmen?

00:05:59: Das würde ich eben auch als Teil der Datenplattform sehen.

00:06:02: Der dritte Punkt war die Data Governance.

00:06:05: Da fällt extrem viel drunter.

00:06:08: Ich habe es im Vortrag ein bisschen gesplittet.

00:06:10: Die Data Governance als solches war im Vortrag eher ein Berechtigungskonzept.

00:06:15: Wer hat worauf Zugriff und wie werden Daten gesehen?

00:06:19: Und ich habe am Rande auch das Auditing erwähnt.

00:06:22: Vielleicht analog dazu könnte man auch Logging sagen.

00:06:25: Aber im Prinzip, wer greift wann auf welche Daten wie zu?

00:06:28: Das fällt unter dem Begriff Governance.

00:06:32: Der vierte Punkt dieser 360 Grad Datenplattform war die Discovery.

00:06:39: Das heißt Katalogisierung von Daten.

00:06:41: Und damit meine ich nicht, dass man Tabellen irgendwie in einem Data Warehouse hat, ...

00:06:46: ... sondern einfach, dass man Meterinformationen von Tabellen verfügbar macht und durchsuprbar macht.

00:06:51: Damit du zum Beispiel als Data Scientist siehst, mit welchen Daten kannst du prinzipiell arbeiten?

00:06:57: Wo liegen sie?

00:06:57: Wen musst du fragen, um darauf Zugriffe zu kriegen?

00:07:00: Und das fällt quasi mit unter dem Begriff Discovery und wurde in den letzten Jahren auch zunehmend wichtiger.

00:07:06: Und der letzte Teil ist letztlich der Service Teil.

00:07:09: Also wir wollen ja auch mit diesen Daten arbeiten.

00:07:11: Wir wollen was damit machen.

00:07:13: In unseren Kontexten ist es oft Machine Learning und Data Science.

00:07:15: Deswegen stand das auf den Folien, dass wir das eben auch als Teil der Datenplattform-Lösung sehen.

00:07:21: Tendenziell Dashboards, tendenziell alle möglichen Anwendungen würden dann entsprechend auf den letzten Punkt zufallen.

00:07:29: Das heißt alles, was irgendwie mit diesen Daten interagiert.

00:07:32: Und wenn ich mich richtig erinnere, hast du dich selber ja im Vortrag nicht nur Plattform-Engineer genannt, ...

00:07:38: ... sondern auch Wunschfee.

00:07:40: Kannst du das nochmal erklären?

00:07:42: Wem erfüllst du denn alles Wünsche?

00:07:44: Ich glaube allen.

00:07:46: Letztlich, finde ich, ist das auch ein sehr treffender Titel.

00:07:50: Und am Ende geht es ja darum, dass du zum Beispiel mit den Daten arbeiten möchtest.

00:07:56: Und du möchtest vielleicht eine Plattform haben, auf der du unterwegs sein kannst.

00:07:59: Du brauchst da ein Comput.

00:08:01: Du brauchst da Berechtigungen.

00:08:02: Du willst dich da bewegen können.

00:08:04: Und letztlich kannst du entweder Entscheidungen selbst treffen oder du fragst jemanden, wie jetzt mich.

00:08:10: Und der dich bestenfalls dabei unterstützt und dir erstmal die Grundlage legt.

00:08:14: Der dich mit Daten versorgt.

00:08:16: Der dir die Plattform stellt und solche Sachen.

00:08:19: Und das wäre jetzt eben ein Beispiel, wo ich quasi deine Wunschfee wäre, wo du dir sagen könntest ...

00:08:24: ... oder wo du dir Sachen wünschen würdest, die ich realisiere.

00:08:27: Ein anderes Beispiel wäre auch für Alex Fegel, den hatte ich ja auch im Vortrag eingebunden.

00:08:33: Er ist jetzt kein Data Scientist, kein Programmierer.

00:08:36: Er möchte unter Umständen trotzdem mit Daten arbeiten und er möchte diese Daten trotzdem irgendwie bereitgestellt haben.

00:08:42: Und auch diese Bereitstellung, die würde eben oder läuft im echten Leben sehr, sehr häufig über mich.

00:08:48: Indem ich dann entsprechend irgendwelche Datenpipelines baue und sie ihm bereitstelle dann einfach.

00:08:53: Ja, er an der Stelle auch nochmal lob an dich.

00:08:56: Ich finde tatsächlich, das war eines der Highlights deines Vortrags, wo du auch einfach sehr anschaulich gezeigt hast, ...

00:09:03: ... wie die unterschiedlichen Personen damit arbeiten.

00:09:05: Also du in deinem Pitchum Setup, der Hardcore Developer, Highly Customized ...

00:09:12: ... mit allen Plugins und Connectoren, der da seinen Code schreibt.

00:09:16: Ich als jemand, der das vielleicht könnte, aber nicht so gut und ist nicht so sehr will ...

00:09:22: ... und der lieber auf der einen Plattform in Notebooks auf die Daten zugreift und alles schon an einem Ort hat ...

00:09:30: ... mit den Berechtigungen und dann der Alex, der sagt, ich kann Deutsch, ich kann Englisch, ich habe Fragen.

00:09:39: Bitte beantworten mir die.

00:09:42: Sind im verschiedenen Schwerpunkt und Interessen.

00:09:45: Ich glaube, das was ich ja auch gesagt habe, ich bin die Wunsch-Wee.

00:09:49: Data Scientist habe ich vielleicht auch als Metzger der guten Software-Entwicklung gefrased.

00:09:53: Aber was ich dazu auch sagen muss, die Schwerpunkte sind ja schlichtweg andere.

00:09:58: Also ich lebe ja überwiegend im Code, ich schreibe Code, ich lebe in der IDE.

00:10:04: Ich habe ja überhaupt kein Problem damit, aber wenn ich jetzt ein Data Scientist von der Uni hire, ...

00:10:10: ... der wahrscheinlich gute mathematische Kenntnisse hat oder ein Mathematiker oder ein Physiker, so wie du jetzt einer bist, ...

00:10:16: ... aber dafür keinen tiefgreifenden technischen Schwerpunkt in seiner Laufbahn hatte, ...

00:10:21: ... dann sind natürlich die Ansprüche andere.

00:10:23: Und das Tolle ist eben, dass man mit diesen verschiedenen Ansätzen eben alle Leute in irgendeiner Weise integrieren kann.

00:10:34: Und dir in dem Fall auch eine Plattform bereitstellen kann, die du einfach nutzen kannst, ...

00:10:39: ... ohne dass du tiefgreifende technische Kenntnisse über alle Prozesse haben musst und ohne dass du Angst haben musst, ...

00:10:43: ... dass du irgendwas produktiv abreißt.

00:10:46: Das ist halt genau eine der Schwerpunkte in dieser Veranschaltung gewesen für mich.

00:10:50: Ja, genau, vielleicht auch noch mal dahin, ich glaube du hast es gerade schon mal erwähnt, ...

00:10:56: ... die ganzen unterschiedlichen Systeme, die wir haben.

00:11:00: Weil leider starten wir ein Projekt ja nicht in der Datenplattform, ...

00:11:04: ... sondern wir müssen Daten aus anderen Systemen erst mal dahin bekommen ...

00:11:09: ... und haben da jetzt noch verschiedene Challenges.

00:11:11: Also irgendwie mein CRM-System, lebt irgendwo, mein ERP-System lebt irgendwo anders.

00:11:17: Ich habe vielleicht noch Sensor-Daten aus der Fabrik.

00:11:20: Alles ändert sich, alles wird vielleicht voneinander auch beeinflusst.

00:11:27: Was war denn dein Vorschlag?

00:11:29: Wie führen wir das zusammen?

00:11:31: Was ist der Kleber in der Mitte vielleicht?

00:11:35: Ja, erst mal wo soll es hingehen, da angefangen ist die häufigste Antworten Data Warehouse, Data Lakehouse, ...

00:11:42: ... wie jetzt in unserem Fall Databricks.

00:11:45: Das ist dann erstmal so eine Grundvoraussetzung.

00:11:48: Also man hat viele, viele, viele verschiedene Daten, man hat nur große Datenmengen, ...

00:11:52: ... man hat verschiedene Datentypen und die legt man eben am liebsten im Data Warehouse ab.

00:11:59: So jetzt weiß man wohin das Ganze gehen soll und jetzt muss man sich natürlich ...

00:12:02: ... und das ist ja deine Frage überlegen wie ist der Weg dahin.

00:12:05: Und an der Stelle habe ich im Vortrag den Data Integration Layer vorgeschlagen.

00:12:11: Das heißt, dass man die Daten nicht direkt ins Data Warehouse, Data Lakehouse schreibt, ...

00:12:16: ... sondern ich sage mal eine Mittelschicht reinschreibt, ...

00:12:20: ... von der aus die Daten dann ins Data Warehouse, Data Lakehouse gehen.

00:12:25: Warum jetzt die Mittelschicht?

00:12:27: Ganz einfach, es geht ja nicht nur darum, dass Daten ins Data Warehouse geschrieben werden, ...

00:12:31: ... sondern unter Umständen müssen auch verschiedene Anwendungen untereinander kommunizieren.

00:12:35: Als Beispiel hatte ich im Vortrag ganz explizit gesagt, ...

00:12:40: ... dass man sich einfach mal vorstellen kann, dass jetzt der Support angerufen wird von einem Kunden.

00:12:45: Und der Kunde sagt, mein Adress hat sich geändert.

00:12:48: So diese Adressänderung wird dann ins CRM System geschrieben ...

00:12:51: ... und die muss eben an verschiedenen anderen Stellen im Unternehmen gespiegelt werden.

00:12:54: Wie jetzt zum Beispiel MEAP System, weil dort womöglich der Lieferschein rauskommt.

00:12:59: Das heißt, wir wollen diese Adressänderung einmal im Data Warehouse haben, ...

00:13:04: ... weil das Data Warehouse das CRM spiegeln soll.

00:13:07: Und andererseits wollen wir diese Adressänderungen eben auch im ERP System haben, ...

00:13:11: ... weil diese Information von hoher Relevanz ist.

00:13:14: Und genau da ist eben dieser Data Integration Layer eigentlich eine sehr, sehr schöne Methode, ...

00:13:18: ... weil alle Anwendungen dort ihre Daten entsprechend bereitstellen können, ...

00:13:22: ... als Datenprodukte und andere Anwendungen sich diese Daten dann in Anführungszeichen abholen können ...

00:13:27: ... und auf ihre eigene Weise verarbeiten.

00:13:29: Muss man nicht immer so machen, wenn jetzt klar ist, wir wollen eher alles nur ins Data Warehouse schreiben, ...

00:13:34: ... dann kann man es gerne so machen.

00:13:36: Aber der Data Integration Layer ist eigentlich ein sehr, sehr guter Ansatz, ...

00:13:39: ... aber den ich, ich glaube die letzten vier Jahre, in denen ich hier arbeite, ...

00:13:43: ... in jedem ETL-Prozess drin hatte.

00:13:46: Das ist schon ein starkes Argument dafür, dass der nicht so ganz dumm sein kann, ne?

00:13:50: Ja, genau. Der hat auch eine gewisse Ausweissicherheit. Also das ist alles sehr, sehr schick da drin.

00:13:55: Ja, genau. Und jetzt erst mal super für mich. Die Daten sind da. Ich kann damit arbeiten.

00:14:05: Und jetzt willst du mich aber vielleicht nicht ganz wild darauf loslassen und mir alles erlauben.

00:14:12: Also vielleicht musst du mich ja an der einen oder anderen Stelle an die Kette nehmen, ...

00:14:16: ... Dinge, die ich sehen darf, Dinge, die ich nicht sehen darf.

00:14:19: Und ich habe ja noch die Anforderung, ich baue irgendeinen Machine Learning Modell ...

00:14:24: ... und das wird auditiert und irgendjemand will von mir wissen, was ist denn da eigentlich reingegangen, ...

00:14:30: ... wie kommt das zustande und kannst du nachweisen, dass das alles nur ein Bedatem passiert ist, ...

00:14:37: ... die dafür auch freigegeben waren. Wie hilfst du mir dabei?

00:14:41: Ich weiß gar nicht, ob ich dir dabei helfe oder ob du das nicht durch die Wahl von Databricks selbst steuern kannst.

00:14:46: Wenn wir damals fair sind, ist das glaube ich etwas, was du im Zweifel nachweisen müsstest.

00:14:51: Ich sage mal, das was du natürlich machen kannst, ist mit MLflow, also deine Modelle in MLflow zu registrieren ...

00:14:59: ... und dort wird dann eben alles registriert.

00:15:02: Das heißt, auf welcher Version deines Datensatzes wurde dein Modell trainiert, ...

00:15:06: ... welches Modell kam eigentlich hinten raus, wer hat es trainiert, wann wurde es trainiert und solche Faktoren.

00:15:11: Das heißt, im Prinzip wird alles, was das Training angeht, ich sage mal, in MLflow selbst transparent gemacht ...

00:15:19: ... und nachvollziehbar. Wenn wir jetzt ein Auditproblem haben und sagen, ja, wir haben in Modellen jetzt mit persönlichen ...

00:15:26: ... Nutzerdaten gearbeitet, hätten wir nicht machen dürfen, dann haben wir mit MLflow eben eine Möglichkeit zu ...

00:15:31: ... tracken, welche Modelle, sage ich mal, die trainiert wurden, unter Umständen korrumpiert sind oder weggeworfen werden müssen ...

00:15:38: ... oder neu trainiert werden müssen oder wie man damit auch immer umgehen möchte.

00:15:42: Das heißt, wir haben irgendwo eine Transparenzschicht.

00:15:46: Ich glaube, interessanter ist die Überlegung, wie gesagt, das fällt ziemlich stark auch mit in deinen Bereich rein, ...

00:15:52: ... wo ich sage, da habe ich ehrlich gesagt weniger Ahnung als du.

00:15:56: Daher würde ich sagen, interessanter ist die Tatsache, wer worauf denn generell zugreifen kann.

00:16:02: Also dieses ganze Governance-Thema.

00:16:05: Und das lässt sich innerhalb einer einzelnen Plattform typischerweise immer ganz gut regeln.

00:16:11: Also ich kann sehr gut steuern, was du sehen kannst, du kannst sehr gut steuern, was ich sehen kann ...

00:16:15: ... oder auch wie ich mit Daten arbeiten kann oder wie du mit Daten arbeiten kannst.

00:16:19: Das kann alles mit einem Berechtigungskonzept innerhalb von Databricks zum Beispiel geregelt werden.

00:16:24: Aber interessanter wird dann die Frage, wie man eben plattformübergreifend solche Konzepte eben etabliert.

00:16:31: Wo man eben plattformübergreifend sagt, okay, wir haben jetzt einen transparenten Ort, wo wir Berechtigungen sichtbar machen.

00:16:38: Wo wir sichtbar machen können, wer worauf zugreifen kann, wer was sehen kann ...

00:16:43: ... und wie sich vor allem die Daten durch verschiedene Systeme, über verschiedene Systeme hinwegbewegen.

00:16:49: Und ich sage mal, das war so die vorvorletzte Folie meines Vortrags.

00:16:54: Und da muss ich sagen, ich habe so ein bisschen das Gefühl, dass es da noch keine wirklich gute Lösung gibt.

00:16:59: Wir haben verschiedene Ansätze, so was die Microsoft Perview, wer zum Beispiel einen Ansatz, der genau das ermöglichen will, ...

00:17:07: ... hat aber auch immer verschiedene Drop-Acks, will ich sagen.

00:17:11: Und genau, das war letztlich ein kleiner, sehr nüchterner Teil meines Vortrags.

00:17:17: Ich persönlich, ich realisiere es immer mit Git, aber ich bin auch Coder.

00:17:20: Also ich glaube, im tiefsten Herzen glaube ich immer an Code.

00:17:24: Und ich glaube daran, dass ich so was wie Berechtigungen einfach via CLI steuern kann ...

00:17:29: ... und über die ICD Pipelines ausrollen kann.

00:17:32: Und das ist für mich die transparenteste Art und Weise, etwas nachvollziehbar zu machen, wer was erlaubt hat, wer worauf Zugriff hat.

00:17:39: Aber das ist eben nicht für dich vielleicht schon, aber vielleicht nicht für unseren Werten Herrn Fegel, Alex, ...

00:17:46: ... die beste Lösung, weil er schlichtweg kein Coder ist.

00:17:49: Und sowas nicht kann und sowas nicht will.

00:17:51: Vielleicht kann er es, aber er will es in der Regel nicht.

00:17:53: Das heißt, uns mangelt es hier noch an guten GUI-Tools, die das ermöglichen.

00:17:59: Und da muss ich sagen, ich bin gespannt, was die nächsten Jahre in diese Richtung bringen.

00:18:04: Es gibt gute Ansätze, wie gesagt Microsoft Perview ist ein Ansatz.

00:18:08: Open Metadata wäre ein Open Source Ansatz.

00:18:11: Der Unity Catalog wurde geopensourced.

00:18:13: Aber all diese Ansätze haben bestimmte Drawbacks.

00:18:16: Und keiner davon ist wirklich komplett, würde ich sagen.

00:18:19: Und keiner davon kann genau das gewährleisten, was ich mir hier wünsche.

00:18:23: Ich meine, ein Stück weit ist es vielleicht auch eine Frage der Definition von Rollen.

00:18:28: Also muss der Alex Fegel das Berechtigungsmanagement machen können, dürfen, sollte er das?

00:18:36: Oder sagen wir vielleicht, dass es auch einfach bei dir in guten Händen?

00:18:40: Ja, du brauchst halt immer ein Entscheider.

00:18:42: Also inwieweit kann ich als Data Engineer entscheiden, welche Person worauf Zugriff hat.

00:18:48: Und inwieweit sollte ich das nachvollziehen können?

00:18:51: Oder inwieweit sollte das nicht eher ein Manager wie jetzt zum Beispiel der Alex entscheiden und nachvollziehen können?

00:18:55: Und ich würde sagen, doch genau das ist etwas, was der Alex im besten Fall tun möchte.

00:19:00: Weil er eben entscheiden kann, ob du jetzt auf bestimmte Sachen zugreifen darfst.

00:19:05: Also es ist klar, dass du auf Sachen zugreifen möchtest.

00:19:08: Aber ich sage mal, wenn man Daten als Produkt sieht, Data as Product,

00:19:14: das ist ja ein relativ moderner Ansatz aus der Self-Service-Welt,

00:19:18: wo du letztlich immer einen Owner definierst, der über alles entscheiden kann,

00:19:22: für diesen speziellen Datensatz jetzt,

00:19:24: ist es eben auch wichtig, dass man nicht technische Personen so gut es geht in diesen Prozess mit integriert.

00:19:29: Und deswegen würde ich schon sagen, geht funktioniert für kleine Lösungen, für überschaubare Lösungen.

00:19:36: Aber sobald es größer wird, und auch das war ein Vortrag bei der Data Implugged, den ich am Rande gesehen habe, wird es eben abenteuerlich.

00:19:43: Und da kommt dann tatsächlich auch schon ganze Teams ins Spiel, die sich nur um so was kümmern heutzutage.

00:19:47: Ja. Okay, haben wir noch was Wichtiges aus deiner Masterclass vergessen?

00:19:54: Nein, ich finde, du kannst mal ein bisschen hier über deine reden. Was war denn das Thema so?

00:19:59: Ja genau, ich meine, was wir jetzt bei dir noch gar nicht gesagt hatten,

00:20:04: ist ja, damit wir so eine Demo machen konnten und damit wir auch irgendwas live mit Daten zeigen konnten,

00:20:11: hatten wir uns ja ein Beispiel-Use-Case ausgedacht,

00:20:14: ein bisschen angelehnt an reale Projekte von uns.

00:20:17: Und zwar haben wir gesagt, wir stellen uns eine Kaffee-Rösterei vor,

00:20:21: und die röstet Kaffee, und die Kaffeebohnen als natürlicher Rohstoff,

00:20:27: die haben bestimmte Eigenschaften, feuchte Dichte und so weiter, unterschiedliche Erntejahre,

00:20:33: und die schwanken, das ist einfach mit jeder Ernte ein bisschen anders, mit jeder Bohne ein bisschen anders.

00:20:40: Und dazu gibt es einen Produktionsprozess, und der wird gesteuert.

00:20:45: Ich habe irgendwelche Heiztemperatur- und Luftdrücke, Wagen, wie auch immer, und da kriege ich Sensor-Daten,

00:20:53: die vielleicht 24/7 Daten schreiben frühelich vor sich hin,

00:20:59: und das Ganze wird dann noch ergänzt um irgendwelche Produktionsprotokolle

00:21:05: von der Operator in der Fabrikationshalle,

00:21:09: ... der P-Auftragsdaten, wo Kunden ...

00:21:11: ... bestimmte Dinge bestellt haben.

00:21:13: Und der typische Fall ist, dass ...

00:21:15: ... diese Company sich irgendwann überlegt, ...

00:21:18: ... lasst uns mal Machine Learning machen ...

00:21:20: ... und können wir nicht die Qualität ...

00:21:22: ... unseres Cafés.

00:21:23: Und da habe ich mir an der Stelle einfach ausgedacht, ...

00:21:26: ... wir messen Qualität in vier Kategorien, ...

00:21:29: ... nämlich Säure, Bitterkeit, ...

00:21:31: ... Aroma ...

00:21:33: ... und Mundgefühl oder Körper ...

00:21:35: ... des Cafés.

00:21:36: Und man können wir das nicht ...

00:21:38: ... versagbar machen mit einem ...

00:21:39: ... Machine Learning-Modell, basierend auf ...

00:21:41: ... den Rohstoffparametern, den Prozessparametern ...

00:21:44: ... und können wir dieses Modell dann nicht benutzen, ...

00:21:46: ... um Werte zu schaffen.

00:21:48: Und ...

00:21:50: ... meine Masterclass war übertittelt mit ...

00:21:54: ... einem Rezept für Data Science ...

00:21:56: ... in der Fertigungsindustrie, das heißt ...

00:21:58: ... typischerweise hat man eine solche ...

00:22:00: ... oder ähnliche Ausgangssituation ...

00:22:02: ... und wie geht man vor, um am Ende ...

00:22:04: ... ein erfolgreiches Projekt durchgeführt zu haben.

00:22:07: Dann knüpfe ich da mal an, wie geht man denn vor?

00:22:10: Genau.

00:22:12: Im Prinzip, ich habe das, glaube ich, ...

00:22:14: ... unterteilt in sieben Schritte, die wir ...

00:22:17: ... typischerweise machen.

00:22:18: Und der erste ganz wichtige Schritt ist ...

00:22:21: ... ein initialer Workshop, wo man alle ...

00:22:23: ... relevanten Personen an den Tisch holt.

00:22:26: Und die relevanten Personen würde ich mal ...

00:22:28: ... beschreiben als zum einen die Prozess- ...

00:22:30: ... und Domänexperten, ...

00:22:32: ... weil das bin ich auch nicht.

00:22:34: Ich bin ein Data Scientist, ich habe ...

00:22:36: ... mal keine Ahnung von Kaffee ...

00:22:38: ... und die haben das aber.

00:22:40: Und von denen muss ich die wichtigen Infos haben, ...

00:22:42: ... wie funktioniert eigentlich Kaffee-Röstung, ...

00:22:44: ... zum Beispiel was ist eine Maya-Reaktion, ...

00:22:46: ... bei welchen Temperaturen funktioniert, ...

00:22:49: ... die worauf kommt es an, ...

00:22:51: ... wie hängen vielleicht bestimmte Rohstoffe ...

00:22:53: ... mit bestimmten Ergebnissen aus ihrem ...

00:22:55: ... Verständnis schon zusammen, all solche Dinge.

00:22:57: Ich brauche erst mal ein grundlegendes Problem ...

00:23:00: ... Verständnis und Optimierungspotenziale ...

00:23:03: ... müssen wir identifizieren.

00:23:05: Wir müssen auch über User-Stories abbilden, ...

00:23:07: ... das heißt die finalen Anwender des Datenproduktes, ...

00:23:11: ... das wir bereitstellen wollen, die müssen sagen, ...

00:23:13: ... was möchte ich eigentlich haben.

00:23:15: So möchte ich Live-Predictions der Kaffee-Qualität ...

00:23:17: ... im Prozess, möchte ich ein Tool zur Rezeptoptimierung, ...

00:23:20: ... möchte ich ein Dashboard, in dem ich meine ...

00:23:23: ... Produktionsverläufe angucken kann.

00:23:26: Wir brauchen erst mal das Ziel, ...

00:23:28: ... auf das es hinausgehen soll in dem Projekt ...

00:23:30: ... und das Ziel das muss messbar sein.

00:23:32: Wir brauchen Metrigen, eine Form von Baseline ...

00:23:36: ... und ich glaube was ich dann noch explizit angesprochen ...

00:23:40: ... habe neben anderen Dingen ist, damit man so ein Projekt ...

00:23:44: ... zielgerichteten Effizient umsetzen kann, ...

00:23:46: ... brauchst du klarer Rollen und Ansprechpartner, ...

00:23:48: ... das heißt ich möchte einen einfachen ...

00:23:50: ... Kommunikationskanal, im besten Fall irgendeinen Slack ...

00:23:53: ... oder Teams Kanal, wo ich Fragen stellen kann.

00:23:57: Ich will wissen von wem ich die Zugänge bekommen ...

00:24:01: ... mit die Datenberechtigung, all diese Dinge ...

00:24:03: ... und dann kann man schon am Ende des Workshops ...

00:24:06: ... vielleicht den ersten Entwurf für eine ...

00:24:08: ... Servicearchitektur machen.

00:24:10: Was muss der Janis für mich aufbauen, welche Daten ...

00:24:12: ... Quellen muss er erschließen, welche ETL Pipelines ...

00:24:15: ... brauchen wir und wie arbeiten wir mit den Daten, ...

00:24:18: ... wie stellen wir diese ganze Transparenz über, ...

00:24:20: ... die wir in deinem Vortrag schon gesprochen haben.

00:24:22: Ja das muss ja nicht Databricks sein, das kann ja auch ...

00:24:25: ... was anderes sein und wo läuft am Ende das Modell, ...

00:24:28: ... wie monitorn wir das und damit ist quasi der ...

00:24:32: ... der Workshop ist die vorgelagerte große Gesamtplanung ...

00:24:36: ... des Projektes.

00:24:38: Ich glaube manchmal muss man auch nicht die ganze ETL ...

00:24:40: ... Strecke neu planen oder? Also ich glaube in vielen ...

00:24:43: ... Fällen kann man auch in eine bestehende Umgebung ...

00:24:45: ... und da kann man einfach use case bezogen denken.

00:24:47: Umso besser ja.

00:24:49: Dann stellt man sich einfach die Frage, wer sind die ...

00:24:51: ... richtigen Ansprechpartner und bedient sich ...

00:24:53: ... bestenfalls, wenn man schon einen fertigen ...

00:24:55: ... Self-Service-Ansatz oder der Art, den man hier gesagt hat.

00:24:58: Du hast auch Demos gebaut in deiner ganzen Vorstellung.

00:25:03: Du hast ja mit Databricks gearbeitet, du hast ja mit ...

00:25:06: ... Python, verdammt nicht MLflow streamlit, ...

00:25:13: ... hast du Dashboards gebaut, magst du da so ein bisschen ...

00:25:16: ... mal was zu erzählen, zum einen welche Daten hast du ...

00:25:20: ... verwendet, wie kamst du an die Daten und was hast ...

00:25:24: ... du versucht alles zu zeigen in deiner technischen Demo?

00:25:27: Genau, vielleicht ...

00:25:30: ... ich mache es offiziell, ich mache es an dieser Stelle.

00:25:33: Wir hatten eine kleine Challenge, wer von uns hat den ...

00:25:36: ... anderen öfter zitiert in der Masterclass?

00:25:38: Ich gebe zu, du hast gewonnen.

00:25:40: Ja, absolut.

00:25:41: Meine Demo ist quasi gestartet mit einem Dank an dich ...

00:25:44: ... und wir haben gesagt in unserem Imaginier in use case, ...

00:25:46: ... hast du die initiale Plattform aufgesetzt und die Daten ...

00:25:50: ... liegen, sagen wir mal, in einem Silberschema ...

00:25:55: ... liegen vor auf der Datenbank, das heißt du hast die ...

00:25:58: ... Rohdaten mir dahin gebracht und vielleicht haben wir ...

00:26:01: ... die auch schon grob aufgeräumt bereinigt und so weiter.

00:26:04: Und jetzt geht es für mich darum und da ist auch meine ...

00:26:07: ... Demo gestartet, ich möchte jetzt diese Daten nehmen ...

00:26:09: ... und möchte mir daraus Features bauen, um meine ...

00:26:12: ... Modelle zu erstellen.

00:26:14: Und weil ein zentraler, sage ich mal Projektmanagement ...

00:26:18: ... Ansatz von uns, das Data Science zum Anfassen zu machen, ...

00:26:22: ... ich will so schnell wie möglich Dinge sichtbar machen, ...

00:26:25: ... Daten veranschaulichen und auch ein erstes Modell ...

00:26:27: ... zum Ausprobieren bereitstellen, einfach damit ich ...

00:26:29: ... in diese Feedback schleifen komme, haben wir gesagt, ...

00:26:32: ... wir fangen mal an mit den einfachsten Daten, die es ...

00:26:34: ... typischerweise gibt in der Fertigungsindustrie, das sind ...

00:26:37: ... diese Protokolle, die haben wir bei ganz vielen Kunden ...

00:26:40: ... gesehen, das sind manchmal sind das handschriftliche ...

00:26:42: ... Listen, manchmal sind das Excel-Tabellen, aber die sind ...

00:26:44: ... schon in einer tabellaren Struktur, zusammen mit den ...

00:26:46: ... Qualitätsmessungen des Cafés und da bauen wir mal ein ...

00:26:48: ... Baseline-Modell, das heißt wir nutzen die Plattform, ...

00:26:51: ... wir nutzen MLflow für ein transparentes Modell-Training, ...

00:26:56: ... für einen Tracking und Registrierende Daten, ...

00:26:59: ... Versionen, die wir benutzen und erstellen erstes Baseline-Modell.

00:27:03: Was man dann ganz oft herausfindet ist, dass man schon ...

00:27:05: ... kleine Low-Hanging-Fruits abgreifen kann, vielleicht hat ...

00:27:09: ... das Modell ein paar Dinge schon ganz gut verstanden, ...

00:27:12: ... andere noch nicht und wir können jetzt, und du hast ...

00:27:16: ... eben schon gesagt, eine Visualisierung bauen und ...

00:27:19: ... wir nutzen da gerne Streamlit, das liegt einfach daran, ...

00:27:22: ... wir sind eine Pfeifenbude, wir können also vor allem ...

00:27:25: ... auch ich kann pifen und aber sonst ich baue nicht unbedingt ...

00:27:30: ... dein React-Frontend, sondern damit kann ich sehr schnell, ...

00:27:34: ... sehr schön Visualisierung der Daten machen, kann die ...

00:27:37: ... Interaktiv machen, kann die Leute dazu bringen, selber ...

00:27:39: ... mal damit rumzuspielen und vielleicht ihre eigene Daten ...

00:27:42: ... in der Art zu sehen, wie sie die noch nicht so betrachtet ...

00:27:44: ... haben und kann in den Austausch gehen, bis hinunter ...

00:27:47: ... auf die Ebene von einem einzelnen Batch, wo ich merken kann, ...

00:27:49: ... das war das Batch, das habt ihr da an Kaffeequalität ...

00:27:52: ... für herausbekommen und gemessen, jetzt hast du uns mal ...

00:27:55: ... auf den Sensorverlauf gucken, fällt uns da vielleicht ...

00:27:57: ... irgendwas auf und dann gibt es immer ganz spannendes Feedback ...

00:28:00: ... der Experten, die dir vielleicht sagen, jo, Oktober letzten ...

00:28:04: ... Jahres, da haben wir am Heizmandel gearbeitet und dann ...

00:28:07: ... haben wir den irgendwie neu kalibriert, wie auch immer, ...

00:28:10: ... deswegen ist der Verlauf der Temperaturkurve hier anders ...

00:28:14: ... und schon hast du eine ganz wichtige Information für ...

00:28:17: ... deinen Datenmodellierung und auch das Modell können wir ...

00:28:22: ... und da haben wir uns einfach gemacht, in der Rede auch auf ...

00:28:25: ... Databricks einfach als Rest Endpoint bereitstellen, ...

00:28:29: ... können das in die App anbinden und können die Leute damit ...

00:28:32: ... rumspielen lassen und das geht mir eben darum, ...

00:28:34: ... das ist noch was, was ich aus der Uni mitgenommen habe, ...

00:28:37: ... der Elfenbeinturm der Wissenschaft, so gibt es auch den ...

00:28:39: ... Elfenbeinturm der Data Science, man neigt dazu, ...

00:28:43: ... große Notebooks zu produzieren und ganz viele Metrigen, ...

00:28:46: ... das hat einen R Quadrat von 0,81, das hat einen ...

00:28:50: ... Route Mean Square Error von was weiß ich und einen ...

00:28:52: ... Normalize Route Mean Square Error von so und so viel ...

00:28:55: ... und das hören Experten für die Kaffeeproduktion und ...

00:28:59: ... die wissen aber nicht, was die erklärte Varianz in den ...

00:29:01: ... Testdaten ihnen jetzt sagen soll, was die aber ...

00:29:04: ... verstehen ist, hier ist dein Modell, das sind deine ...

00:29:07: ... Eingangsrohstoffwerte und das sagt das Modell und dann ...

00:29:11: ... können die dir sagen, das macht an bestimmten Stellen Sinn, ...

00:29:14: ... an bestimmten Stellen macht das weniger Sinn, wenn du das ...

00:29:16: ... noch visualisiert bekommst in einem Graf, kannst du mit ...

00:29:18: ... denen darüber sprechen und dann kriegst du so Informationen, ...

00:29:21: ... wie diese Vorhersage ist chemisch an der Stelle unlogisch, ...

00:29:25: ... das gibt der Prozess nicht her oder in bestimmten Bereichen ...

00:29:29: ... funktioniert das Modell schon gut und andere nicht und ...

00:29:31: ... diesen Austausch, den wollen wir fördern und das ...

00:29:34: ... kriegen wir eben genau aus diesen Komponenten hin, ...

00:29:37: ... Datenplattform, Transparenz, der Entwicklung, Anbindung ...

00:29:40: ... der Daten mit Versionierung und einfache Bereitstellung ...

00:29:43: ... und Data Science zum Anfassen, das war jetzt viel, aber ...

00:29:46: ... das ist ein zentraler Punkt.

00:29:49: Ich sage mal das Schöne ist, wir haben natürlich auch beide ...

00:29:51: ... Masterclasses, ich sage mal nochmal Postmortem ...

00:29:54: ... aufgenommen und online verfügbar gemacht, von daher kann ...

00:29:57: ... man die sich auch in einer voller Länge anhören, ich ...

00:30:00: ... wette wir haben irgendwo irgendwelche Show Notes und ...

00:30:03: ... können da entsprechendes verlinken, also falls Interesse ...

00:30:06: ... besteht hier gerne Kontakt aufnehmen.

00:30:09: Jetzt hast du ganz viel und auch ich habe ganz viel gesagt, ...

00:30:12: ... was in der Masterclass auch vorgetragen wurde, aber ich glaube ...

00:30:15: ... eine Sache wurde immer nur beiläufig vorgetragen, ich ...

00:30:18: ... finde die ist auch nur ein Randthema, ich finde es super interessant, ...

00:30:21: ... die Daten die verwendet wurden, die wurden ja irgendwie generiert ...

00:30:24: ... da muss ich ja auch mal ein Show-Dot an dich geben, ich habe ja letztlich ...

00:30:27: ... hast du ja gesagt du setzt da an in deiner Masterclass, wo ich ...

00:30:30: ... normalerweise aufhöre, wobei wenn wir ehrlich sind, ...

00:30:33: ... hast du dir viel Arbeit gemacht und ich habe mir an einer ...

00:30:36: ... einen oder anderen Stelle die Law werden einfach ...

00:30:39: ... abgeholt, weil du die Daten entsprechend generiert hast, schon.

00:30:42: Also ich habe mich ja letztlich nur an deinen CSV-Datalen bedient ...

00:30:45: ... oder Paket-Files.

00:30:48: Was mich mal interessieren würde, du hast ja ein richtiges ...

00:30:51: ... Baseline-Modell trainiert, was auch funktioniert für deine Welt ...

00:30:54: ... oder für deinen Vortrag, auf Daten die du dir ausgedacht hast.

00:30:57: Wie hast du dir die richtigen Daten für dieses Baseline-Modell ...

00:31:00: ... ausgedacht und für die Features?

00:31:03: Ja, das ist immer schön, wenn man selber eine Demo baut, ...

00:31:06: ... dann weiß man ja, dass die Dinge funktionieren.

00:31:09: Tatsächlich, also mein Ursprungsgedanke war ich ...

00:31:13: ... wie so ein typischen Use Case aus der Fertigungsindustrie ...

00:31:16: ... abbilden, ich möchte irgendwie Sensor-Daten haben ...

00:31:19: ... ich möchte Rezepte in Form von Rohstoffen haben ...

00:31:22: ... und ich möchte das irgendwie zusammenbringen.

00:31:25: Ich will halt zeigen, wie ich dann Sensor-Daten verarbeite ...

00:31:28: ... auf der Plattform und das andere. Und jetzt sollte das irgendwie ...

00:31:31: ... Sinn machen für Kaffee, also habe ich mich hingesetzt ...

00:31:34: ... und habe mit Chatchi-Biti oder mit Gemini, ...

00:31:37: ... ich weiß nicht mehr mit wem, mit einem von den beiden Jungs ...

00:31:40: ... mich unterhalten, dann habe ich mir erklären lassen ...

00:31:43: ... worauf kommt es eigentlich bei Kaffee an.

00:31:46: Das ist die Maya-Reaktion und was da wichtig ist und nicht ...

00:31:50: ... wichtig ist, dass die von Rösttemperatur und Zeit abhängt, ...

00:31:53: ... sehr Zuckergehalt der Bohnen wichtig ist und so weiter.

00:31:57: Und dann fängt man von hinten an und sagt, okay, ...

00:32:01: ... ich habe meine Kaffee-Qualitäten und die baue ich mir zusammen ...

00:32:04: ... als Formeln, die ich mir selber ausdenke.

00:32:07: Und dann hätte ich gerne das zum Beispiel das Aroma ...

00:32:11: ... des Kaffees hängt zusammen mit aus von der Zuckergehalt ...

00:32:17: ... der Bohnen, der Röstzeit und der Rösttemperatur und zwar ...

00:32:21: ... nicht nur linear, sondern ich möchte da irgendwelche ...

00:32:24: ... Optima drin haben, das heißt ich mache Matte, ich ...

00:32:27: ... mache, ich erstelle mir eine kleine Funktion, F von XYZ ...

00:32:32: ... und habe da irgendwelche quadratischen exponentiellen ...

00:32:36: ... Terme eingebaut, sodass ich wusste zum einen, es ist ...

00:32:39: ... garantiert davon abhängig und zum anderen ist es nicht so ...

00:32:44: ... super einfach und es ist nicht nur linear und ich könnte ...

00:32:47: ... einfach eine lineare Regression machen.

00:32:49: Und dann hat man es ja in der Realität noch so, dass diese ...

00:32:52: ... ganzen Werte auch miteinander ein bisschen korrelieren, ...

00:32:55: ... das heißt was man dann macht ist man erstellt sich alle ...

00:32:58: ... seine Inputvariablen und die erstellt man sich anhand ...

00:33:02: ... irgendwelcher Verteilungen und setzt die miteinander ein ...

00:33:05: ... bisschen in Relation und sagt naja der Zuckergehalt, der ...

00:33:09: ... soll korrelieren mit dem Erntejahr, weil jüngere Bohnen ...

00:33:14: ... irgendwie noch mehr Zucker haben oder irgendwie ...

00:33:17: ... solche Dinge habe ich damit eingebaut, damit das ein ...

00:33:20: ... bisschen korreliert und damit das Ganze nicht so ganz ...

00:33:22: ... offensichtlich ist, habe ich mir noch ganz viele andere ...

00:33:24: ... Sensoren simuliert, die aber gar keinen Einfluss auf ...

00:33:26: ... die Qualität haben, aber das ist ja auch so, eine ...

00:33:29: ... Echtzone Maschine hat tausend Sensoren und vielleicht ...

00:33:32: ... zehn davon sind wichtig um ein gutes Modell zu bauen ...

00:33:35: ... und deswegen, genau man zäumt das Pferd von hinten ...

00:33:40: ... auf, man weiß schon was rauskommen soll, man weiß auch ...

00:33:42: ... wie, dann verschleiert man das Ganze, legt da ...

00:33:45: ... Neues drauf, verwurschtet die Dinge miteinander ...

00:33:49: ... und dann geht man wieder den Weg vorwärts und ...

00:33:51: ... versuch das zu zeigen und das habe ich ja dann auch ...

00:33:53: ... gemacht, am Ende haben wir, also ich hatte am Ende ...

00:33:55: ... 20 Sensoren, fünf waren wichtig, bloß ein paar Rohstoffe, ...

00:33:59: ... die Sensordaten sind zeitrein, das heißt aus denen ...

00:34:03: ... muss ich erst mal irgendwelche Feature berechnen, ...

00:34:05: ... das heißt ich hatte in meiner Demo paar 80 Feature, ...

00:34:08: ... in echt hat man da gerne hunderte oder tausende von Featuren ...

00:34:11: ... und dann macht man Feature Selection und in der Feature ...

00:34:14: ... Selection und ich habe einen einfachen Random Forest ...

00:34:17: ... Recrecer als Modell benutzt, kam dann aber tatsächlich ...

00:34:21: ... auch die Sensoren raus, die ich auch ursprünglich ...

00:34:24: ... in meinen Formeln verwendet habe für die Qualitäten, ...

00:34:27: ... das heißt man hat quasi hinten rum QED gezeigt, es funktioniert.

00:34:32: Ja, das heißt du hast im Vorfeld jetzt nicht gesagt, ...

00:34:34: ... du willst da jetzt einen Random Forest dafür nutzen, ...

00:34:36: ... um das Modell hinterherzubauen, sondern das hat einfach funktioniert.

00:34:39: Tatsächlich bin ich mit meiner Demo nicht ganz so weit gekommen, ...

00:34:43: ... wie ich das ursprünglich geplant hatte, so wie es immer ist.

00:34:46: Ich wollte gezielt am Anfang einen Random Forest nehmen, ...

00:34:49: ... der gut darin ist auf den Daten, die wir haben, ...

00:34:53: ... zu trainieren und zu predicten und der dann aber ganz schlecht ...

00:34:57: ... in der Rezeptoptimierung ist, weil der nämlich eben ...

00:35:00: ... den Parameterraum da abschneidet, auf dem er trainiert wird ...

00:35:03: ... und dann keine kleineren und größeren Werte, ...

00:35:05: ... der kann nicht extrapolieren.

00:35:07: Und im Optimalfall wäre ich da noch hingekommen und hätte gezeigt, ...

00:35:10: ... dass wir dann ein anderes Modell nutzen müssen, ...

00:35:12: ... dass genau das kann, aber dann war schon die Data in Flach.

00:35:16: Also ein Mist.

00:35:17: Und dann musste ich schon meinen Vortrag halten.

00:35:19: Ja, super spannend zu hören.

00:35:21: Ich glaube, diesen ganzen Teil kommt in deiner Masterclass ...

00:35:24: ... so auch vor, nicht in der Tiefe?

00:35:26: Nein, ich erwähne das hinten, ...

00:35:28: ... dass man dann die Modellauswahl beachten muss, ...

00:35:31: ... wenn man noch optimieren will und dass man gucken muss, ...

00:35:34: ... ob die Modell extrapulieren können, ...

00:35:36: ... aber ich habe das halt nicht mehr vorgeführt.

00:35:38: Super, ich würde sagen, das ist für mich erst mal ...

00:35:41: ... so ein Runder Recap unserer Masterclasses.

00:35:44: Wie gesagt, falls jemand da komplett reinhören möchte, ...

00:35:47: ... wir haben jeweils eine Stunde noch mal neue Aufgaben, ...

00:35:50: ... und das, was ihr jetzt gerade in, ich sage mal, ...

00:35:54: ... eine halbe Stunde gehört habt, Roundabout, ...

00:35:57: ... kann man noch mal auf zwei Stunden hören, ...

00:36:00: ... und dann im Detail und mit Bild und mit Folien ausgehen.

00:36:05: Was sind so deine Takeaways von der Data in Flach ...

00:36:08: ... dieses Jahr ganz generell?

00:36:10: Hast du da überhaupt welche?

00:36:12: Gute Frage.

00:36:14: Ich meine, für uns war es natürlich jetzt, ...

00:36:17: ... also gerade für dich und mich mit den Masterclasses, ...

00:36:21: ... die bis wir sie gehalten haben, schon ein bestimmendes Thema, ...

00:36:25: ... wo man sich erst mal darauf fokussiert selber, ...

00:36:27: ... abzuliefern, bevor man so richtig entspannt ...

00:36:29: ... sich die Dinge der anderen anhört.

00:36:31: Also wir haben ja für uns entschieden, ...

00:36:34: ... wir kommen auf jeden Fall wieder, ...

00:36:36: ... weil der Art des Austauschs schon noch mal anders, ...

00:36:41: ... und ich finde besser war es auf anderen Konferenzen, ...

00:36:44: ... also so offen kann man sein, für uns war das auch ...

00:36:46: ... in der Selbsthinsicht recht erfolgreich, ...

00:36:50: ... weil man gut mit Leuten ins Gespräch kommt, ...

00:36:52: ... auf eine ungezwungen Art und Anknüpfungspunkte findet.

00:36:55: Das war sehr gut.

00:36:59: Inhaltlich habe ich so ein paar Schwerpunktthemen gehört, ...

00:37:01: ... ehrlich gesagt, zu meiner Freude nicht nur, ...

00:37:04: ... wie auf anderen Konferenzen, ...

00:37:05: ... Gen AI, Gen AI, Gen AI, ...

00:37:08: ... sondern eben gerade Plattformthemen, ...

00:37:11: ... die interessant sind.

00:37:14: Ja, ich habe mir noch einen Talk zu Databricks und SAP angehört, ...

00:37:18: ... der für uns in Zukunft vermutlich spannend sein wird.

00:37:24: Ich glaube, du hast ja noch mehr als ich ...

00:37:28: ... über die sinnvolle Erstellung und Visualisierung ...

00:37:30: ... von Dashboards-Dinge angeschaut.

00:37:32: Das Vibecoding-Thema, wo man auch schön mit Leuten ...

00:37:34: ... darüber sprechen kann, wie weit ist es schon, ...

00:37:37: ... wie sinnvoll ist das.

00:37:38: Das sind alles so Impulse, die man mitnimmt, ...

00:37:40: ... Kontakte, wo man mal darauf eingehen wird.

00:37:42: Das war schon sehr wertvoll.

00:37:45: Ich muss sagen, für mich inhaltlich weiß ich gar nicht, ...

00:37:50: ... wieviel ich von der Data-Implug mitgenommen habe.

00:37:53: Ich fand es ganz cool, mir im Vorfeld mit Leuten zu sprechen, ...

00:37:55: ... was die allgemeinen von so Veranstaltungen halten, ...

00:37:58: ... was man bei der Data-Implug und vielen anderen halt auch sagen muss, ...

00:38:01: ... es ist irgendwo ein bisschen mainstream orientiert.

00:38:04: Klar, man hat ein spezielles Thema, ...

00:38:06: ... aber da kommen technische Personen, ...

00:38:08: ... technische Personen hin, entsprechend muss man dann halt immer schauen.

00:38:11: Gerade auf den größeren Bühnen, wenn es jetzt da an irgendwelche ...

00:38:14: ... Vorträge geht, wie relevant sind die für uns Techies eigentlich, ...

00:38:18: ... die tagtäglich mit den Lösungen arbeiten.

00:38:21: Und da, muss ich sagen, wurde ich auf anderen Veranstaltungen ...

00:38:23: ... häufiger mal enttäuscht, gerade wie gesagt, ...

00:38:26: ... wenn sie ja eine breite Masse an Leuten ansprechen sollen.

00:38:30: Bei der diesjährigen Data-Implug, muss ich sagen, ...

00:38:33: ... waren die Masterclasses an und für sich schon sehr interessant.

00:38:36: Da gab es wirklich ein paar coole Themen-Schwerpunkte, ...

00:38:39: ... auch Abseits von unsern.

00:38:41: Ein Beispiel, das wir jetzt gesagt haben, das Bound von Dashboards, ...

00:38:45: ... was ich da toll fand, war nicht unbedingt, ...

00:38:48: ... ich fand jetzt, da wurde nichts Neues erzählt, ...

00:38:51: ... aber da wurde im Prinzip das wiedergegeben, ...

00:38:54: ... woran ich quasi sehr gerne denke, wenn ich mit Frontend in Berührung komme.

00:38:58: Und das fand ich einfach mal sehr, sehr schön, ...

00:39:01: ... nochmal von einem anderen Sichtweise auszuhören.

00:39:05: Und ansonsten muss ich für mich sagen, ...

00:39:09: ... würde ich mich gerne, und das hat mir die Data-Implug, ...

00:39:14: ... das war kein Inhalt der Data-Implug, ...

00:39:16: ... aber das ist mir auf dem Weg dahin klar geworden, ...

00:39:18: ... dieses ganze Thema Data Governance, ...

00:39:21: ... da habe ich mir jetzt zumindest vorgenommen, ...

00:39:24: ... mich da ein bisschen noch tiefer miteinanderzusetzen, ...

00:39:26: ... weil ich einfach das Gefühl habe, da gibt es super wenig momentan ...

00:39:29: ... oder viel zu wenig tatsächlich, ...

00:39:31: ... aber da ist super viel Nachfrage hinter, ...

00:39:34: ... und das sieht man veranstaltungsübergreifend.

00:39:36: Also nach, das ist halt der Witz an der Sache, ...

00:39:38: ... nach LLM, nach Gen AI, ...

00:39:40: ... ist das Thema Data Governance bei ganz, ganz vielen Firmen relativ weit oben, ...

00:39:44: ... weil es einfach sehr relevant wird, ...

00:39:46: ... durch die ganze DSGVO, durch die ganzen Richtlinien, ...

00:39:49: ... die kommen oder die gekommen sind.

00:39:52: Und wie gesagt, das ist so eine Sache, ...

00:39:55: ... wo ich dann immer wieder das Gefühl habe, ...

00:39:58: ... da wird zu wenig, da gibt es zu wenig, ...

00:40:01: ... da gibt es zu wenig Know-how, ...

00:40:02: ... da bin ich sehr gespannt, was ich da jetzt in den nächsten Jahren tut.

00:40:05: Genau, ich glaube für uns ist das halt hilfreich, ...

00:40:08: ... weil es uns erlaubt, ein bisschen den Finger am Puls zu haben ...

00:40:12: ... und dann auch zu, zu kalibrieren, was wird in Zukunft benötigt.

00:40:16: Und ich glaube genau da einhaken, was du sagst, ...

00:40:19: ... die, die Hypes der letzten Zeit, ...

00:40:23: ... ob das einfach die, die Interaktion mit einem, ...

00:40:26: ... mit einem GPT ist, ...

00:40:28: ... oder ob das auch so Sachen wie Vibecoding Agents sind, ...

00:40:31: ... die führen dazu, dass Leute sagen, ...

00:40:33: ... oder dass Leute erahnen, cool, da gibt es ja Potenziale, ...

00:40:36: ... da habe ich, da habe ich Lust drauf, da will ich auch irgendwas machen.

00:40:39: Und dass die dann schnell in Positionen kommen wie zum einen, ...

00:40:43: ... oh je, aber wie ich das jetzt richtig mache, ...

00:40:46: ... Production Ready mit Governance und Monitoring ...

00:40:49: ... und was weiß ich, das weiß ich nicht.

00:40:51: Und da kam ich auch an die Grenze.

00:40:53: Du hast ja auch mit jemandem mal darüber gesprochen, ...

00:40:56: ... wie weit man eigentlich kommt, als nicht Techie, ...

00:40:59: ... der sich komplett das alles mit einem Chatboard zusammenbaut ...

00:41:03: ... und wie gut dann diese Anwendung ist.

00:41:05: Und, und das ist für uns eben wichtig zu wissen ...

00:41:09: ... und da dann auch die Leute da abzuholen, wo sie stehen, ...

00:41:12: ... denn was man ja früher hatte, früher musste man auch überzeugen, ...

00:41:15: ... was sind eigentlich die Potenziale, wie funktioniert Machine Learning, ...

00:41:18: ... wie fühlt sich das an und was sind die Ziele, ...

00:41:20: ... auf die du zählen kannst.

00:41:22: Und jetzt sind Ziele schon da, aber wie strukturiere ich ...

00:41:25: ... ein Projekt, damit das in einer überschaubaren Zeit ...

00:41:28: ... vernünftig zum Erfolg kommt.

00:41:30: Wie baue ich das so auf, dass das von Anfang an skalierbar ...

00:41:33: ... und auch safe and sound ist mit Governance?

00:41:36: Das sind so die Dinge, die dann auch Leute am Stand erfragen ...

00:41:39: ... und wo man ins Gespräch kommt.

00:41:41: Und das hilft uns halt dabei auch, uns dahingehend zu schärfen, ...

00:41:45: ... das herauszustellen.

00:41:47: Ja, absolut.

00:41:49: Meine Punkte, das ist immer so komisch, wenn man zum Ende kommt, ...

00:41:53: ... aber meine Punkte, die sind so weit abgehakt, ...

00:41:56: ... wir haben über alles Mögliche geredet, ...

00:41:59: ... wir haben vor allem auch nochmal unsere Masterclasses wiederholt, ...

00:42:02: ... wie gesagt Werbung.

00:42:04: Fragt uns gerne an, falls ihr die haben wollt, ...

00:42:06: ... dann könnt ihr direkt darauf zugreifen.

00:42:09: Ich bedanke mich sehr, sehr für deine Zeit ...

00:42:11: ... und ich sage mal bis zum nächsten Mal.

00:42:13: Bis zum nächsten Mal.

00:42:15: *Klopfen*

00:42:17: Warte mal!

Neuer Kommentar

Dein Name oder Pseudonym (wird öffentlich angezeigt)
Mindestens 10 Zeichen
Durch das Abschicken des Formulars stimmst du zu, dass der Wert unter "Name oder Pseudonym" gespeichert wird und öffentlich angezeigt werden kann. Wir speichern keine IP-Adressen oder andere personenbezogene Daten. Die Nutzung deines echten Namens ist freiwillig.