Datenplattformen verstehen und erfolgreich aufbauen

Shownotes

In dieser Folge sprechen unser Ur-Ailionaut Janis und unser Ailionauten Neuling Tim über HotDog Tipps und Datenplattformen. Behandelt werden u.a. Fragen wie:
Welche Entscheidungen und Fragestellungen führen zu einer Datenplattform?
Infrastruktur first oder hangeln wir uns von Use-Case zu Use-Case?
Welche Vorteile bieten managed Lösungen wie Databricks?
Und vieles mehr.

Transkript anzeigen

00:00:00: Wir haben eine neue Podcast-Folge, heutiges Thema Datenplattform First. Wo fange ich überhaupt an?

00:00:05: Bei mir ist der Tim Hallöchen.

00:00:08: Hallo Janis.

00:00:10: So, du bist zum ersten Mal hier im Podcast und dich kennt vielleicht auch noch nicht ganz so viele aus unserem Elio Bekannten-Reis.

00:00:16: Und daher stelle ich doch gerne einmal kurz für alle Menschen, Hörerinnen und Hörer vor.

00:00:22: Ja, ich bin Tim. Ich bin jetzt seit Oktober bei Elio. Eigentlich schon der Einstieg im September pünktlich zum Workation.

00:00:34: Und ja, ich habe mich jetzt so in meiner ersten Einarbeitung viel an Janis dran gehangen und deshalb machen wir heute auch zusammen den Podcast zum Thema Datenplattform.

00:00:47: Vorher habe ich auch schon viel mit Daten, Data Science und so zu tun gehabt.

00:00:53: Ich habe im Grunde fünf Jahre einen Team geleitet, was einen Datenprodukt entwickelt hat im E-Mail Security Bereich.

00:01:03: Und habe da auch viel schon über quasi beide Seiten der Medaille gelernt.

00:01:09: Zum einen den Plattform und Cloud-Charakter von vielen Projekten.

00:01:14: Und zum anderen natürlich auch das spannende Machine Learning, was man dann irgendwann machen kann, um das es heute nicht geht.

00:01:21: Ja, sehr schön. Bevor wir richtig ans Eingemachte gehen, würde ich vorschlagen, wir geben jetzt mal hier Tipps fürs Leben.

00:01:28: Du hast ja bei der Workation dabei. Man stelle sich mal vor, man möchte jetzt karamellisierte Zwiebeln machen, hat aber keinen Zucker.

00:01:34: Was würdest du empfehlen?

00:01:35: Ja, da muss man natürlich kreativ werden und da es erfordert natürlich ein hohes Maß an kulinarischer Intelligenz,

00:01:45: was nicht alle haben, sich da zu helfen zu wissen.

00:01:50: Aber es ist ja Fluch und Segen, dass in vielen Getränken auch ein hoher Zuckeranteil ist.

00:01:58: Und wenn man so normale Sachen, wo man vielleicht dran denkt, wie Cola auch nicht zur Hand hat, eignet sich auch Eistee sehr gut.

00:02:08: Ja, das ist eine wahre Begebenheit, die karamellisierten Eisteezwiebeln nur auf der Workation bei Elio zu geben.

00:02:16: War auf jeden Fall trotzdem sehr lecker, karamellisierte Eisteezwiebeln zu Hot Dogs.

00:02:22: Aber gut, jetzt gehen wir ans Thema Datenplattformen.

00:02:25: Wir fangen erstmal ganz sachte an, was ist denn eigentlich eine Datenplattform?

00:02:28: Willst du das mal kurz erklären? Was verstehen wir darunter ungefähr?

00:02:32: Ja, da ist natürlich jetzt schon wieder so eine Definitionsfrage am Anfang.

00:02:40: Das würde ich jetzt, ich persönlich auch so als von bis sein sehen.

00:02:47: Also für viele Unternehmenorganisationen ist manchmal halt auch eine Datenplattform, eine gepflichtete Excel-Tabelle, mehr oder weniger gepflichtet.

00:02:58: Aber da wollen wir natürlich nicht hin.

00:03:02: Am besten ist es halt eine Plattform, die einem ermöglicht, Daten zu halten, Daten zu managen und halt auch Dinge mit Daten zu tun.

00:03:14: Wir sind ja viel im Cloud-Umfeld tätig.

00:03:17: Das ist glaube ich auch ein wichtiger Aspekt, der einem viel Ärger erspart, gerade am Anfang.

00:03:27: Wenn du jetzt mal sagen würdest, es gibt ein paar Kernkomponenten von einer Datenplattform,

00:03:35: welche zwei oder drei Kernkomponenten würden für dich dazu gehören?

00:03:39: Ja, das würde ich in so ganz einfachen Schritten sehen.

00:03:45: Als erstes müssen die Daten irgendwie gespeichert werden.

00:03:48: Das ist glaube ich jetzt erstmal die erste Kernkomponente.

00:03:53: Und wenn man dann Daten gespeichert hat, will man glaube ich im zweiten Schritt immer was damit machen.

00:03:58: Also Datenverarbeiten, Pipelines erstellen, irgendwie Daten aufreinigen, das zu managen.

00:04:06: Das können ja auch große Workloads werden, wo vielleicht auch ein Zeitfaktor relevant ist.

00:04:14: Das muss eine Plattform irgendwie abdecken.

00:04:18: Und dann natürlich auch den Bereich wer darf, welche Daten überhaupt sehen.

00:04:24: Da kommen wir natürlich auch in den Bereich der Data Governance.

00:04:27: Das gehört glaube ich für viele Plattformen auch dazu.

00:04:33: Gerade wenn man dann ein bisschen ein professionellisiertes Umfeld geht, wo mit Daten gearbeitet wird.

00:04:42: Und dann ist der letzte Schritt, würde ich auch sagen, da schlägt so ein bisschen das Data Scientist Herz bei mir.

00:04:52: Man will natürlich auch was mit den Daten machen.

00:04:55: Und dann kann man dann auch die Datenanalyse, Anbindung an zum Beispiel BI-Tourts oder auch in der Plattform selber erstmal Analyse machen, Grafiken einsehen.

00:05:06: Und dann natürlich auch die Maschinlearning Komponente kann dann auch noch dazu hören.

00:05:11: Wenn ich das jetzt mal auf 4 Keywords oder Buzzwords runterbrechen würde, würde ich sagen, das hast du jetzt gerade gesagt,

00:05:16: Persistierung, Processing, Governance und Integrität.

00:05:21: Das ist quasi das Full-Stack-Angebot einer Datenplattform, so wie du sie dir wünschen würdest.

00:05:27: Wenn ich jetzt noch eine letzte Frage nachschießen dürfte, Managed oder nicht Managed?

00:05:33: Was wäre dir lieber?

00:05:37: Ja, ich habe da ja jetzt hier gerade auch mit dem Einstieg in Databricks, sage ich mal, eine sehr gemanagte Welt gesehen.

00:05:50: Und davor viel auch, wo man eher selber mal Hand anlegen musste.

00:05:59: Und ja, ich bin Data Scientist hauptsächlich und kein Cloud Admin, deshalb habe ich es immer gerne gemanaggt.

00:06:12: Du hast gerne eine gemanagte Plattform und du managst sie nicht gerne selbst.

00:06:17: Genau, genau, ja, der gleichen oder eine ähnlichen Meinung bin ich auch.

00:06:21: Am Ende geht es ja darum, dass man schnell an die Arbeit kommt, use cases umsetzt.

00:06:25: Und operativ ist es immer Reibung in einem Projekt, wenn man so will.

00:06:31: Bringt uns zum nächsten Punkt, welche Fragen sollten sich Unternehmen vor dem Aufbau einer Datenplattform eigentlich stellen?

00:06:37: Oder welche Probleme soll denn eine Datenplattform gelösen?

00:06:40: Ja, also wenn man jetzt hier zum Beispiel so ein tolles Podcast hört und denkt, wow, Datenplattform,

00:06:47: muss ich mir unbedingt mal Gedanken machen für mein Unternehmen, ist glaube ich erstmal ein guter Ansatz nochmal einen Schritt zurückzugehen.

00:06:57: Und ja, in Datenplattform steht ja das Thema Daten drin, sich erstmal vielleicht auf einem höheren Level zu fragen,

00:07:06: was habe ich für Daten, was will ich damit machen?

00:07:10: Das würde ich so als allerersten Schritt sehen.

00:07:15: Okay, also erstmal, was wollen wir damit machen, was soll damit passieren?

00:07:20: Was wäre der zweite Schritt, den man sich fragen könnte, wenn wir jetzt wissen, okay, wir haben use cases x, y, den wollen wir abbilden?

00:07:27: Da ist natürlich dann die Frage, erstens, habe ich schon was?

00:07:34: Was sind meine Strukturen?

00:07:36: Und selbst wenn man jetzt zum Beispiel noch keine etablierte Datenplattform hat und mehr so auf dem Niveau verteilte Excel-Files ist,

00:07:47: kann man ja trotzdem zum Beispiel Leute haben schon im Unternehmen, die die Daten kennen, die vielleicht auch damit schon was in Excel machen.

00:07:59: Also welche Kompetenzen habe ich schon da?

00:08:03: Das ist glaube ich eine wichtige Sache.

00:08:07: Und ja, wie treffe ich Entscheidungen bezüglich der Daten?

00:08:12: Also wie ist erstmal meine Struktur?

00:08:15: Und wenn ich da einen Bild habe, dann ist es sicherlich so, dass was man im ersten Schritt macht, wenn man so eine Datenplattform aufbauen möchte.

00:08:26: Und dann ist natürlich der zweite Gedanke in Richtung der Anforderung.

00:08:32: Was sind meine Rahmenbedingungen?

00:08:36: Welche Anforderungen habe ich an die Datenhaltung?

00:08:41: Darf das in der Cloud sein? Darf das auf gar keinen Fall in der Cloud sein?

00:08:45: Und dann habe ich da Governance-Anforderungen, solche Dinge kann das sein. Da habe ich ein bestimmtes Budget, was auf gar keinen Fall überschritten werden darf.

00:08:56: So Faktoren würde ich dann sehen.

00:08:59: Okay, und wenn wir diese Sachen beantwortet haben, sind wir quasi so weit und können uns für, ich sage mal, ein bis ein Kerntechnologien für unsere Datenplattform entscheiden.

00:09:11: Oder sagst du, da fehlt noch was, dann ja oder nein, reicht dann ein Zweifel auch.

00:09:17: Das ist natürlich sehr vereinfacht gefragt.

00:09:21: Ja gut, die erste Frage ist natürlich, ob man selber da die Kompetenz hat, sich für die Kerntechnologien schon zu entscheiden.

00:09:31: Oder ob man da selber in die Recherche gehen muss oder sich Hilfe ins Haus holen.

00:09:39: Das ist natürlich so eine Sache, wo wir dann auch ins Spiel kommen können.

00:09:46: Ansonsten denke ich, wenn man die Rahmenbedingungen klar hat, dann kann man sich zumindest schon mal für einen technologischen Weg entscheiden, wo man denn anfangen möchte.

00:09:57: Das bringen wir uns quasi mit so ein bisschen zum nächsten Punkt.

00:10:01: Wir reden ja heute über Plattform First.

00:10:04: Vielleicht gibt es dann noch ein Counterpart, den wir jetzt vorbereitet haben für den Podcast wäre Use Case First.

00:10:11: Vielleicht magst du da grob den Unterschied erklären, so denn es denn einen gibt.

00:10:17: Und dann können wir ja mal ein bisschen darüber diskutieren.

00:10:21: Ja, das ist glaube ich eine gute Sache.

00:10:28: Bei ELIO haben wir für viele unser Projekte so dieses Konzept des Leuchtturm-Use-Cases.

00:10:37: Das heißt, wir wollen jetzt hier anfangen, Daten zu nutzen, Daten einzubauen in Entscheidungsprozesse oder was auch immer.

00:10:47: Und gehen dann so vor, dass man sagt, wir wollen jetzt einen Use Case nach vorne bringen, dass wir daran schon mal lernen, wie können wir die gesamte Data Science Pipeline quasi bei uns gewinnenbringt einsetzen.

00:11:06: Und dann das mal auch Nutze auf der Organisationsebene, Stakeholder mitzunehmen und einem so ein bisschen klar zu machen, dass da noch verdammt viel Optimierungspotenzial liegt,

00:11:20: was ja in den meisten Fällen so ist, dadurch, dass man Daten nutzt.

00:11:25: Das fängt dann oft halt auch an, dass hier was weiß ich per Mail oder so ein Excel-File eintrudelt und man dann so die klassische Data Science Magie darauf macht.

00:11:39: Und dann hinterher was weiß ich, eine Streamlet-Appart, wo man dann sein Use Case mit bearbeitet.

00:11:45: Das ist natürlich ein Weg.

00:11:47: Und wir versuchen ja auch, diese ganzen Sachen ganzheitlich anzugehen, dass man dann schon weiter denkt, auch bei so einem Use Case.

00:11:58: Wie kann das denn im Betrieb aussehen, wo man dann wahrscheinlich mehr einen Plattformcharakter hat.

00:12:03: Und das ist natürlich, wie gesagt, besonders gut, wenn man so Stakeholder erst mal noch überzeugen muss.

00:12:10: Das ist eine gute Idee.

00:12:12: Wenn das nicht der Fall ist, kann man ja auch gleich mit den Daten anfangen und die Use Cases später machen, wenn da die Überzeugung da ist.

00:12:21: Und das hat natürlich den Vorteil, dass man sich im ersten Schritt sein, das Projekt erst mal ganz auf die Planung konzentrieren kann,

00:12:33: wie man denn die ganze Plattform in seiner Gänze aufsetzen möchte.

00:12:40: Ist das so ein bisschen potenzieller Wert gegen versus greifbarer Wert?

00:12:46: Also die Datenplattform, wenn du jetzt einen vorwärten Plattform aufbaust, ohne einen konkreten Use Case im Hinterkopf zu haben,

00:12:53: oder einen wenig gewinnbringenden Use Case im Hinterkopf zu haben, dann ist das ja immer so ein Investment in einem Potenzial.

00:12:59: Und wenn du einen normalen Use Case einfach gegenüberstellt, wäre das ja, bestens falls du willst Stakeholder überzeugen,

00:13:05: hast du so schön gesagt, wäre das ja ein messbarer Gegenwert, den der bestenfalls dadurch entsteht.

00:13:12: Würdest du das so unterschreiben, ist das einer der Kernunterschiede dieser beiden Ansätze?

00:13:17: Ja, also ich würde definitiv sagen, dass man halt an die Plattform First Sache mehr glauben muss.

00:13:26: Das ist halt eine Investition wirklich in die Zukunft und man sollte ja schon Use Cases im Hinterkopf haben,

00:13:36: bzw. auf der Roadmap, so keiner macht das ja einfach so.

00:13:41: Also man wird ja schon vielleicht noch nicht ausformuliert, aber so Bauchgefühlsmäßig schon eine Idee haben,

00:13:48: was man mit den Daten machen will, auch dann muss man ja auch, sonst kann man ja die Plattform auch nicht anständig designen.

00:13:55: Aber das würde ich schon sagen, es ist ein bisschen mehr eine Investition, weniger greifbar.

00:14:02: Was natürlich die Gefahr ist bei so sehr greifbaren Dingen, so low hanging fruits wie es dann auch immer schön heißt,

00:14:10: das kann natürlich auch ein süßes Gift sein, dass man immer nur in das nächste lokale Optimum reinläuft

00:14:19: mit einem Projekt, was jetzt machbar ist und dass man die wirklich gewinnenbegegenden Dinge gar nicht angehen kann

00:14:25: oder gar nicht angeht, weil man sich nie die Zeit nimmt, einen Fundament zu legen.

00:14:32: Wenn du dir was wünschen würdest, welcher dieser beiden Ansätze wäre es,

00:14:38: oder lebst in so einer Mittelwelt das Beste von beidem?

00:14:43: Ja, also natürlich liegt es auch immer so ein bisschen an den Rahmenbedingungen.

00:14:51: Ich glaube, so ein bisschen dieses Vorarbeiten von useCase zu useCase,

00:14:57: gerade bei einem Projekt oder bei einer Landschaft, die man noch gar nicht so genau kennt

00:15:06: oder noch gar nicht so genau das Potenzial hat oder das Potenzial gesehen hat, ist schon gut.

00:15:14: Aber manchmal würde ich mir schon wünschen, dass man mehr grundsätzlich denkt

00:15:21: und nicht so immer von low hanging fruit zu low hanging fruit,

00:15:27: aber das ist glaube ich auch immer so ein bisschen, ja, eine Frage der persönlichen Präferenz.

00:15:34: Ja, ich glaube vor allem, dass man, wenn wir über eine Plattform als solches nachdenken müssen,

00:15:41: müssen wir gar nicht so viele Fragen im Vorfeld beantworten.

00:15:44: Also am Ende ist die erste Frage, die du dir beantworten musst,

00:15:47: wie finden die Daten im Weg in die Plattform?

00:15:49: So wenn du darauf schon eine Antwort findest, die möglichst einheitlich ist für verschiedene Strategien

00:15:54: oder für verschiedene, nennen wir es mal, Quellsysteme, die die Daten erzeugen können,

00:15:59: ist ja schon sehr viel gewonnen und das ist ja auch ein durchaus strategischer Ansatz,

00:16:02: den man sofort mitnehmen kann. Also wenn du mich fragen würdest,

00:16:05: für mich ist es immer irgendwie so eine Art hybrider Weg,

00:16:09: obwohl wenn wir mal ehrlich sind, haben wir natürlich auch jetzt gerade hier bei Elio viele,

00:16:13: ich sag mal, Projekte gehabt in der Vergangenheit oder vielleicht auch noch gegenwärtig,

00:16:18: wo es eben nicht die große Datenplattform gebraucht hat, wo sie schon Potenzial gewünscht ist irgendwann mal,

00:16:25: aber wo sie einfach jetzt gerade so ein bisschen auf der Top wäre

00:16:28: und das das absolute Minimum total fein ist und mit dem absoluten Minimum meine ich,

00:16:33: manchmal genügt es auch eine Feile manuell zu uploaden und ein Dashboard irgendwie zu bedienen.

00:16:40: Also in Datenplattformen kann was das angeht schon sehr sehr vielseitig sein.

00:16:44: Ich glaube man muss gar nicht so viel vorbereitet haben und so viel investieren,

00:16:48: um da richtig zu starten, greifbare Ergebnisse zu erzielen

00:16:52: und auch flexibel zu bleiben in der Zukunft.

00:16:56: Ich würde einfach mal mit dem nächsten Punkt weitermachen.

00:16:59: Wir haben jetzt ein bisschen erörtert, platform-first, use-case-first also Potenzial zuerst oder Wert zuerst.

00:17:07: Wenn wir jetzt mal auf die Datenplattform zurückschauen,

00:17:11: im Hinblick auf die technologischen Aspekte,

00:17:15: wir hatten ja schon gesagt, es gibt eine Form von Persistierung, Processing, Governance, Integrität.

00:17:22: Was würdest du sagen, wenn wir jetzt so was wie Databricks nehmen,

00:17:31: oder meinetwegen auch ein anderes Data Warehouse,

00:17:34: aber wir bei Elnir und wir arbeiten halt unglaublich oft oder überwiegend mit Databricks, wenn man mal so ehrlich ist.

00:17:41: Was würdest du sagen, was zeichnet eine solche Plattform aus?

00:17:45: Warum entscheiden sich Leute dafür, anstelle meinetwegen etwas selbst aufzubauen

00:17:51: oder klassisch MSSQL-Umfeld zu bleiben oder Postgres-Umfeld oder Galera-Cluster, da gibt es ja ganz wilde Sachen.

00:18:01: Warum sollte sich ein Team für Databricks entscheiden

00:18:06: oder eine andere Managed Data Warehouse, Data Lakehouse-Lösung?

00:18:10: Ich würde mal so ein bisschen jetzt so aus meiner Erfahrung aus den letzten Monaten schöpfen.

00:18:19: Und ich glaube, das überträgt sich ja auch ganz gut auf einen Unternehmenskontext,

00:18:26: wenn man mit so einer neuen Plattform anfängt.

00:18:29: Ich habe in meinem alten Job nichts mit Databricks zu tun gehabt,

00:18:35: weil ich war schon auch eine Datenplattform betreut, wo wir auf AWS viel selber gemacht haben,

00:18:43: weil es auch sehr speziell mehr Analytics und weniger, dass man Prozesse auf der Plattform hatte.

00:18:50: Governance war jetzt zum Beispiel auch gar kein Thema da.

00:18:55: Das war so hoch von daher.

00:19:02: Und dann der Wechsel zu Databricks.

00:19:06: Und es geht halt alles, wenn man jetzt so einen gewissen Background hat,

00:19:11: man SQL Query geschrieben hat und so eine Grundidee von Daten hat, geht halt alles sehr schnell.

00:19:18: Also wenn man ein einfaches Problem jetzt auf Databricks oder eine einfache Pipeline zur Datentransformation oder was auch immer machen möchte,

00:19:28: es geht halt sehr schnell.

00:19:30: Was meinst du mit schnell ist, dass die Dauer, die ein Prozess läuft,

00:19:35: oder die Arbeit, also die Zeit der Arbeit, die man da reininvestieren muss?

00:19:39: Ja, zweiteres.

00:19:41: Und das ist natürlich, wenn man mal ehrlich ist, bei vielen von den Datenprojekten sind das ja die wirklichen Kosten.

00:19:52: Die Leute da sich Gedanken machen, Pipelines orchestrieren, Zugriffsberechtigungen managen.

00:20:01: Und da ist natürlich die wirklich große Stärke von solchen Plattformen,

00:20:08: weil wenn man sich das erst mal anguckt, theoretisch gehen, tut das ja auch mit anderen Lösungen.

00:20:15: Also das ist ja völlig klar.

00:20:17: Nur halt wirklich, wie es dann in den Databricks Verkaufslites gerne heißt, Time to Market, ist dann kurz.

00:20:28: Und das ist glaube ich auch wirklich wahr, dass man da selbst mit wenig Vorkenntnissen schnell an Start kommt.

00:20:37: Und dann halt auch die Probleme wirklich bearbeiten kann.

00:20:41: Du glaubst also an den Time to Market, an die kurzen Zeiten, oder habe ich das jetzt richtig rausgehört?

00:20:47: Ich würde schon sagen, dass halt die Entwicklungsgeschwindigkeit definitiv höher ist.

00:20:53: Also das, wenn man dann, was ich auch schon, die Probleme, die man da in der Zeit hat,

00:21:06: am Eindrucksvollsten fand, weil das ist auch schon ein Problem, wo ich so öfter dran

00:21:06: gekaut habe in anderen Kontexten, ist so dieses Jahr, wir haben eine Datenpipeline, wo wir

00:21:14: dann bei Databricks mit Spark dann Daten transformieren wollen, vielleicht sogar in Echtzeit.

00:21:23: Wenn man das alles zu Fuß macht auf einer anderen Cloud-Plattform, kann das wahnsinnig

00:21:31: viel Ärger sein, der dann natürlich bei so einer Plattform versteckt wird oder jemand

00:21:38: anders für Eintracht gelöst hat, das ist glaube ich sehr gut.

00:21:41: Ja, für mich ist das so ein bisschen managed versus unmanaged.

00:21:45: Wenn du jetzt natürlich, mein wegen hast du irgendwo ein Kafka Stream und überlegst,

00:21:49: wie du die Daten daraus kriegst, das ist ja nicht mal unbedingt, also für mich jetzt

00:21:52: persönlich nicht mal unbedingt eine Frage der Datenplattform, sondern welche Möglichkeiten

00:21:56: habe ich überhaupt um diesen Kafka Stream zu betreiben.

00:21:59: Ist das jetzt, betreibe ich das selbst irgendwie on-prem mit ganz wilden, mein wegen Kubernetes-Cluster,

00:22:05: da gibt es ja diverse Helm Charts, Stream-Zee, um mal einen Namen zu nennen, oder gehe ich

00:22:11: einfach in die Confluent Cloud, das Ding ist da und ich kann wirklich anfangen zu arbeiten.

00:22:14: Also ich finde so ein bisschen die Geschwindigkeit und Time to Market geht vielleicht ein bisschen

00:22:20: mehr auf den Punkt managed oder unmanaged zurück und kann man auf mehr als ich sage jetzt

00:22:28: mal nur eine Datenplattform beziehen.

00:22:33: Das was ich an Databricks persönlich relativ schön finde oder auch an Snowflake oder Fabric,

00:22:40: ist die Tatsache, dass man eben eine Auftrennung von Layern hat.

00:22:44: Also wenn du jetzt mal drüber nachdenkst im klassischen Secret-Kontext, hast du oft, ja,

00:22:51: steigt der Compute mit dem Storage irgendwie, muss beides gleichzeitig skalieren und bei

00:22:57: so Sachen wie Databricks, um einfach unseren technischen Phasen öfter zu nennen, hast

00:23:05: du eben einfach ein Blob Storage dahinter oder mein wegen eines 3, wo du quasi einfach nur

00:23:11: Falt drauf schmeißt und die liegen dann da und die kosten einfach nur Speicher platzen,

00:23:17: kein Compute bist du ihnen brauchst.

00:23:19: Und selbst wenn du dann irgendwo ein Compute hast, dann genau da sage ich, es sind so Lösungen

00:23:23: wie die über die wir hier sprechen, sehr sinnvoll.

00:23:26: Wenn du mal so ein Compute brauchst, wirklich, dann kannst du ihn dir relativ unkomplizit

00:23:31: erstellen.

00:23:32: Machst einfach ein Cluster auf im Spark-Kontext und kannst du mitarbeiten.

00:23:38: Habe ich heute erst gemacht, ich habe heute eine 10 Gigabyte große CSV-Datei in unseren

00:23:43: Blob Storage geschoben, weil mein eigener RAM dafür nicht ausgereicht hat, die zu laden.

00:23:48: Und mit Databricks habe ich das zum Glück laden können, zum Preis von 1,5 DBUs.

00:23:54: Ich glaube, das hat uns 1,55 Euro gekostet oder so.

00:23:59: Aber dafür hat man es mal eben so gemacht, ohne sich weitere Gedanken zu machen.

00:24:04: Das finde ich persönlich relativ schön an diesem Ansatz, gerade im Gegensatz zum klassischen

00:24:11: SQL-Ansatz.

00:24:12: Das, was du vorher noch erwähnt hattest, ist das Thema Governance, Governance and Security.

00:24:18: Vielleicht magst du da mal ein, zwei Worte noch zu verlieren.

00:24:21: Was ist das eigentlich und wieso wird das unter einer Plattform wie zum Beispiel Databricks

00:24:29: oder anderen vereinfacht im Vergleich zu vielleicht anderen Lösungen?

00:24:35: Ja, fangen wir mal mit dem Thema Governance an.

00:24:41: Und ich würde sagen, ganz grundsätzlich runtergebrochen ist halt die Frage, wer darf, welche Daten

00:24:50: sehen.

00:24:51: Natürlich hat es noch viele andere Aspekte, aber das würde ich jetzt erstmals allerersten

00:25:02: Einstieg in das Thema sehen.

00:25:07: Und ja, das ist natürlich die Sache, wenn man jetzt anfängt und das, wie da das Beispiel

00:25:19: mit den verteilten Excel-Dateilen, da ist ja die Governance dann mehr oder weniger, wer

00:25:23: hat welches Fall und man muss halt rumgehen und fragen, um irgendwelche Informationen zu

00:25:28: bekommen.

00:25:29: Meistens kriegt man die ja auch, aber na ja, und je größer das Unternehmen und je professioneller

00:25:36: da die Strukturen sind, kann man sich da ja auch institutionell Gedanken machen, dass

00:25:42: es vielleicht jetzt verschiedene Gruppen gibt, die verschiedene Daten einsehen sollen, weil

00:25:50: sich jetzt klassisch die IT muss andere Daten einsehen als der Vertrieb.

00:25:56: So, das war sich nicht, denn ein Vertrieb in einer Region braucht jetzt vielleicht auch

00:26:01: nicht die einzelnen Daten des Vertriebs aus einer anderen Region sehen können.

00:26:06: Und ja, das gilt es natürlich zu managen und am besten mit möglichst wenig Aufwand.

00:26:14: Würdest du sagen, es ist jetzt leichter, in Rechte auszuteilen, wenn du auf so einer

00:26:19: Managed Platform wie Databricks unterwegs bist als auf anderen, oder sagst du, das ist

00:26:22: ein zu ein das Gleiche?

00:26:24: Also, meine Erfahrung ist grundsätzlich so zu dem Thema Rechte Management, dass da immer

00:26:33: mehr schief geht, als man so am Anfang denkt und dann ist es auch immer so, dass dann kurz

00:26:41: vom Wochenende nochmal ganz dringend, irgendwer in der Berechtigung braucht, an irgendwelche

00:26:46: Daten dann doch ran muss, die man dann in seinem großen Konzept erst mal übersehen

00:26:52: hat und deshalb glaube ich, ist es gerade am Anfang da gut auf Erfahrungswerte zu setzen

00:27:02: und da ist dann natürlich schon viel wert, wenn da Managed eine Plattform einem Dinge

00:27:09: abnimmt.

00:27:10: Auf jeden Fall.

00:27:11: Wir reden über sehr große Lösungen die ganze Zeit.

00:27:14: Wir reden ja über Databricks, Datenplattformen, Trennung von Compute und Storage und hast

00:27:23: nicht gesehen, aber jetzt mal Butterbody Fische, braucht man das.

00:27:29: Also nehmen wir mal an, wir sind jetzt ein Mittelständler und ich meine, wir haben es ja schon gespoillert,

00:27:35: man braucht es offensichtlich nicht immer.

00:27:38: Sagst du die Entwicklungsgeschwindigkeit alleine, die rechtfertigt das und in welchen Stellen

00:27:44: aus jetzt vielleicht im operativen Bereich, also im Managed Aspekt, siehst du da noch

00:27:51: andere Stellen, wo du mit einer Datenplattform, mit einer großgedachten Datenplattform speziell

00:27:57: schneller und besser unterwegs bist als mit kleinen, maßgeschneiderten Lösungen?

00:28:06: Ja gut, wenn die Lösungen wirklich maßgeschneidert sind, das hört sich jetzt ja sehr positiv

00:28:13: an, dann mag man da vielleicht auch gut mitfahren, wobei man glaube ich da den Entwicklungsaufwand

00:28:24: nicht vernachlässigen darf.

00:28:26: Aber was natürlich das Risiko ist, wenn man sagt okay, wir machen uns jetzt auf dem großen

00:28:35: Level nicht so viele Gedanken und denken von Use Case zu Use Case, dass man dann irgendwann

00:28:42: den Wald vor lauter Lösungen nicht mehr sieht und dass dann natürlich es sein kann, dass

00:28:49: die Entwicklungsgeschwindigkeit rapide abnimmt und dass man dann halt auch sehr stark auf

00:28:56: gegebenenfalls auch sehr spezielles Know-how immer wieder zugreifen muss, diejenigen, die

00:29:01: da die einzelnen Anwendungen entwickelt haben, dass man da wieder Botternex aufbaut und da

00:29:08: kann es natürlich ab einer gewissen Stufe schon sehr sinnvoll sein, da einmal die Dateninfrastruktur

00:29:16: zu konsolidieren bzw. immer wieder zu gucken, wo können wir Dinge vereinfachen, wo können

00:29:21: wir Dinge zusammenführen und das Tückische ist, dass die Einsparungen ja immer erst hinterher

00:29:30: klar werden, also wie viel Dinge dann einfacher gehen und das darf man nicht unterschätzen

00:29:39: und da wäre ich immer vorsichtig, das zu sehr in Einzellösungen aus Ufern zu lassen, sonst

00:29:51: landet man hinterher irgendwie im sogenannten Datensumpf und ist dann da knietief und kommt

00:29:59: nicht mehr voran und das sei natürlich schlecht.

00:30:02: Ich muss sagen, ich finde, das Schöne an einer großgedachten Managed-Lösung ist für mich

00:30:12: persönlich, dass wir auf komplexere Fragen eine relativ klare Antwort haben, wo damit

00:30:18: relativ wenig Aufwand, vergleichsweise wenig Aufwand klare Antworten kriegen.

00:30:25: Also wie arbeiten wir mit den Daten?

00:30:28: Nehmen wir am einbigen Spark, es ist dabei.

00:30:31: In welchen Formaten speichern die Daten?

00:30:34: Die waren einfach Hakee bzw.

00:30:37: Delta funktioniert, wir haben sogar eine Historisierung, wir können ohne weitere CDC nutzen, können

00:30:43: wir wollen sogar Pipelines bauen auf der Plattform selbst oder meinetwegen, wenn man sich nicht

00:30:49: dafür entscheidet, die Pipelines von Databricks bis Jobs heiß oder ins Nohblick heißt das

00:30:59: nicht Stop Procedures, sondern wir heißen es da Tasks oder sowas.

00:31:04: Wenn man sich dagegen entscheidet, kann man es ja auch außerhalb der Plattform selbst,

00:31:08: außerhalb des Data Lake Houses nutzen in Form von Azure Data Factory oder anderen Orchestriertools.

00:31:16: Das Coole finde ich, wenn man in dieser Welt denkt, eigentlich nur überlegen muss, wie

00:31:24: bin ich jetzt einen neuen Use Case in die bestehende Umgebung ein und nicht, wie baue

00:31:30: ich jetzt eine neue Umgebung um einen Use Case herum, der jetzt wieder aufblödt?

00:31:34: Würdest du diese Ansicht so unterschreiben, red ich dir aus der Seele?

00:31:42: Ja, ich würde hier auch mal, meine Antwort wäre so dieses typisch sehr unbefriedenigende

00:31:53: Depend.

00:31:54: Weil ich glaube gerade, wenn man jetzt, da muss man ja auch ehrlich sein an vielen Stellen,

00:32:03: muss man das Rad nicht neu erfinden.

00:32:05: Und gerade diese sehr standardisierten Use Cases, wenn man jetzt analysiert und man weiß

00:32:14: ja gut, was ich jetzt mit meinen Daten mache, das machen auch ganz viele andere, dann kann

00:32:21: man sicher sehr sicher sein, dass die Plattform da eine gute Lösung parat hält.

00:32:25: Und so gerade dann würde ich da auch absolut zustimmen.

00:32:31: Und falls man aber sagt, ja wir haben ja ganz besondere Anforderungen, was auch immer,

00:32:42: dann kann es natürlich sein, dass das selber bauen schon sinnvoll ist.

00:32:46: Aber in den großen, großen Zahl von Use Cases würde ich da mit dir völlig dachkorr

00:32:56: gehen.

00:32:57: Ja, sehr schön.

00:32:58: Wir haben noch einen Punkt hier stehen, wir wollten noch über Agilität sprechen im Kontext

00:33:06: von Datenplattformen.

00:33:10: Und da dieser Punkt von dir stammt, gebe ich den Ball einfach mal zu dir weiter.

00:33:16: Bitte schön.

00:33:18: Ja, ich finde so, als wir die Idee hatten für den Podcast und so, dass das Thema so

00:33:29: langsam Form angenommen hat, so von meiner Grundassistitution hat das so was von Monolith.

00:33:36: So, wir machen jetzt Datenplattformen, das ist total super.

00:33:42: Der, was weiß ich, CIO oder so hat gesagt, ich stehe da voll hinter.

00:33:50: Wir schließen uns jetzt erstmal zwei Tage in einem Seminarraum ein, gehen in Klausur,

00:33:57: machen da 20 Flipchart-Tafeln voll und haben dann ein tolles Konzept und dann kommt die

00:34:11: Datenplattform, die alles löst.

00:34:13: Und da habe ich gedacht, ja, ich glaube, das ist nicht realistisch an vielen Stellen.

00:34:20: Ich glaube, so sollte man da auch nicht denken, auch wenn man sagt, okay, wir machen die Plattform

00:34:26: als Erstes, geht es, glaube ich, in Schritten zu denken und halt dann auch Haltepunkte zu

00:34:34: definieren nach dem Schritt, wollen wir das und das sehen und sich dann auch im Prozess

00:34:39: immer wieder zu fragen, ist das der richtige Weg.

00:34:42: Weil meistens lernt man ja auch dazu während der Arbeit und ich finde, da sollte man so

00:34:49: diesen Agilitätsaspekt mit berücksichtigen.

00:34:55: Man kann es auch am Anfang übertreiben mit einer Planung, auch bei Plattform First.

00:35:01: Das ist jedenfalls mein Gedanke dazu.

00:35:04: Wie süßst du das denn?

00:35:05: Ich glaube, es geht alles Hand in Hand mit einem Use Case.

00:35:08: Also ich finde, auch wenn wir Plattform First denken, funktioniert das nicht ohne zu wissen,

00:35:14: was will man konkret erreichen.

00:35:16: Und wenn du nicht mindestens ein oder zwei Use Cases hast, die du realistisch abbilden

00:35:20: kannst, die vielleicht stellvertretend für deine Idee sind, dann macht es keinen Sinn,

00:35:26: den Plattform Ansatz zu nehmen.

00:35:28: Wenn man mal ehrlich ist, meinen wir ja mit Plattform First so was wie, bauen wir jetzt

00:35:34: eine kleine Pfeifenlösung.

00:35:36: Meinen bringen auch Basis von Pandas, Jupiter, notebook und Streamnet, wie man es vielleicht

00:35:43: sehr, sehr häufig sieht, gerade in der Data Science Welt.

00:35:45: Da gehen wir und das, was ich jetzt gerade beschrieben hatte, der kleine Ansatz, der

00:35:50: wäre jetzt für mich eher so ein bisschen Use Case betrieben.

00:35:52: Wir wollen ein Use Case produktiv bringen.

00:35:54: Der Use Case erlebt für sich alleine isoliert und es gibt noch keine Gehaltenein zum Standards

00:35:58: in einem Unternehmen.

00:35:59: Oder dem Unternehmen ist es egal, ob wir als externer Leinsleister dort arbeiten.

00:36:04: Demgegenüber steht ja, wollen wir eine robuste Plattformlösung haben, die meines Wegen full

00:36:12: managed ist in Form von Databricks.

00:36:16: Wollen wir eine Akustriertool für Pipelines haben in Form von Azure Data Factory?

00:36:24: Wollen wir Kafka nutzen zum Beispiel?

00:36:28: All diese Fragen spielen ja so ein bisschen in die Plattform Richtung.

00:36:32: Ich glaube auch, so ein bisschen mit was ein Unternehmen schon hat.

00:36:35: Also das, worauf du anspielst, die hatten auch schon sehr viel, das muss man auch ehrlich

00:36:38: sagen.

00:36:39: Das hat es ja wenig Sinn, irgendwelche Luftschlösser daneben zu setzen.

00:36:43: Also in Form von kleinen gedachten Lösungen, bei denen man immer wieder das Rad neu erfinden

00:36:49: muss.

00:36:50: Das macht einfach keinen Sinn.

00:36:51: Aber ja, ich finde, man muss den Erfolg irgendwie messbar halten.

00:36:55: Das geht eigentlich nur mit einem sehr, sehr agilen Ansatz, in dem man quasi in Meilenstein

00:37:00: denkt.

00:37:01: Was glaube ich in dem Kontext noch wichtig ist, ist, wenn man von Use Case redet, muss

00:37:11: man glaube ich sein Horizont ein bisschen erweitern, was in den Use Case sein kann.

00:37:18: Also das ist glaube ich, es muss jetzt nicht unbedingt dieser klassische Data Science Use

00:37:23: Case sein.

00:37:24: Wir wollen Analyse XY machen und hinterher sehen, wie wir, weiß ich nicht, eine Maschine

00:37:31: effizienter laufen lassen.

00:37:32: So, dass in dem Plattformgedanken kann, in den Use Case ja zum Beispiel auch sein.

00:37:38: Wir wollen eine bestehende Funktion auf unserer Plattform dann abbilden, um erstmal Erfahrungen

00:37:44: zu sammeln und da, dass man dann da erstmal über die Infrastruktur lernt und vielleicht

00:37:50: da Sachen einspart oder so.

00:37:54: Man könnte es auch Live Trial Phase nehmen.

00:37:57: Erstmal elaborieren.

00:37:59: Ich habe schlechte Erfahrungen jetzt mit einer Live Trial Phase gemacht.

00:38:02: Aber gut, dann im Zweifel merkt man, dass es auch nichts ist.

00:38:07: Und das ist dann das Schöne, wenn man eine Live Trial Phase für eine Datenplattform als

00:38:13: Infrastrukturlösung macht, dass man sich eben für die Infrastruktur entscheiden kann

00:38:17: oder dagegen entscheiden kann.

00:38:19: Wenn du jetzt Use Case für Use Case kleine Inseln baust, musst du halt irgendwie langfristig

00:38:24: überlegen, wie du damit umgehst.

00:38:26: Ja, ich glaube, wir haben auf unserer Liste erstmal reinförmlich gesehen alle Punkte

00:38:31: abgearbeitet.

00:38:32: Wir waren jetzt natürlich sehr spezialisiert unterwegs.

00:38:36: Ich werde dich jetzt mal so einen kleinen Punkt fragen.

00:38:39: Ich habe wieder sehr, sehr einfach gefragt und das ich erwarte eine sehr komplexe Antwort

00:38:44: mit allen Variationen.

00:38:45: Würdest du jetzt eine Roadmap erstellen?

00:38:48: Ja, also eine Projektidee ist, wir haben Daten an 17 verschiedenen Punkten und wir wollen

00:38:57: jetzt meinetwegen einen User-Chern bestimmen.

00:39:02: Und wir wollen jetzt mit euch oder mit dir zusammen eine Datenplattform machen.

00:39:08: Wie sähe deine Roadmap ungefähr aus?

00:39:12: Wenn du jetzt von Null anfangen könntest, du weißt, du hast die Daten schon, die Frage,

00:39:16: woher krieg ich meine Daten aus welchen Quellsystemen die ist geregelt, du hast deine Ansprechpartner,

00:39:23: alle beisammen.

00:39:24: Wie würdest du jetzt vorgehen, wenn du den Use Case realisieren würdest?

00:39:28: Würdest du dir am liebsten direkt irgendwas hochziehen in Form von Managed Notebooks?

00:39:33: Würdest du bei dir lokal arbeiten?

00:39:36: Woran würdest du überall denken?

00:39:38: Ja gut, das kommt natürlich so ein bisschen drauf an.

00:39:41: Du hast ja eben schon mal so ein Beispiel gebracht, wenn das jetzt sehr viele Daten

00:39:47: sind, dann kannst du ja zum Beispiel schon mal vorgeben, dass das lokal gar nicht geht.

00:39:51: So, das ist ja glaube ich ein Punkt, wo man sicherlich beim Abstecken der Rahmenbedingungen

00:39:59: erst mal rangeht, was dann sicherlich die Roadmap auch vorgeben kann.

00:40:05: Wenn man jetzt mit Datengrößen arbeitet, wo alles lokal möglich wäre, dann ja, könnte

00:40:16: ich mir das schon vorstellen, wenn man den Use Case abbilden möchte und es geht wirklich

00:40:20: um den Use Case, dass man sagt, okay, ich mach das erst mal lokal, aber wenn das nicht

00:40:29: der Fall ist, dann würde ich als erstes auf der Roadmap auf jeden Fall sehen, dass man

00:40:36: halt seine Datenplattform, in welcher Form man auch immer das geplant hat, erst mal hochzieht,

00:40:43: da die Daten reinbekommen.

00:40:45: Vielleicht nicht alle quälen, sondern mal um was zu sehen, um Schritt für Schritt immer

00:40:56: wieder auch zu gucken, funktioniert der Schritt so, wie ich das gedacht habe, was ist die

00:41:01: minimalen Daten, die ich dafür brauche.

00:41:03: Das ist glaube ich ein sehr, sehr gutes Vorgehen, quasi einmal erst mal mit so einem Längsschnitt

00:41:10: durchzugehen und nicht auf jeder Stufe erst mal alles abzuarbeiten, um dann ja, so ein

00:41:18: Projekt auch zum Erfolg zu bringen.

00:41:20: Okay, dann bin ich glaube ich erst mal zufrieden gestellt.

00:41:27: Hast du noch Worte, die du abschließend verlieren möchtest?

00:41:31: Nö, ich denke nicht.

00:41:36: Super, dann bedanke ich mich sehr für deine Zeit und ich würde einfach mal sagen, wir

00:41:42: werden uns mit Sicherheit noch öfter hören.

00:41:44: Du schaust ja auch schon mit den Hufen quasi eine zweite Folge zu machen.

00:41:48: Also, wie heißt es so schön, abonnieren, wo es zu abonnieren geht und vielen Dank

00:41:54: fürs Zuhören und bis zum nächsten Mal.

00:41:56: Tschüssi.

Neuer Kommentar

Dein Name oder Pseudonym (wird öffentlich angezeigt)
Mindestens 10 Zeichen
Durch das Abschicken des Formulars stimmst du zu, dass der Wert unter "Name oder Pseudonym" gespeichert wird und öffentlich angezeigt werden kann. Wir speichern keine IP-Adressen oder andere personenbezogene Daten. Die Nutzung deines echten Namens ist freiwillig.