Security Best Practices bei Databricks Betrieb
Sichere Datenverwaltung mit der Databricks Plattform: Best Practices Das Verständnis von Datensicherheit spielt eine entscheidende Rolle beim Schutz vor Bedrohungen wie Datenübernahmen oder -lecks. Die
Data-Science Projekte können sehr herausfordernd sein. Dabei liegt die Grundherausforderung oft nicht darin, dass Sie besonders komplex, aufwändig oder langwierig sind wie bei den meisten Softwareprojekten, sondern in den Köpfen der Manager.
Als Dienstleister, der sich zur Mission gemacht hat Data-Science und Künstliche Intelligenz in mittelständische Unternehmen zu bringen und das brach liegende Potential zu nutzen stehen wir von Ailio Seite aus oft vor einer ganz konkreten Herausforderung:
„Wir entwickeln etwas mit für euch abstrakten Technologien bei dem wir euch das genaue Ergebnis und ob die Herausforderung überhaupt lösbar ist nicht versprechen können.“
Das hört sich erstmal nach einem nicht besonders Management-Tauglichen Pitch an und wir geben natürlich unser bestes es sexier und nachvollziehbarer zu verpacken.
Im Kern stimmt die Aussage jedoch – Data Science Projekte haben immer einen Research and Development (kurz R&D) Charakter. Jedes Unternehmen ist anders – auch wenn es aus der gleichen Branche stammt und eine ähnliche Daten- und IT-Strategie hat. Die Qualität, Anzahl und Form der Daten ist immer anders und hat massive Auswirkungen auf Herangehensweise, Aufwand sowie Erfolg.
Kurz gesagt: Man weiß es vorher meistens einfach nicht und muss einfach mal tun. In der Regel kann man mit überschaubarem Aufwand gute Ergebnisse erzielen, die Datenmenge, die einem KMU vorliegen reicht für die meisten Use-Cases völlig aus und bei einer guten Evaluation scheitert der Use-Case auch meist nicht grundsätzlich.
Aber man weiß es halt vorher nicht … und falsche Versprechungen haben ein Geschmäckle wie man in Süddeutschland sagen würde.
Wir können wir also sicherstellen, dass die Projekte zu einem Erfolg werden und die Investitionsentscheidung möglichst attraktiv gestalten?
Grundsätzlich empfiehlt sich in kleinen risikominimierenden Schritten zu denken und nicht zu versuchen sofort das große ganze zu planen. Man hat einen spannenden Use-Case und Daten dafür? Erstmal ein Deep Dive in die Daten, um Sie wirklich zu verstehen, fragen beantwortet zu bekommen, zu sehen was noch fehlt und erweitert werden muss … das dauert meistens maximal eine Woche und hat viele konkrete Vorteile. Angefangen damit, dass das Unternehmen seine eigenen Daten überhaupt versteht.
Danach empfiehlt sich ein kurzes Proof of Concept in dem eine Minimalversion umgesetzt wird, die beweist, dass die Grundannahme korrekt und umsetzbar ist. Falls sich beim Deep Dive rausstellt, dass die Datenstruktur und Infrastruktur erstmal To-Dos hat um das Unternehmen in den Stand zu versetzen DS Projekte durchführen zu können … ist das vor dem PoC nach Bedarf noch nötig.
Ein Proof of Concept sollte im Optimalfall je nach Use-Case zwischen 5 und 20 Tage dauern und dadurch die Investition schlank halten die dafür nötig ist.
Am Ende dieser Phasen hat man etwa 15-30 Projekttage investiert was für die meisten Unternehmen eine überschaubare Investition ist mit dem Ergebnis ein klares Bild über die eigene Datenlage zu haben, diese transformiert und optimiert vorliegen zu haben und genau zu wissen was damit in welchem Umfang umsetzbar ist.
Auf Basis der PoC Erkenntnisse lässt sich in der Regel ein konkreter Projektplan fürs MvP erstellen und konkretere Versprechungen machen … wir werden also langsam Management tauglich. Ab hier haben wir im Endeffekt ein normales Softwareprojekt.
Viele Data-Science Projekte sind eigentlich schon zu Tode geweiht, bevor Sie gestartet wurden. Besonders im Konzernumfeld glaubt man nicht wie viel wir schon entwickelt haben was, obwohl es erfolgreich war und sehr sinnvoll einzusetzen wäre nie die PoC Phase überstiegen hat.
Woran liegt das? Am Ende verändern Data-Science Projekte den Arbeitsalltag von Menschen die oft niemals dazu befragt oder bei der Entwicklung involviert werden. Das führt dazu, dass die initial gute Idee intern nie beworben und akzeptiert wurde. Hier kommt dann die böse Überraschung am Ende, wenn der Verantwortliche der Abteilung der das Projekt helfen soll gar nicht wirklich dahinter steht und die Mitarbeiter nicht verstehen was das alles soll oder sogar Angst davor haben.
Gleiches Spiel wie bei Punkt 2 nur auf technischer Ebene … ein Unternehmen ist in der Lage die Kosten für ein Data-Science Projekt für sich selber massiv nach oben zu schrauben und gleichzeitig die Erfolgswahrscheinlichkeit zu minimieren indem durch Abteilungs- und Zuständigkeitsdenken sowie fehlende Kooperationsbereitschaft der Unternehmens-IT das Data-Science Team nicht die Zugriffe und Unterstützung erhält die es benötigen würde. Ein DS Projekt funktioniert selten von allein. Oft müssen die Ergebnisse in die Software integriert werden, API´s angesprochen werden, Daten zur Verfügung gestellt und erklärt oder vielleicht erst mal überhaupt erfasst werden.
Mit dem Glauben an Data-Science ist das so eine Sache … man kann Ihn belächeln oder ernst nehmen. Am Ende ist das Ziel von Data-Science Projekten datengetriebene und faktenbasierende Entscheidungen zu treffen. Man entwickelt eine Software die alle Daten sieht, erkennt und Zusammenhänge herstellen kann die das menschliche Gehirn niemals überblicken oder verstehen kann. Am Ende liegt die Entscheidung wie mit den Ergebnissen der Software umgegangen wird auch oft immer noch in Menschenhand. Im Endeffekt hat Data-Science wenig mit glauben zu tun da es der Weg weg von manueller Arbeit und Bauchgefühl Entscheidung zu Automatisierung und Faktenbasierender Vorgehensweise ist. Hier muss ein Umdenken auf Organisationsebene stattfinden, um zu verstehen – dass auch wenn die Ergebnisse nicht kalkulierbar und vorhersehbar sind – sie sicherlich konkreter und zuverlässiger sein werden als das reine Bauchgefühl. Ein an sich nachvollziehbarer Gedanke der jedoch bei Investitionsentscheidung trotzdem vielen im Data-Science Umfeld unerfahrenen Entscheidern Bauchschmerzen bereitet.
Die Ailio GmbH ist ein auf Data-Science und Künstliche Intelligenz spezialisierter Dienstleister aus Bielefeld. Wir beraten in beiden Bereichen und entfesseln das Potential der Daten, die momentan im deutschen Mittelstand brach liegen. Dabei gehen wir kostenoptimierend und risikominimierend vor. Bei Interesse kontaktieren Sie uns gerne direkt!
Sichere Datenverwaltung mit der Databricks Plattform: Best Practices Das Verständnis von Datensicherheit spielt eine entscheidende Rolle beim Schutz vor Bedrohungen wie Datenübernahmen oder -lecks. Die
Fabric vs. Databricks: Ein Umfassender Vergleich für Datengetriebene Unternehmen In der sich ständig weiterentwickelnden Landschaft der Datenverarbeitung und -analyse stehen Unternehmen vor der Herausforderung, die
Neue Funktionen der AI/BI Dashboards von Databricks im Detail Databricks hat mit der Einführung seiner Data Intelligence Platform einen bedeutenden Schritt unternommen, um die Interaktion