Du kannst Wochen in ein KI-PoC stecken und am Ende trotzdem nicht wissen, ob es „gut“ war. Nicht, weil dein Team schlecht arbeitet, sondern weil ihr ohne Ausgangspunkt arbeitet. Ohne Baseline wirkt jede Zahl willkürlich, jede Optimierung wie Aktionismus, jede Diskussion wie Bauchgefühl gegen Bauchgefühl. Genau hier liegt der Hebel: Wer früh eine Baseline schafft, entscheidet schneller, investiert gezielter und beendet PoCs, bevor sie zum Fass ohne Boden werden.
Hier ist der Kern: Ein PoC scheitert selten am Modell. Er scheitert daran, dass niemand sauber definiert hat, woran Erfolg überhaupt gemessen wird, und dass der Status quo nicht quantifiziert ist.
Warum eine Baseline dein KI-PoC rettet (oder schnell beendet)
Viele Unternehmen starten ein PoC mit einer Vision von „perfekt“. Das Ergebnis: Enttäuschung ist vorprogrammiert, weil niemand weiß, wie „besser als heute“ überhaupt aussieht. Alex Grimm bringt es auf den Punkt: Wenn dir der Vergleich fehlt, „schwimmt man so ein bisschen“.
KI-PoC abbrechen oder retten: Warum eine Baseline über Erfolg oder Scheitern entscheidet
Du steckst Wochen in einen KI-PoC, alle sind beschäftigt, die Ergebnisse sind „irgendwie okay“, und trotzdem bleibt das Gefühl: Wir wissen nicht, ob das hier gerade gut läuft oder ob wir uns nur selbst beruhigen. Genau an diesem Punkt passieren die teuersten Fehler. Nicht, weil das Modell „zu schlecht“ ist, sondern weil niemand sauber festgelegt hat, woran „gut genug“ überhaupt gemessen wird. Der Hebel, der am meisten Klarheit schafft, ist überraschend unspektakulär: eine belastbare Baseline, die du schnell erreichst und konsequent als Orientierung nutzt.
KI-PoC erfolgreich machen: Erst Baseline, dann Optimierung
Viele Teams starten einen Proof of Concept mit einer idealen Zielvorstellung im Kopf. Das Problem: Ohne Vergleichsmaßstab wirkt jedes Ergebnis willkürlich. Eine Baseline ist genau dieser Vergleichsmaßstab. Sie beantwortet drei Fragen, die über Fortführung oder Abbruch entscheiden:
- Wo stehen wir heute wirklich (Zeit, Kosten, Qualität, Risiko)?
- Was ist „besser als vorher“ und wie stark muss „besser“ sein?
- Welche Veränderung hat welchen Effekt gehabt?
In der Praxis fehlt diese Baseline häufig, weil der Ist-Prozess informell funktioniert: Bauchgefühl, Erfahrungswissen, Excel, kurze Abstimmungen zwischen Abteilungen. Das kann operativ jahrelang „gut genug“ sein, ist aber für einen KI-PoC Gift. Denn ohne Baseline kannst du weder Fortschritt belegen noch sauber argumentieren, warum du mehr Zeit, mehr Daten oder einen anderen Ansatz brauchst.
Hier ist der entscheidende Perspektivwechsel: Ein PoC ist nicht nur ein Modelltest. Er ist oft der erste Moment, in dem ein Unternehmen seinen Prozess so strukturiert, dass er überhaupt messbar wird. Diese Messbarkeit ist bereits ein Ergebnis, selbst wenn das Modell am Ende noch nicht produktionsreif ist.
Praxisregel: Definiere die Baseline in Business-Begriffen, nicht in ML-Begriffen. Statt sofort mit Accuracy, F1 oder MAE zu starten, kläre zuerst: Wie lange dauert der Prozess heute? Was kostet er? Wo treten Fehler auf? Welche Folgeprobleme hängen daran? Danach übersetzt du das in technische Metriken.
Wann du einen KI-PoC abbrechen solltest: Nach wenigen Iterationen muss ein Signal da sein
Ein PoC darf sich nicht wie eine Endlosschleife anfühlen. Gleichzeitig ist „Abbruch“ oft emotional aufgeladen, weil Teams das Wort als Scheitern interpretieren. Operativ brauchst du aber einen nüchternen Mechanismus, der sagt: Wir haben genug gesehen, um zu entscheiden.
Ein hilfreiches Vorgehen aus der Projektpraxis: Arbeite in kurzen Iterationen und zwinge dich früh zu einer ersten Zahl. Nicht, weil diese Zahl schon „stimmt“, sondern weil du damit Orientierung bekommst. Wenn du ein Ziel definiert hast (zum Beispiel ein Fehlermaß unter einem Schwellenwert), dann ist der Abstand zum Ziel dein Frühwarnsystem:
- Liegt dein erstes Modell knapp neben dem Ziel, hast du Rückenwind. Dann lohnt sich Optimierung.
- Liegt es weit daneben, brauchst du sehr wahrscheinlich andere Voraussetzungen: mehr Daten, andere Features, ein anderes Messkonzept, manchmal sogar eine andere Problemformulierung.
Wichtig ist das Timing: Viele Teams verlieren zu viel Zeit in der Datenanalyse, bevor sie überhaupt ein erstes Modell bauen. Das fühlt sich gründlich an, verzögert aber die einzige Erkenntnis, die du wirklich brauchst: Gibt es ein realistisches Signal, dass dieser Use Case mit den vorhandenen Daten in absehbarer Zeit tragfähig wird?
Praxisregel: Plane maximal drei ernsthafte Iterationsschleifen ein, bevor du eine harte Zwischenentscheidung triffst. Danach gilt: Entweder du bist in einem Bereich, in dem Optimierung mit vertretbarem Aufwand greift, oder du brauchst strukturelle Änderungen (Daten, Prozess, Scope).
Der häufigste Grund für „gescheiterte“ PoCs: Es fehlt Prozess- und Datenerfassung, nicht KI-Kompetenz
Viele PoCs laufen nicht gegen eine technische Wand, sondern gegen die Realität der Datenerhebung. Ein typisches Muster: Im PoC wird sichtbar, dass Daten in zu grober Frequenz erfasst werden, wichtige Einflussgrößen fehlen oder die Datenqualität schwankt, weil Sensoren, Systeme oder Abläufe sich ändern.
Das fühlt sich im Projekt wie ein Rückschritt an, ist aber eigentlich die wertvollste Erkenntnis, die ein PoC liefern kann: Welche Hausaufgaben sind nötig, damit das Problem überhaupt lösbar wird.
Wenn du in einem Labor dreimal am Tag misst, aber für belastbare Prognosen alle 15 Minuten bräuchtest, dann ist das kein Modellproblem. Dann ist es ein Mess- und Prozessproblem. Und ja, das kann bedeuten, dass der PoC in seiner ursprünglichen Zielsetzung nicht erreichbar ist. Trotzdem hast du nicht „nichts“ erreicht. Du hast Klarheit geschaffen, was sich ändern muss, damit eine spätere Lösung funktioniert.
Praxisregel: Formuliere PoC-Ergebnisse immer in zwei Spuren:
- Ergebnis für den Use Case (wie nah kommen wir ans Ziel mit dem heutigen Setup?)
- Ergebnis für die Organisation (welche Prozess- und Datenthemen müssen wir lösen, um das Ziel erreichbar zu machen?)
So verhinderst du, dass „nicht produktionsreif“ automatisch als „wertlos“ gelesen wird.
Erwartungsmanagement im KI-PoC: Der unsichtbare Budgetkiller
Der schnellste Weg, einen PoC zu ruinieren, ist eine schleichende Erwartungslücke. Du merkst sie daran, dass am Ende alle enttäuscht sind, obwohl alle hart gearbeitet haben. Das passiert oft, wenn „PoC“ im Kopf der Stakeholder etwas anderes bedeutet als im Kopf der Data-Science-Seite.
Ein PoC ist Proof of Concept. Er beweist, dass eine Idee technisch grundsätzlich umsetzbar ist oder eben nicht, und welche Voraussetzungen dafür gelten. Er ist kein Versprechen auf ein fertiges Produkt, das direkt live gehen kann. Wenn diese Unterscheidung nicht glasklar sitzt, entstehen zwei typische Effekte:
- Der Scope wächst durch Sonderwünsche und Detaildiskussionen („Sonderlocken“), bis Zeit und Budget nicht mehr passen.
- Die Bewertung wird unfair: Der eine bewertet gegen „perfekt“, der andere gegen „besser als vorher“.
Gerade bei generativer KI verschärft sich das Problem, weil Erfolg oft nicht mit einer einzelnen Zahl beschrieben werden kann. Du brauchst zusätzliche Evaluation, Domänenexpertise und klare Kriterien, was „gut“ im Kontext bedeutet.
Praxisregel: Lege vor Projektstart schriftlich fest:
- Ziel des PoC (was wird bewiesen?)
- Erfolgskriterien (quantitativ oder qualitativ, aber überprüfbar)
- Was explizit nicht Teil des PoC ist
- Entscheidungslogik am Ende (Go, Pivot, Stop)
Das klingt nach Formalität, spart aber in der Realität die meisten Diskussionen.
Zeit und Budget im KI-PoC richtig investieren: Schnelle Orientierung schlägt perfekte Analyse
Wenn Teams über PoCs sprechen, denken viele an Modelltraining und Algorithmen. In der Praxis fließt ein großer Teil der Zeit in Kommunikation, Datenbeschaffung, Datenverständnis und Aufbereitung. Das ist kein Makel, sondern die Realität von Unternehmensdaten.
Eine robuste Faustformel aus Projekterfahrung: In einem PoC mit beispielsweise 20 Arbeitstagen geht ungefähr die Hälfte dafür drauf, bis Daten da sind, erste Schleifen gedreht wurden und offensichtliche Probleme sichtbar sind. Danach folgt eine Phase, in der du die Daten so aufbereitest, dass Modelle sinnvoll trainieren können. Das eigentliche Modelltraining ist oft überraschend kurz, gerade mit modernen AutoML-Ansätzen und bewährten Standardmethoden.
Der Fehler vieler Teams: Sie investieren zu spät in das, was sie später am härtesten trifft, nämlich Datenqualität und Prozessstabilität. Oder sie verlieren sich zu früh in Details, bevor klar ist, ob der Use Case grundsätzlich trägt.
Praxisregel: Baue deinen PoC-Plan so, dass du spätestens in der ersten Woche eine grobe Baseline und ein erstes Modellresultat hast. Parallel startest du die Kommunikation, um fehlende Daten oder Prozessinfos früh anzuschieben. Denn Daten nachzuliefern dauert auf Kundenseite fast immer länger als gedacht.
Domänenwissen als Erfolgsfaktor: Ohne Entstehungskontext werden Daten zur Falle
Domänenwissen ist kein „nice to have“, sondern ein Schutz vor falschen Schlüssen. Besonders in Industrie- und Sensor-Setups kann ein Data-Science-Team ohne Kontext zwar kurzfristig gute Zahlen erreichen, aber später scheitert das System, weil sich Rahmenbedingungen ändern oder Messwerte temporär falsch sind.
Entscheidend ist, dass du verstehst, wie Daten entstehen:
- Welche Sensoren messen was, in welchem Zustand, mit welcher Wartung?
- Welche Prozessschritte beeinflussen die Werte?
- Welche Änderungen wurden in Systemen oder Erfassungsintervallen gemacht?
- Welche Anomalien sind „echt“ und welche sind Messartefakte?
Wenn dieses Wissen nur bei wenigen Personen liegt, musst du sie aktiv einbinden. Sonst optimierst du auf ein Datenbild, das mit der Realität nur zufällig zusammenhängt.
Praxisregel: Sichere dir für den PoC verbindliche, kurze Zeitfenster mit Domänenexperten, zum Beispiel zweimal pro Woche 15 Minuten. Nicht irgendwann, sondern ab Woche 1. Ein PoC ohne verfügbare Ansprechpartner verliert Zeit an den falschen Stellen.
Stolpersteine im KI-PoC: Silent Errors schlagen dich später, wenn du sie heute ignorierst
Ein unterschätztes Risiko sind „Silent Errors“, also Fehler, die technisch nicht auffallen, aber fachlich die Ergebnisse entwerten. Beispiele:
- Daten sind syntaktisch korrekt, aber semantisch falsch (Vorzeichen, Einheiten, Grenzwerte).
- Daten sind im PoC verfügbar, im späteren Einsatz aber nicht.
- Erfassungsintervalle oder Systeme ändern sich, ohne dass das Projektteam es erfährt.
- Preprocessing-Schritte propagieren kleine Fehler durch die gesamte Pipeline.
Die Lösung ist nicht „mehr Sorgfalt“, sondern einfache Validierungen, die früh Alarm schlagen: Eindeutigkeit von Keys, Wertebereiche, Plausibilitätsregeln, Checks beim Eingang neuer Datenlieferungen. Das kostet wenig Zeit und spart massive Debugging-Aufwände, die sonst rückwärts durch die Pipeline laufen.
Praxisregel: Setze schon im PoC leichte Data-Validation-Checks auf. Du musst keinen perfekten Produktionsstandard erreichen, aber du brauchst Leitplanken, damit du nicht Tage mit Fehlersuche verlierst, weil irgendwo ein triviales Detail kippt.
Abbruchkriterien für den KI-PoC: So triffst du eine saubere Entscheidung ohne Drama
Ein PoC-Abbruch wirkt nur dann wie ein Scheitern, wenn du ihn als „wir haben kein Modell gebaut“ definierst. Definierst du ihn als „wir haben Klarheit geschaffen“, wird er zu einem Steuerungsinstrument.
Nutze diese Entscheidungsmatrix:
Stop (Abbruch), wenn:
- Das erste Modell nach wenigen Iterationen weit vom Ziel entfernt ist und keine realistischen Hebel sichtbar sind.
- Kritische Daten im geplanten Zeitraum nicht beschaffbar sind.
- Der Use Case strukturell nicht evaluierbar ist (fehlende Kriterien, fehlende Experten, keine Priorität).
Pivot (neu schneiden), wenn:
- Der Use Case grundsätzlich sinnvoll ist, aber Datenfrequenz, Datenerfassung oder Prozessschritte angepasst werden müssen.
- Erfolgskriterien angepasst werden sollten, weil die ursprünglichen Erwartungen nicht zur Realität passen.
- Ein Teilproblem klar lösbar ist und schnell Business-Wert liefert.
Go (fortführen), wenn:
- Du eine Baseline hast und das Modell bereits messbar besser ist als der Ist-Zustand.
- Stakeholder die Ergebnisse in Business-Auswirkungen übersetzen können.
- Domänenexperten verfügbar sind und das Projekt die nötige Priorität bekommt.
Was du ab morgen anders machen solltest (konkret)
- Definiere in 60 Minuten eine Baseline, auch wenn sie grob ist: Dauer, Kosten, Fehlerquote, manuelle Schritte, Abhängigkeiten.
- Erzwinge früh eine erste Zahl: Ein erstes Modell oder ein erster Evaluationsscore in Woche 1, damit du Orientierung bekommst.
- Schreibe Erfolgskriterien auf eine Seite: Ziel, Messung, Scope, Nicht-Scope, Entscheidungslogik.
- Plane Domänenexpertise als Pflichttermin ein: kurze, regelmäßige Slots statt sporadischer Rückfragen.
- Baue minimale Data-Validation ein, damit Silent Errors nicht deine Iterationszeit fressen.
- Triff nach maximal drei Iterationen eine Zwischenentscheidung: Go, Pivot oder Stop, und begründe sie mit Baseline und Abstand zum Ziel.
Warum das entscheidend ist: Sobald du eine erste Zahl hast, kannst du sie in einen Business Case übersetzen. Dann wird aus „KI wäre cool“ ein konkretes Gespräch über Nutzen, Risiko und nächste Schritte.