6. Oktober 2023 von Sezen Ipek und Stefan Mönk
Die richtige Wahl: Verschiedene agile Ansätze für Data Science-Projekte
Agile Softwareentwicklung hat sich in vielen Branchen als effektive Methode zur Steigerung der Produktivität, der Qualität und der Kundenzufriedenheit erwiesen. Doch wie sieht es in der Welt der Data Science (DS) aus? Um den Ergebnissen aus den im Vorfeld durchgeführten Interviews mit Kolleginnen und Kollegen aus DS-Projekten eines bereits jetzt zu entnehmen: Es steht außer Frage, ob agile Methoden in DS-Projekten notwendig und zielführend sind. Das sind sie. Die Frage ist also nur, wie die Auswahl des richtigen Ansatzes erfolgt und wie die Stärken der agilen Vorgehensweisen kombiniert werden können.
In diesem Blog-Beitrag werden wir die spezifischen Anforderungen an DS-Projekte und die Auswahl des richtigen agilen Ansatzes betrachten. Dabei wird ein Blick auf den aktuellen Stand der Forschung geworfen.
Anforderungen an DS-Projekte
DS-Projekte sind oft durch komplexe Datenmodelle, umfangreiche Analyseprozesse und kontinuierliche Verbesserungen geprägt. Wir betrachten die spezifischen Anforderungen, die diese Projekte mit sich bringen, wie beispielsweise den Umgang mit großen Datenmengen, die Notwendigkeit von iterativem Vorgehen und die Integration von Feedbackschleifen. Indem wir die Anforderungen verstehen, können wir besser einschätzen, welche agilen Ansätze in den DS-Projekten benötigt werden. Trotz etablierter DS-Vorgehensmodelle gaben in einer Umfrage von Saltz (2018) 82 Prozent der Data Scientists an, dass sie keinen expliziten Prozess befolgen, und weitere 85 Prozent waren der Meinung, dass sich die Projektergebnisse mit einer systematischen Prozessmethodik verbessern würden.
CRISP-DM als bewährtes Vorgehensmodell bietet eine Reihe von Richtlinien für die Durchführung von DS-Projekten. Diese sind zwar hilfreich, jedoch müssen sie in einen agilen Rahmen integriert werden, der Iterationen mit inkrementellem Verhalten vorgibt.
CRISP-DM umfasst keine Beschreibungen zu Teamkoordination, Kommunikation oder Prioritätensetzung. Es beschreibt, was zu tun ist, aber nicht, wie es getan werden soll. Beispielsweise sind Rückkopplungen und Iterationen in einer früheren Phase im CRISP-DM-Ansatz möglich, jedoch gibt es keinen definierten Prozess, wie und wann Entwicklerteams iterieren sollten. Daher ist es erforderlich, geeignete Projektmanagementmethoden einzusetzen, die den iterativen Vorgang auf Machbarkeit prüfen. Die Anwendung von Projektmanagementmethoden und Vorgehensweisen sollte einen systematischen und durchdachten Ansatz verfolgen, weil die Durchführung nicht trivial ist und eine der größten Herausforderungen darstellt. Projekte scheitern oft nicht aufgrund ihrer technischen Natur, sondern vielmehr aus Prozess- und Projektmanagementsicht.
Laut Kleist und Pier sind eine zielgerichtete Kommunikation sowie ein ordnungsgemäßes Erwartungsmanagement wichtige Faktoren für den Erfolg von DS-Projekten. Dabei sollte eine iterative Vorgehensweise etabliert werden, die eine kontinuierliche Verbesserung verfolgt.
Eine weitere Anforderung, die an DS-Projekte im agilen Kontext gestellt wird, ist das erforderliche Skillset eines Data Scientist. Data Science ist eine interdisziplinäre Wissenschaft, die spezialisierte Fachkräfte mit Expertise in Statistik, Mathematik und Informatik verlangt. Zudem müssen Data Scientists ihr Methodenwissen und ihre Kompetenzen ständig erweitern, um ausreichend qualifiziert zu sein.
Auswahl des richtigen Ansatzes
Es gibt verschiedene agile Ansätze wie Scrum, Kanban oder Lean. Doch nicht jeder Ansatz passt zu jedem DS-Projekt. Wir diskutieren die Vor- und Nachteile der verschiedenen Rahmenwerke und Methoden und zeigen auf, wie man den richtigen Ansatz für ein bestimmtes Projekt auswählt. Dabei spielen Faktoren wie die Komplexität des Projekts, die Teamgröße, die Verfügbarkeit von Domänenexpertinnen und experten und die Flexibilität der Anforderungen eine wichtige Rolle.
Während stabile und konsistente Anforderungen für klassische Vorgehensweisen geeignet sind, passen veränderliche und volatile Anforderungen sowie komplexe Aufgabenstellungen mit unvorhersehbaren Ergebnissen zu agilen Projekten. Zudem gilt: Je komplexer das Projekt, desto sinnvoller ist die Anwendung agiler Methoden und Rahmenwerke. Die Bestimmung der Komplexität eines Projekts kann mithilfe der Stacey-Matrix (siehe Abbildung 4) erfolgen, die die technische Lösung und die Anforderungen gegenüberstellt. Diese sollte allerdings eher als Orientierung statt als ein eindeutiges Zuordnungshilfsmittel verstanden werden.
Nach der Stacey-Matrix können Projekte in folgende Komplexitätsstufen eingeteilt werden: einfach, kompliziert, komplex und Chaos. Auf der X-Achse wird die Klarheit des Lösungsansatzes beschrieben, während die Y-Achse die Klarheit der Projektanforderungen darstellt. Je unklarer ein Projekt, desto mehr wird die Anwendung von agilen Methoden empfohlen.
Für komplizierte Projekte eignet sich die agile Methode Kanban und für komplexe Projekte ist laut der Stacey-Matrix Scrum das passende Rahmenwerk. Chaotische Projekte mit unklaren Anforderungen und unklaren Lösungsansätzen bieten eine geeignete Grundlage für Design-Thinking-Prozesse.
DS-Projekte werden als komplexe und unvorhersagbare Projekte eingestuft, für die sich agile Vorgehensweisen eignen. Jedoch stellt sich die Frage, welche agilen Vorgehensweisen eingesetzt werden und wie sie zu bewerten sind. Welche Chancen und Herausforderungen verbergen sich hinter dem Einsatz agiler Frameworks im DS-Kontext?
Im nächsten Blog-Beitrag teilen wir unsere Erkenntnisse zu diesen Fragen mit euch!
Der Stand der Forschung
Zum Thema Agilität gibt es zahlreiche Ausarbeitungen, die sich mit verschiedenen agilen Projektmanagementmethoden befassen und die Wichtigkeit agilen Denkens und Handelns für Unternehmen in einem dynamischen Umfeld hervorheben.
Das Rahmenwerk Scrum und die Methode Kanban werden in vielen Arbeiten thematisiert, während es zu Scrumban kaum Literatur gibt. Hinsichtlich der Themenbereiche Data Science, Machine Learning und KI gibt es weitere zahlreiche Ausarbeitungen, die einen konzeptionellen und technischen Überblick über die Disziplinen geben. Zu CRISP-DM gibt es zwar einige Publikationen, jedoch besteht insbesondere im agilen Kontext noch viel Forschungsbedarf. Das gilt vor allem für den CRISP-ML(Q)-Ansatz, da dieser kaum erforscht wurde. Die Auswahl der passenden Methode oder des Rahmenwerks ist aufgrund der komplexen und unsicheren Natur von DS-Projekten essenziell. Dabei kommen verschiedene Ansätze wie Scrum, Kanban oder Design Thinking in Frage. Jedoch gibt es nur wenige Forschungsansätze zu agilen DS-Projekten. Die Begriffe Agilität und Data Science wurden im Projektmanagementkontext lediglich von Kleist und Pier (2021) und Saltz und Suthrland (2019) aufgegriffen.
In der Arbeit von Kleist und Pier (2021) erfolgt eine Anwendung von Scrum auf ein DS-Projekt in der Automobilindustrie. Saltz und Suthrland (2019) führten eine Studie zu einem agilen Framework durch und verglichen es konzeptionell mit Scrum und Kanban. Weiterhin taucht der Begriff „Data Thinking“ auf, bei dem Design Thinking und Data Science kombiniert werden. Allerdings fehlt es an einer ganzheitlichen Lösung für agile DS-Projekte. Es gibt keine umfassenden Untersuchungen zu Projektkriterien, zur Kompatibilität von agilen Methoden und Rahmenwerken und Data Science sowie zur Kombination verschiedener agiler Ansätze in DS-Projekten.
Ausblick
Wie immer kommt es auf die spezifischen Anforderungen des Projekts, die Teamzusammensetzung und andere Faktoren an, wenn es darum geht, die richtigen Methoden und das passende Rahmenwerk der agilen Softwareentwicklung für sich zu nutzen. Die Frage, welcher agile Ansatz passt, ist daher nicht trivial zu beantworten. Neben Projektkriterien spielen die Projektphasen bei der Wahl des richtigen Ansatzes eine entscheidende Rolle. So eignen sich beispielsweise Scrum oder Scrumban besser für spätere Projektphasen, während sich Kanban oder Design Thinking in frühen Projektphasen als vorteilhafter erwiesen haben. Zu konkreten Handlungsempfehlungen kommen wir aber erst im nächsten Blog-Beitrag.
Der Fokus liegt auf dem „Being agile“ und darin, die Teams zu unterstützen, gemeinsam einen für sie passenden Weg zu finden. Dabei ist ein experimenteller, iterativer Ansatz hilfreich, um Schritt für Schritt die besten Vorgehensweisen zu erproben und zu optimieren.
In diesem Blog-Beitrag habe ich die Anforderungen an DS-Projekte beleuchtet, die Auswahl des richtigen agilen Ansatzes diskutiert und euch einen Einblick in den aktuellen Stand der Forschung gegeben.
Hier noch einmal eine kurze Zusammenfassung der Anforderungen:
- 82 Prozent der Data Scientists gaben in vorweg durchgeführten Interviews an, dass sie keinen expliziten Prozess befolgen, und 85 Prozent waren der Meinung, dass sich die Projektergebnisse mit einer systematischen Prozessmethodik verbessern würden.
- CRISP-DM als Vorgehensmodell bietet Richtlinien für DS-Projekte, muss aber in einen agilen Rahmen integriert werden, der Iterationen mit inkrementellem Verhalten vorgibt.
- Es fehlen Beschreibungen zu Teamkoordination, Kommunikation und Prioritätensetzung in CRISP-DM.
- Projektmanagementmethoden müssen den iterativen Vorgang prüfen und auf das Projekt anpassen.
- Eine zielgerichtete Kommunikation und ein ordnungsgemäßes Erwartungsmanagement sind entscheidend für den Erfolg von DS-Projekten.
- Data Science erfordert ein umfangreiches Skillset in Statistik, Mathematik und Informatik.
- DS-Projekte stellen hohe Anforderungen an das Projektmanagement und die Beteiligten.
- Die Auswahl des richtigen agilen Ansatzes ist entscheidend für den Projekterfolg und sollte begründet und durchdacht erfolgen.
Weitere spannende Themen aus der adesso-Welt findet ihr in unseren bisher erschienenen Blog-Beiträgen.
Auch interessant: