7. November 2019 von Prof. Dr. Volker Gruhn
6. These: KI fängt mit „D“ wie „Daten“ an
Die einen bauen Bagger, die anderen führen Konten, die nächsten entwickeln Medikamente: Es ist noch nicht lange her, da konnten Unternehmen fein säuberlich in Kategorien eingeordnet werden: Maschinenbau, Finanzindustrie oder Gesundheitswesen. Jeder Wirtschaftszweig mit seinen Prozessen, seinen Besonderheiten, seinen Technologien. Informationstechnologie war dabei etwas, das im Hintergrund mitlief. Sie diente dazu, Prozesse effizienter zu gestalten – aber im Kern ging es Unternehmen um das Verkaufen von Baggern, um Konten oder Medikamente.
Seit ein paar Jahren sind diese Abgrenzungen in Bewegung. Unternehmen schmieden auf den ersten Blick überraschende Allianzen: der Automobilhersteller mit dem Suchmaschinenanbieter, die Dax-30-Bank mit dem 30-Köpfe-Data-Science-Start-up. Diese Kooperationen sind Zeichen eines Trends, der sich quer durch alle Branchen und durch alle Unternehmen zieht. Die eigenen Prozesse im Griff zu haben, ist eine notwendige Bedingung für den Geschäftserfolg – aber keine hinreichende mehr. Daten sind inzwischen der Stoff, aus dem die unternehmerischen Träume sind. Seien es personenbezogene Daten, Nutzungsdaten, Umweltdaten, Verkaufsdaten, Produktionsdaten oder Maschinendaten: Unternehmen, die richtig mit ihnen umgehen, die richtigen Schlüsse aus ihnen ziehen und auf ihrer Basis neue Services und Produkte anbieten, gehören zu den Gewinnern. Denn Daten sind der Treibstoff, der viele neue Geschäftsmodelle oder Anwendungsfälle befeuert, nicht zuletzt Künstliche Intelligenz (KI): ohne Daten kein Maschinelles Lernen (ML).
Entsprechend groß ist die Bedeutung, die Daten für das Entwickeln von KI-Anwendungen haben. Dieser Bedeutung müssen die Projektbeteiligten gerecht werden – und das von Anfang an. Es gilt, möglichst frühzeitig ein genaues Bild von der vorhandenen Datengrundlage zu gewinnen. Unser Vorgehensmodell für KI-Projekte – „Building AI-based Systems“ – strukturiert diese Datenanalyse zu Beginn des Projektes.
Nach Daten drängt, an Daten hängt doch alles
Die erste Frage, die sich den Expertinnen und Experten stellt, ist die Verfügbarkeit von Daten. Der Umfang der weltweit gesammelten Daten erreicht schwindelerregende Höhen. Das bedeutet aber nicht, dass die für die konkrete KI-Aufgabenstellung benötigten Daten auch verfügbar sind. Ein klassisches Beispiel kommt aus dem Maschinenbau. Ein Hersteller verbaut in seinen Maschinen zahlreiche Sensoren, die Betriebsparameter erfassen. Dazu gehören Temperaturen, Drehgeschwindigkeit oder Druck. Diese Daten werden aber ausschließlich innerhalb der Maschine genutzt, beispielsweise um Betriebsbereitschaft oder Auslastung zu messen. Das Erfassen und Weiterverarbeiten in einem Informationssystem war bisher nicht vorgesehen. Es sind aber genau diese Daten, die das Projektteam benötigt. Beispielsweise, um eine KI-Anwendung zu entwickeln, die Ausfallwahrscheinlichkeiten von Maschinen prognostiziert. In diesem Fall müssen die Beteiligten den Betrieb anpassen und Sensoren mit dem Informationssystem verbinden. Bevor das eigentliche KI-Entwicklungsprojekt anfängt, schaffen die Mitwirkenden so die Datengrundlage im laufenden Betrieb.
Eine andere Möglichkeit ist das Zukaufen von Daten. Seien es Statistiken über Marktentwicklungen und Kundengruppen oder Umweltdaten wie Temperatur und Sonnenscheindauer: Je nach Anwendungsfall sind es gerade externe Informationen, die dem Projektteam dabei helfen, ein vollständiges Bild der Ist-Situation in ihr KI-Projekt einfließen zu lassen.
Auch wenn keine Datengrundlage vorhanden ist, muss dies also nicht das Ende der KI-Pläne bedeuten.
Können die Expertinnen und Experten auf Daten zurückgreifen, ist es ihre Aufgabe zu prüfen, ob die notwendigen Informationen für das Entwickeln der gewünschten Funktionalität in den vorhandenen Daten stecken. Kann ich beispielsweise saisonale Absatzschwankungen mit den gesammelten historischen Verkaufsdaten erklären und entsprechende Prognosen für die Zukunft treffen? In diesem Abschnitt des Projektes herrscht bei den Beteiligten häufig Unsicherheit über die KI-Eignung der Daten. Das Potenzial für den Einsatz ist auf den ersten Blick nicht erkennbar. Im Vorgehensmodell des Building AI-based Systems schließt sich in dieser Situation die Phase Data Lake an. Sie dient zur eingehenden Prüfung der vorhandenen Datenbasis.
Die zentrale Rolle übernimmt der Data Scientist, indem er die verfügbaren Daten überprüft und Gruppen oder Zusammenhänge analysiert. Der Data Scientist überarbeitet die Daten so, dass er mit den Domänenexperten auf dieser Basis über Nutzungsmöglichkeiten diskutieren kann. In wöchentlichen Meetings tauschen sich die Beteiligten über neue Erkenntnisse aus. Ihre Analyse dokumentieren sie im sogenannten Data Report. Im Gegenzug konkretisieren die Fachexpertinnen und Fachexperten die Anforderungen der geplanten Anwendung. Dafür bietet sich das Nutzen eines sogenannten Backlog an, das beispielsweise aus agilen Entwicklungsprozessen bekannt ist. Auf Grundlage des Data Reports und des Backlogs entscheidet das Team, ob die vorhandenen Daten für einen KI-Ansatz geeignet sind.
Diese intensive Analysephase am Anfang sorgt dafür, dass die Beteiligten nicht zu lange auf das falsche Pferd setzen: Falls die Datenlage sich für KI-Anwendungen nicht eignet, erkennen sie dies direkt zu Beginn – und nicht erst, wenn bereits im großen Maßstab Ressourcen in das Projekt geflossen sind.
Ihr möchtet mehr über unser Vorgehensmodell für KI-Projekte – „Building AI-based Systems“ erfahren? Dann werft einen Blick auf unsere Webseite.
1. These: Vor der Künstlichen ist die menschliche Intelligenz gefragt
2. These: KI findet die Nadel im Heuhaufen. Selbst ohne Nadel und ohne Heuhaufen
3. These: Nicht Datenmengen oder Speicherplatz oder Bandbreite sind die Treiber von KI. Sondern Kunden
4. These: AI Summertime and the livin’ is easy
5. These: Das “A” in “AI” bedeutet nicht Abrakadabra, sondern „Arbeit“