adesso Blog

Generative Künstliche Intelligenz (GenAI) hat die Technologieerfahrung revolutioniert. Dies wurde mit der Veröffentlichung der Transformer- und Attention-Architekturen in "Attention ist All You Need" deutlich, die einen entscheidenden Wendepunkt markierte. Im Kern ermöglicht GenAI maschinengestützte Kreativität, indem Systeme in die Lage versetzt werden, selbstständig Inhalte zu generieren, sei es in Form von Text-zu-Text, Image-zu-Text/Text-zu-Image oder Video-zu-Text/Text-zu-Video. Doch was genau verbirgt sich hinter diesem spannenden Gebiet der KI? Wie bereits erwähnt, beschäftigt sich GenAI mit der Entwicklung von Modellen, die in der Lage sind, neue Daten und Inhalte zu generieren. Eine ausführliche Definition sowie Einblicke und Abgrenzungen zu KI, Deep Learning und Machine Learning finden Sie im Artikel "Generative AI what?".

Die Bedeutung von GenAI

Aber warum ist GenAI so wichtig? Die Antwort liegt in der Fähigkeit dieser Systeme, neue Ideen zu generieren, Lösungen zu entwickeln und innovative Ansätze in verschiedenen Branchen voranzutreiben. Ein noch wichtigerer Grund für die große Popularität von GenAI ist die multimodale Fähigkeit dieser Modelle, das heißt, ein Sprachmodell, das bisher unsere Fragen beantworten konnte, kann nun nicht nur auf Textdaten reagieren, sondern auch auf visuelle Daten, zum Beispiel für ein Eingabebild kann dieses Modell Objekterkennung, Segmentierung etc. durchführen oder für Videoeingabe die Erkennung von Konzepten aus visuellen Signalen mit nur allgemeinem Wissen.

Anwendungen von GenAI gibt es bereits in vielen Bereichen, sei es in der Medizin, wo Modelle helfen, komplexe Diagnosen zu erstellen, oder in der Sprach- und Bildverarbeitung. Doch wie weit können diese Modelle gehen und welche Anwendungsfälle können damit abgedeckt werden? Dieser Blog-Beitrag geht ausführlich auf diese Frage ein und gibt einen Überblick über die Anwendungsfälle von GenAI, insbesondere den Umgang mit visuellen Daten und die Einsatzmöglichkeiten in der Computer Vision.

Im Wesentlichen ermöglicht GenAI die Generierung neuer Inhalte auf der Grundlage von Datenanalysen. Im Gegensatz zu herkömmlichen KI-Ansätzen, die auf vorhandenen Daten basieren, ermöglicht GenAI die Erzeugung neuer, originärer Inhalte. Diese Modelle lernen Muster und Strukturen aus vorhandenen Daten und können selbstständig ähnliche, aber neuartige Inhalte generieren.

Einer der wichtigsten Bereiche der GenAI ist das maschinelle Sehen. Eine umfassende Definition von Computer Vision sowie die Einordnung dieser Disziplin in die Gruppe des Deep Learning findet sich in diesem Blog-Beitrag zum Thema „Computer Vision für Deep Learning - eine kurze Einführung“.

Diese Modelle verwenden multimodale Ansätze, um sowohl visuelle als auch sprachliche Informationen zu verarbeiten. Dadurch können sie beispielsweise nicht nur Objekte in einem Bild erkennen, sondern auch den Kontext und die Beziehung zwischen diesen Objekten beschreiben. Dies ermöglicht eine genauere Analyse visueller Inhalte.

Computer Vision und GenAI: Ein Überblick

Die multimodale Fähigkeit dieser Modelle wird besonders effektiv in Computer Vision umgesetzt, um ihre Einsatzmöglichkeiten zu verstärken oder sogar vollständig zu übernehmen. Diese Modelle sind auch als " Visual LLMs" bekannt und werden in drei verschiedenen Kategorien unterteilt, basierend auf ihren Inputdaten. Es gibt Modelle, die:

  • 1. ausschließlich mit statischen Bildern arbeiten
  • 2. sowohl statische Bilder als auch Videos ohne Ton verarbeiten können
  • 3. und auch mit Audiodaten umgeben können.

Ein beispielhaftes Modell in diesem Kontext ist das Video-LLaMa-Modell, ein multimodales Sprachmodell, das sowohl visuelle als auch auditive Inhalte eines Videos verstehen kann. Eine praktische Demonstration dieses Modells mit verschiedenen visuellen Verständnisfragen ist im beigefügten Bild dargestellt.


Video-LLaMa, Quelle: https://huggingface.co/spaces/DAMO-NLP-SG/Video-LLaMA

Abhängig vom Eingabeformat - Video oder Bild - bietet das Video-LLaMa, das mit beiden Formaten umgehen kann, eine Palette von Möglichkeiten - von der Interpretation visueller Daten bis hin zur Erfassung der zeitlichen Dynamik in Videos.

Neben dem Video-LLaMa gehören zu den Modellen, die ausschließlich mit statischen Bildern arbeiten, Varianten wie ChatGPT, insbesondere Mini-GPT4, die LLaVA-Modellreihe - darunter LLaVA-Plus, LLaVA-Med oder LLaVA sowie BLIP-2. Wie im Bild zu sehen ist, können diese Modelle am Beispiel von VideoChat verschiedene Aufgaben des maschinellen Sehens bewältigen. Das Modell ist in der Lage, Aufgaben wie Objekterkennung oder Objektidentifikation durchzuführen und auf Basis von Eingabebildern unterschiedliche Inhalte zu generieren, darunter Rezepte, Memes, Werbetexte oder literarische Texte. Darüber hinaus wird die Bandbreite der erkannten Objekte für die Objekterkennung und Objektidentifikation ständig erweitert. Darüber hinaus findet GenAI, wie bereits in der Einleitung erwähnt, auch Anwendung in der Medizin. Ein Beispiel in dieser Kategorie ist das Modell LLaVA-Med, das auf visuellen biomedizinischen Daten basiert und Question Answering in Form von Konversationen oder detaillierten Beschreibungen durchführen kann.

Es gibt jedoch auch Modelle, die sowohl statische Bilder als auch Videodaten ohne Ton verarbeiten können, etwa Video-ChatGPT und VideoChat. Einige Beispiele dieser Modelle sind in der folgenden Abbildung dargestellt. Darüber hinaus unterstützen diese Modelle die Beantwortung von Fragen auf der Grundlage von Bild- und Videoeingaben.


VideoChat, Quelle: https://github.com/OpenGVLab/Ask-Anything

Wie die Beispiele zeigen, sind diese Modelle vielseitig einsetzbar und können eine Vielzahl von Aufgaben bewältigen. Von Video Understanding über Konversationsaufgaben bis hin zur Interpretation von Memes oder Rezepten zeigen sie ihre beeindruckende Leistungsfähigkeit mit nur visuellem Input. Einige Modelle sind sogar in der Lage, einen handgeschriebenen Entwurf in eine komplette Website umzuwandeln.

GenAI und ihre Zukunft: Wo führt der Weg hin?

Aber wir stehen erst am Anfang dieser Ära. Die Frage, wie weit diese Modelle noch gehen können, liegt in der Zukunft. Ihr bisheriges Potential lässt Raum für Spekulationen, welche innovativen Höhen sie noch erreichen können. Auf der anderen Seite, wenn wir einen Blick auf die schnelle Evolution dieser Modelle in der Computer Vision werfen, wird deutlich, dass der Fortschritt in einem erstaunlichen Tempo voranschreitet. Von den traditionellen Computer Vision Modellen wie AlexNet oder ResNet Architekturen über Vision-Transformer (ViT) bis hin zu den heutigen Visual LLMs war die Entwicklung bemerkenswert schnell. Vision Transformer ist eine innovative Architektur für maschinelles Sehen, die auf dem Transformer-Modellansatz basiert. Im Gegensatz zu CNNs verzichten Vision Transformer auf feste Hierarchien von Merkmalsextraktionsblöcken. Stattdessen behandeln sie das Bild als eine Sequenz von Patches, wodurch das Vision-Transformer-Modell sowohl globale als auch lokale Informationen effizient erfassen kann. Das Transformer-Modell selbst hat eine breitere Anwendung und wurde 2017 von Vaswani et al eingeführt. Es hat sich als bahnbrechend für die Verarbeitung von Sequenzen in verschiedenen Anwendungen wie maschinelle Übersetzung, Textgenerierung und Aufgaben im Bereich der Verarbeitung natürlicher Sprache erwiesen. Im Vergleich zu früheren Architekturen verwendet der Transformer nicht den "recurrent" Operator in Recurrent Neural Networks (RNNs) oder den "convolution" Operator in Convolutional Neural Network (CNNs). Stattdessen verwendet der Transformer den Attention-Mechanismus, der es dem Modell ermöglicht, auf alle Teile der Eingabesequenz gleichzeitig zuzugreifen. Dies verbessert die Effizienz und Parallelisierbarkeit im Vergleich zu RNNs erheblich. Transformatoren können sowohl für die Verarbeitung sequentieller als auch nicht-sequentieller Daten, wie zum Beispiel Bilder in Vision-Transformer-Architekturen, verwendet werden.

Angesichts dieser Entwicklung der visuellen LLMs stellt sich die Frage: Brauchen wir diese traditionellen Modelle im Kontext der Computer Vision überhaupt noch? Die Antwort kann nicht pauschal gegeben werden. Die "State of the Art"-Modelle waren in der Tat ViT-basierte Modelle, die einige Aufgaben des maschinellen Sehens übernommen haben, ohne dass ein spezifisches Training von CNNs notwendig war. Ein Beispiel hierfür ist das ViLT-Modell, das, wie in dem Papier gezeigt wird, unter anderem Objekterkennung durchführen kann.

Andererseits ist es wichtig, die Architekturen all dieser visuellen LLMs genauer zu betrachten. ViT-basierte Komponenten sind ein integraler Bestandteil dieser Modelle. Diese traditionellen Modelle spielen nach wie vor eine wichtige Rolle in der laufenden Entwicklung visueller LLMs. Experimente mit Architekturen wurden bisher nur in begrenztem Umfang durchgeführt.

Eine signifikante und sinnvolle Änderung der Architektur könnte jedoch dazu beitragen, die Leistungsfähigkeit dieser visuellen LLMs erheblich zu steigern. Die Fähigkeit, visuelle Daten nicht nur zu verstehen, sondern sie auch in einen sprachlichen Kontext zu stellen, hat die Grenzen des Machbaren erweitert. Die Dynamik dieser Fortschritte lässt vermuten, dass wir in Zukunft noch viele erstaunliche Entwicklungen erwarten können.

Fazit: GenAI als Wegbereiter für die Zukunft der KI

GenAI und multimodale Modelle haben eine beeindruckende Vielseitigkeit gezeigt, die sich in verschiedenen Bereichen wie dem maschinellen Sehen oder der Sprachverarbeitung manifestiert. Diese Modelle bieten kreative Lösungen und Innovationsmöglichkeiten. Die zukünftige Entwicklung bleibt offen und es wird spekuliert, welche Höhen diese Modelle in ihrer Innovationsfähigkeit noch erreichen können. Die rasante Entwicklung von traditionellen Computer Vision Modellen hin zu Visual LLMs lässt weitere Fortschritte erwarten. GenAI steht nicht nur für Technologie, sondern für eine facettenreiche Reise durch Kreativität und Innovation.

Ihr möchtet gern mehr über spannende Themen aus der adesso-Welt erfahren? Dann werft auch einen Blick in unsere bisher erschienenen Blog-Beiträge.

GenAI

Von der Idee bis zur Implementierung

GenAI wird unser Geschäftsleben ebenso verändern wie das Internet oder Mobile Business. Unternehmen aller Größen und Branchen legen heute den Grundstein für den effektiven Einsatz dieser Technologie in ihrem Geschäft.

Eine zentrale Herausforderung: GenAI-Anwendungen in die eigenen Prozesse und die bestehende IT-Landschaft zu integrieren. Wie das gelingt und wie wir euch dabei unterstützen, erfahrt ihr auf unserer Website.

Zur GenAI Webseite

Bild Oleg Smolanko

Autor Oleg Smolanko

Oleg ist ein erfahrener Datenwissenschaftler, der sich auf Computer Vision spezialisiert hat. Mit einem starken Hintergrund in Mathematik und Informatik entwickelt er maßgeschneiderte Lösungen für Kunden, um visuelle Daten präzise zu analysieren und zu interpretieren. Dabei konzentriert er sich auf die Entwicklung von Algorithmen und Systemen, die es Computern ermöglichen, visuelle Informationen aus der realen Welt zu verstehen. Zu seinen Aufgaben gehören der Entwurf und die Implementierung von Computer-Vision-Algorithmen, das Sammeln und Annotieren von Daten sowie die Evaluierung der Modellleistung. Er implementiert diese Lösungen sowohl vor Ort als auch in der Cloud.

Kategorie:

KI

Schlagwörter:

GenAI

Künstliche Intelligenz

Diese Seite speichern. Diese Seite entfernen.