29. August 2023 von Marc Mezger
Open Source Large Language Models
In diesem Blog-Beitrag möchte ich mich einer vertiefenden Betrachtung von Open-Source-Large-Language-Modellen widmen. Gewöhnlich konzentriere ich mich in meinen Beiträgen auf proprietäre Modelle wie OpenAIs GPT-4 oder Aleph Alphas Luminous. Trotz der Tatsache, dass diese Unternehmen eine umfangreiche Menge an Open-Source-Software und Modellen zur Verfügung stellen, möchte ich heute den Fokus auf reine Open-Source-Modelle legen. In diesem Kontext stelle ich euch drei wichtige Modelle vor und möchte zeigen, warum Open-Source-Sprachmodelle so wichtig sind.
Was ist Open Source?
Open Source ist ein einflussreiches Technologiekonzept, das auf freiem Zugang und Modifikation von Software-Quellcode basiert. Es fördert Zusammenarbeit, kontinuierliche Verbesserungen und Wissensaustausch. Historische Projekte wie Linux und Apache haben die Technologieentwicklung beeinflusst und sind wichtige Komponenten moderner Systeme. Die Philosophie hinter Open Source ist, dass gemeinsame Anstrengungen und Transparenz zu überlegenen Lösungen führen. Dieser Ansatz ist nicht nur auf Software beschränkt, sondern erstreckt sich auch auf Hardware, Daten und Wissenschaft, was zur Demokratisierung von Technologie und Wissen beiträgt.
Open Source stellt ein unverzichtbares Werkzeug in der heutigen Forschungs- und Entwicklungslandschaft dar, da es allen ermöglicht, auf bereits erzielten Fortschritten aufzubauen. So bietet sich die Chance, innovative Anwendungen oder signifikante Verbesserungen zu entwickeln, ohne gezwungen zu sein, bereits etablierte Konzepte neu zu konzipieren. Die Open-Source-Philosophie eröffnet einer diversen Gemeinschaft von Developern und Unternehmen den Zugriff auf KI-Technologien. Dabei spielt es keine Rolle, wie groß diese sind oder über welche finanziellen Ressourcen sie verfügen. Diese Demokratisierung des Zugangs zu fortschrittlichen Technologien ist ein zentraler Bestandteil des Open-Source-Prinzips. Ein weiterer essenzieller Aspekt von Open-Source-Projekten ist die Transparenz. Durch die Bereitstellung des Quellcodes und der Trainingsdaten wird eine gründliche Untersuchung der Funktionsweise eines KI-Modells sowie seiner potenziellen Vorurteile ermöglicht. Dies trägt zu einem gesteigerten Verständnis bei und fördert das Vertrauen in solche Technologien.
Benchmarks
Es ist sehr wichtig, herauszufinden, welches Modell für welchen Zweck gut geeignet ist. Das Mittel der Wahl sind dabei Benchmarks von unabhängigen Anbietern. Diese haben es sich zur Aufgabe gemacht, Large-Language-Modelle anhand von Datensätzen zu evaluieren und so einen objektiven Vergleich zwischen den Modellen zu ermöglichen.
Zunächst möchte ich das OpenLLM Leaderboard von Hugging Face vorstellen. Hugging Face ist ein französisch-amerikanisches Unternehmen, das sich auf die Demokratisierung des Zugangs zu KI für Natural Language Processing spezialisiert hat. Ihr könnt euch das Leaderboard auf der Website von OpenLLM Leaderboard ansehen. Ihr solltet aber beachten, dass dieses Leaderboard ausschließlich Open-Source-Modelle umfasst und kommerzielle Anbieter wie Aleph Alpha, Anthropic und OpenAI nicht berücksichtigt.
Darüber hinaus möchte ich auf das Holistic Evaluation of Language Models (HELM) Benchmark von Stanford hinweisen, das eine umfassende Bewertung von Sprachmodellen ermöglicht. Ihr könnt euch die Benchmark hier ansehen: HELM Benchmark. Zusätzlich ist noch die Chatbot-Arena von LMSYS (den Erfindern des Vicuna-Modells) zu nennen. Diese erlaubt den Vergleich von Chatbots anhand eines Elo-Systems. Infos dazu findet ihr auf dieser Website https://chat.lmsys.org/?arena sowie hier https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard.
Modelle
In diesem Kapitel behandele ich drei wichtige Modelle hinsichtlich ihrer Historie und ihrer Fähigkeiten. Foundation-Modelle sind große Sprachmodelle, die auf umfangreichen, meist ungelabelten Daten lernen und somit „Weltwissen“ erwerben, das für viele Anwendungen nützlich ist. Im Gegensatz dazu sind feinabgestimmte Modelle speziell auf bestimmte Aufgaben oder User zugeschnitten, oft unter Verwendung kleinerer, aber besser gelabelter Datensätze. Ein Beispiel ist ChatGPT, das die RLHF(Reinforcement Learning on Human Feedback)-Technik nutzt. Die Wahl zwischen einem Foundation-Modell und einem feinabgestimmten Modell hängt vom Anwendungsfall ab.
Das folgende Diagramm zeigt, dass sich die Forschung in die Entwicklung von Foundation Language Models (Base LLMs) und deren Finetuning aufteilt. Foundation Models stammen in der Regel von großen Firmen und Institutionen, da deren Training mehrere Millionen Euro kostet. Finetuning ist kostengünstiger und daher populär, doch die kommerzielle Nutzung vieler Foundation Models ist aufgrund fehlender Lizenzen, wie bei Llama1, oft nicht möglich.
BLOOM
BLOOM, ein Projekt von Hugging Face, stellt das weltweit größte Open-Source-Multilingual-Sprachmodell dar. Dieses transformative Großsprachmodell, offiziell bekannt als BigScience Large Open-science Open-access Multilingual Language Model (BLOOM), entstand durch die Zusammenarbeit von mehr als 1.000 KI-Forscherinnen und -Forschern im Rahmen des BigScience Research Workshop. Das Hauptziel dieses Workshops bestand darin, ein umfangreiches Sprachmodell zu entwickeln und es der breiten Öffentlichkeit kostenlos zur Verfügung zu stellen.
BLOOM, das zwischen März und Juli 2022 mit etwa 366 Milliarden Token trainiert wurde, präsentiert sich als eine überzeugende Alternative zu OpenAIs GPT-3. Es zeichnet sich durch seine 176 Milliarden Parameter aus und nutzt eine reine Decoder-Transformator-Modellarchitektur, die auf der Grundlage des Megatron-LM-GPT-2-Modells modifiziert wurde. Weitere Einzelheiten könnt ihr in diesem Blog-Beitrag nachlesen.
Das BLOOM-Projekt wurde von einem der Mitbegründer von Hugging Face ins Leben gerufen und umfasste sechs Hauptbeteiligte:
- das BigScience-Team von Hugging Face,
- das Microsoft-DeepSpeed-Team,
- das NVIDIA-Megatron-LM-Team,
- das IDRIS/GENCI-Team,
- das PyTorch-Team und
- die Freiwilligen der BigScience-Engineering-Arbeitsgruppe.
Die Trainingsdaten für BLOOM umfassten Material aus 46 natürlichen Sprachen und 13 Programmiersprachen, wobei insgesamt 1,6 Terabyte vorverarbeiteter Text in 366 Milliarden Token umgewandelt wurden. Obwohl die Leistung von BLOOM im Vergleich zu anderen Open Source Large Language Models (LLMs) durchaus beachtlich ist, zeigen neuere und proprietäre Modelle wie Aleph Alpha oder OpenAI einen deutlichen Qualitätsunterschied.
Llama/Llama v2
Die Veröffentlichung des Llama-Modells durch Meta AI (früher Facebook) im Februar 2023 verursachte erhebliches Aufsehen in der KI-Gemeinschaft. Dieses Sprachmodell, entwickelt von der Facebook-AI-Research(FAIR)-Abteilung unter der Leitung von Yann LeCun, ist ein autoregressives Modell, ähnlich wie BLOOM. Eines der bemerkenswertesten Merkmale von Llama ist seine überragende Leistungsfähigkeit gegenüber anderen, mehr als doppelt so großen Sprachmodellen. Dies ist hauptsächlich auf seine längere Trainingsdauer zurückzuführen. Allerdings wurde die Veröffentlichung von Llama von seinen Lizenzbedingungen überschattet.
Obwohl es als Open-Source-Projekt präsentiert wurde, verbietet die Lizenz ausdrücklich die Verwendung der Architektur oder der Modellgewichte für Produktions- oder kommerzielle Zwecke. Dies betrifft auch alle auf Llama basierenden Forschungsprojekte, wie beispielsweise Vicuna, die ebenfalls nicht kommerziell genutzt werden können. Die Entscheidung zur Einschränkung der Lizenz von Llama mag im Zusammenhang mit den Erfahrungen aus der Veröffentlichung von Galatica, einem früheren Sprachmodell von Facebook, zu sehen sein. Galatica wurde als Open Source freigegeben, doch einige Akteurinnen und Akteure aus der KI-Ethikszene nutzten problematische Antworten des Modells, um öffentliche Kontroversen zu provozieren, woraufhin das Modell wieder zurückgezogen wurde. Es ist wichtig zu betonen, dass solche Modelle wie Llama oder ChatGPT keine Wahrheitsmaschinen sind, sondern Wortvorhersagemodelle. Trotz dieser Herausforderungen hat Llama einen signifikanten Einfluss auf die KI-Gemeinschaft. Es hat eine Welle der Begeisterung in der Open Source Community ausgelöst und dient als Basis für viele Projekte – etwa GPT4All.
Im Juli 2023 wurde mit Llama v2 eine aktualisierte Version unter einer Lizenz veröffentlicht, die eine kommerzielle Nutzung ermöglicht. Dies wird von einigen als Versuch von Meta betrachtet, die dominante Position von OpenAI im Bereich der Chatmodelle herauszufordern. Llama v2 erweitert das Daten- und Trainingsvolumen, was dem Trend zu mehr und qualitativ hochwertigeren Daten für bessere Modelle entspricht. Es ist jedoch zu beachten, dass die Lizenz auch hier Einschränkungen hat und nur für Anwendungen mit monatlich bis zu 700 Millionen aktiven Nutzerinnen und Nutzern gilt. Aktuell ist Llama v2 das beste Open-Source-Sprachmodell.
Schließlich hat Llama ein umfangreiches Open-Source-Ökosystem hervorgebracht, einschließlich Projekten wie OpenLlama (Fully-OSS), Vicuna (Instruction) und Llama.c (Edge). Diese Vielfalt an Anwendungsfällen zeigt die Vielseitigkeit und die beeindruckenden Möglichkeiten von Llama.
Falcon
Das Technology Innovation Institute (TII) der Vereinigten Arabischen Emirate hat Falcon LLM im März 2023 veröffentlicht. Es handelt sich um ein umfassendes und offenes Sprachmodell, das für Forschungs- und kommerzielle Zwecke genutzt werden kann. Im Gegensatz zu vielen anderen Modellen ist Falcon LLM vollständig Open Source, was eine breite Palette von Anwendungsszenarien ermöglicht. Falcon LLM wurde in mehreren Versionen veröffentlicht, einschließlich eines Modells mit sieben Milliarden Parametern und eines sogenannten Instruction-Modells. Das Instruction-Modell ist speziell darauf ausgelegt, Anweisungen zu befolgen. Es könnte beispielsweise so konfiguriert werden, dass es ausschließlich JSON spricht, um eine optimale Ausgabe für die Datenverarbeitung zu gewährleisten. Dank dieser Anpassungsmöglichkeiten können User die Performance des Modells signifikant steuern und verbessern. Zusätzlich zur Sieben-Milliarden-Parameter-Version hat TII auch eine Version mit 40 Milliarden Parametern veröffentlicht. Auch hier stehen eine Standard- und eine Instruction-Variante zur Verfügung.
Das Falcon-LLM-Modell wurde unter der Apache License Version 2.0 veröffentlicht, was einen kommerziellen Einsatz erlaubt. Ein besonderes Merkmal von Falcon LLM ist der umfangreiche, sorgfältig kuratierte Datensatz, auf dem es trainiert wurde: RefinedWeb. Dieser Datensatz wurde speziell für das Falcon-Projekt erstellt und enthält einen bedeutend höheren Anteil an qualitativ hochwertigen Texten als typische Datensätze. Dadurch kann Falcon LLM viele andere Modelle übertreffen, die nicht auf solch hochwertigen Daten trainiert wurden. Bis zur Veröffentlichung von LLama v2 hat Falcon LLM alle Leaderboards für Open-Source-LLMs angeführt.
Ausblick
Zwei relevante Veröffentlichungen diskutieren die Herausforderungen von Open-Source-Modellen. Ein Google-Ingenieur-Dokument postuliert, dass kommerzielle Anbieter gegen Open-Source-Modelle kaum bestehen können. Trotzdem bleibt OpenAIs GPT-4 führend, obwohl die Open-Source-Modelle aufholen. Ein weiteres Problem könnte der AI Act der EU sein, der strenge Regeln für Foundation-Modelle festlegt. Das Paper „The False Promise of Imitating Proprietary LLMs“ zeigt, dass kleinere LLMs, die auf proprietären Modellen wie GPT-4 trainiert wurden, Schwierigkeiten mit der Generalisierung haben. Trotzdem ist der Fortschritt bei Open-Source-LLMs beeindruckend. Open Source ist daher ein wichtiger Beitrag zur Demokratisierung von KI und zur Gestaltung einer inklusiven digitalen Zukunft.
Ihr möchtet gern mehr über spannende Themen aus der adesso-Welt erfahren? Dann werft auch einen Blick in unsere bisher erschienenen Blog-Beiträge.
Auch interessant