Digitale Exzellenz
Digitale Exzellenz

Basismodelle: Übersicht über die Eigenschaften von sehr großen KI-Modellen

, 3. März 2025

Fotocredit: Getty Images

Lesezeit: 7 Minuten

Basismodelle: Übersicht über die Eigenschaften von sehr großen KI-Modellen

Seit dem ersten mathematischen Modell für künstliche Neuronen aus den 1940er Jahren wurden fortlaufend bedeutsame Meilensteine in der Geschichte der Künstlichen Intelligenz erreicht. Nach zunächst unzureichender Leistungsfähigkeit, aufgrund der begrenzten Rechen- und Speicherkapazität von Modellen und Hardware, ist der interdisziplinäre Forschungsbereich in den letzten Jahrzehnten nach und nach aus seinem Winterschlaf erwacht. Heute übertreffen KI-Systeme bereits die menschliche Leistungsfähigkeit in einigen Bereichen. Die Vorstellung des französischen Philosophen, Mathematikers und Naturwissenschaftlers René Descartes von Maschinen mit menschenähnlichem Verhalten wird durch Technologien wie ChatGPT zur Wirklichkeit. Ursächlich dafür sind Basismodelle. Dieser Beitrag bietet einen Überblick über die grundlegenden Eigenschaften der Technologie.

Basismodelle (auch als Foundation-Modelle bezeichnet) sind unvollständige Computermodelle aus dem Bereich Deep Learning, die hauptsächlich durch selbstüberwachtes Lernen mit einem sehr großen Datenbestand trainiert und als ein gemeinsamer Baustein an eine Vielzahl von unterschiedlichen angepasst werden können. Ein Basismodell ist nur eine Komponente eines KI-Systems, dessen Trainingsprozess aufgrund der benötigten umfangreichen Datenmengen sehr rechen- und kostenintensiv ist. Das vortrainierte Modell liegt anschließend als unfertiges Zwischenobjekt vor, das über ein umfassendes allgemeines Wissen verfügt.

Der persönliche Sprachassistent ChatGPT von OpenAI ist beispielsweise eine Anpassung eines Basismodells aus der GPT-Reihe (GPT-3.5, GPT-4, GPT-4o). Das GPT-3.5-Basismodell besitzt grundlegende Sprachfähigkeiten, ist allerdings nicht für spezifische Anwendungsfälle (z. B. Dialoge) oder für die Einhaltung von Richtlinien (z. B. Verhindern von unangemessenen Inhalten) optimiert.

Eine entsprechende Modelloptimierung kann aufgabenspezifisch oder domänenspezifisch durch unterschiedliche Anpassungsstrategien erfolgen, bspw. durch Linear Probing, Fine-Tuning, Prefix-Tuning, Prompt-Tuning oder Continual Learning, oder on the fly durch In-Context Learning. LegalBERT ist beispielsweise eine domänenspezifische Anpassung des textuellen Basismodells BERT für die Textklassifizierung von juristischen Dokumenten, während SentenceBERT dasselbe Basismodell aufgabenspezifisch für die Ermittlung von semantisch sinnvollen Satzeinbettungen optimiert.


Über UX-Design hinaus interessant. Studie zu GenAI & Geschäftsmodelle


Chancen nutzen, Risiken minimieren

Basismodelle sind aufgrund ihrer Anpassungsfähigkeit sehr flexibel, wodurch Zeit und Kosten eingespart werden können. Während früher noch eine zugeschnittene Modellarchitektur für jeden Aufgabenbereich erstellt wurde (z. B. Random Forests zur Erkennung von Kreditkartenbetrug), kann gegenwärtig durch die Verwendung eines Transformers ein und dieselbe Architektur für alle Problemstellungen verwendet werden. Basismodelle erweitern diesen Ansatz, sodass auch dasselbe KI-Modell vielseitig genutzt werden kann und kein vollumfänglicher Trainingsprozess mit einem separat beschrifteten Datensatz für jede Aufgabe oder Domäne erfolgen muss. Durch selbstüberwachtes Lernen entfällt zudem der Arbeitsaufwand für die Beschriftung der Trainingsdaten.

Der Einsatz von Basismodellen ist entscheidend für Bereiche mit Datenknappheit oder Datenvielfalt. Durch die enorme Wissensbasis können Unternehmen schnell und effizient produktive Ergebnisse erzielen. Im Vergleich zu einem aufgabenspezifischen KI-Modell kann durch die Anpassung eines Basismodells ein leistungseffizienteres und qualitativeres Modell mit viel weniger Datenaufwand in kürzerer Zeit realisiert werden. Die Trainingsdaten können zudem multimodal sein, d. h. in unterschiedlichen Formaten vorliegen (z. B. Text, Bilder, Video und Audio), wobei das Eingabeformat nicht äquivalent zum Ausgabeformat sein muss.

Bei der Verwendung von Basismodellen darf nicht außer Acht gelassen werden, dass mit wiederholter Anpassung desselben Computermodells auch dessen Fehler in jedem KI-Modell oder KI-System übernommen werden. Das Basismodell wird auf diese Weise zum Single-Point-of-Failure, wodurch möglicherweise, ohne genaue Kenntnisse über die verwendeten Trainingsdaten, vorurteilsbehaftete offensive Inhalte (z. B. Stereotypisierungen) unbewusst übernommen werden. Des Weiteren besteht ein Sicherheits- und Datenschutzrisiko, dass sensible Informationen aus Unachtsamkeit bei der Anpassung übernommen und so ungewollt den Anwendern zugänglich werden.

Begriffsabgrenzung für ein besseres Verständnis

Nach Betrachtung einiger Vor- und Nachteile wird deutlich, dass ein Basismodell von unterschiedlichen Interpretationen oder Überschneidungen mit verwandten Begriffen für eine bessere Entscheidungsfindung präzise abgegrenzt werden muss. Als ein Deep-Learning-Computermodell lernen Basismodelle hochdimensionale hierarchische Repräsentationen in mehrschichtigen künstlichen neuronalen Netzwerken und inferieren auf Basis von statistischen Mustern. Die folgenden Begrifflichkeiten werden im Zusammenhang mit Basismodellen häufiger verwendet:

  • Generative KI-Systeme: Basismodelle bilden für moderne generative KI-Systeme (z. B. Gemini) aufgrund der enormen Größe einen wichtigen Baustein zur Erzeugung von neuen digitalen Inhalten, wie Texten oder Bildern. Allerdings benutzt nicht jedes generative KI-Modell ein Basismodell (z. B. fotorealistische Bildgenerierung durch GAN). Zudem existieren auch diskriminative Basismodelle, die eher für die Klassifikation optimiert sind (z. B. ViT-22B).
  • Große Sprachmodelle: Sie sind gegenwärtig die Hauptvertreter von Basismodellen. Ein großes Sprachmodell (z. B. Llama 3) wird hauptsächlich mit Textdaten trainiert, um die Semantik und die Syntax von textbasierten Aufgaben verstehen zu können. Ein Text-zu-Bild-Generator (z. B. DALL-E 3) verarbeitet ebenso Texteingaben und wird nicht als großes Sprachmodell bezeichnet, weil die textuellen Daten nicht die primäre Modalität darstellen.
  • Transformer: Die Transformer-Architektur ist aufgrund ihrer hervorragenden Skalierungseigenschaften ein häufig gewählter architektonischer Ansatz für Basismodelle. Allerdings existieren auch Diffusionsmodelle (z. B. latente Diffusionsmodelle), die durch iterative Rauschreduktion digitale Inhalte generieren und dennoch zu den Basismodellen zählen können.
  • Allzweck-KI-Modelle: In dem Gesetz über künstliche Intelligenz der EU (AI Act, Verordnung 2024/1689) werden nach Art. 3 Abs. 63 Basismodelle als „KI-Modelle mit allgemeinem Verwendungszweck“ bezeichnet, wenn diese auf dem Europäischen Binnenmarkt eingeführt sind und nicht zu Forschungszwecken oder Prototyping eingesetzt werden.

Strategische Herausforderungen

Basismodelle werden, wie jede andere KI-Technologie, durch den AI Act reguliert und nehmen durch zusätzliche Pflichten zur Dokumentation und Risikominderung in der Regulierungsvorschrift einen gesonderten Stellenwert ein. Aber die Regulierung ist nur eine strategische Einflussgröße. Es herrscht eine hohe Marktkonzentration durch die Dominanz weniger Betreiber, die auf die hohen Entwicklungskosten zurückzuführen ist. Nach aktuellem Stand der Technik ist die Qualität eines Basismodells direkt abhängig von der Modellgröße sowie der Qualität und Quantität der verwendeten Trainingsdaten. Wettbewerbsfähige Unternehmen konkurrieren gegenwärtig mit stetig wachsenden Modellgrößen unter exponentiell steigenden Entwicklungskosten mit abnehmender Qualitätssteigerung in jedem Entwicklungszyklus.

Ausgehend vom AI Index Report 2024 existieren insgesamt schätzungsweise 254 Basismodelle, die sich in proprietäre und quelloffene Modelle unterteilen, wobei lediglich 65,8 % uneingeschränkt zugänglich sind. Allein davon wurden 149 Modelle im Jahr 2023 entwickelt, wobei 72,5 % dieser Basismodelle in der Wirtschaft umgesetzt wurden und nicht etwa zu akademischen Zwecken. Von diesen 149 Basismodellen wurden 109 in den USA und 20 in China entwickelt. In Deutschland wurden in 2023 dagegen nur zwei Basismodelle bereitgestellt (OpenFlamingo und SauerkrautLM). Im Kräftemessen um Marktanteile dominieren die Hauptakteure Google (40 Modelle), OpenAI (20), Meta (19) und Microsoft (18).

Auch wenn ressourcenschonende Trainingsmethoden durch eine Mixture-of-Experts-Architektur in Kombination mit Reinforcement Learning (s. DeepSeek-R1) derzeit einen alternativen Ansatz zur Qualitätssteigerung von Basismodellen bieten, benötigen die Betreiber auch in Zukunft neue Ansätze zur Datengewinnung und Zugänge zu hochwertigen Trainingsdaten. Hier können Unternehmen mit exklusiven oder einzigartigen Daten bzw. Datenquellen profitieren. Durch die Anpassung eines marktführenden Basismodells mit den eigenen Daten kann ein wettbewerbsfähiges Expertensystem kosteneffizient entwickelt und bereitgestellt werden.

Weitere nützliche Quellen

  • Das Center for Research on Foundation Models (CRFM) ist ein interdisziplinäres Forschungszentrum an der Stanford University, das sich mit der Entwicklung, der Erforschung und der Analyse von Basismodellen beschäftigt.
  • On the Opportunities and Risks of Foundation Models“ ist ein umfassender Bericht des CRFM über das Potential und die Herausforderungen von Basismodellen, der zugleich die Chancen und Risiken dieser Technologie hervorhebt.
  • Der Ecosystem Graph des CRFM ist ein umfangreicher aktueller Dokumentationsrahmen über verfügbare Basismodelle, Anwendungen und entsprechende Datensätze.
  • Der AI Index Report ist eine jährliche Publikation des Stanford HAI, in der die wissenschaftlichen und technologischen Entwicklungen, aktuelle Leistungskennzahlen, gesellschaftliche Auswirkungen und industrielle Anwendungen von KI zusammengefasst werden.
  • Auf der Open-Source-Plattform Ollama können verschiedene Basismodelle heruntergeladen und lokal ausgeführt und angepasst werden.
  • Vertrauenswürdige KI-Anwendungen mit Foundation-Modellen entwickeln“ ist ein umfangreiches Whitepaper des Fraunhofer-Instituts für Intelligente Analyse- und Informationssysteme IAIS, das die Entwicklung, die Anpassung und die Risiken von Basismodellen der Vertrauenswürdigkeit gegenüberstellt sowie die Systematik und die Vorgehensweise zur Erfüllung von deren Anforderungen darstellt.