Auswahl eines LLM: Der Einsteiger-Leitfaden für Open-Source-LLMs für das Jahr 2024

139686_-_Elastic_-_Headers_-_V1_1.jpg

Zu sagen, dass KI im Jahr 2023 abgehoben ist, wäre wohl noch untertrieben. Tausende neuer KI-Tools wurden vorgestellt, vorhandene Apps wurden um KI-Features ergänzt, und Hollywood war wegen dieser Technologie in hellem Aufruhr. Es gibt sogar ein KI-Tool, das auswertet, wie gut Sie Freddie Mercurys Gesang imitieren können. Warum auch nicht?

Aber hinter allen KI-Tools und -Features erledigt ein großes Sprachmodell (LLM) die Schwerarbeit. Viele dieser Modelle sind Open Source. Ein LLM ist ein Deep-Learning-Lernalgorithmus, der riesige Mengen an Daten verarbeitet, um Sprache zu verstehen und zu generieren. Diese Modelle verwenden eine neurale Netzwerkarchitektur, um eine Vielzahl an Aufgaben im Bereich der natürlichen Sprachverarbeitung (Natural Language Processing, NLP auszuführen, wie etwa Inhaltsgenerierung, Übersetzung, Kategorisierung und vieles mehr. In Kombination mit der Verfügbarkeit von Open-Source-LLMs erleichtern sie damit die Automatisierung wichtiger Geschäftsaufgaben, wie etwa Kundensupport-Chatbots, Betrugserkennung oder F&E neuer Impfstoffe, sowie verschiedener weiterer Anwendungsfälle in unterschiedlichen Branchen. LLMs spielen außerdem eine entscheidende Rolle bei der Verbesserung von Sicherheit, Suche und Observability in Clouds, indem sie völlig neue Arten der Datenverarbeitung und -analyse eröffnen.

Wie bei jeder neuen Technologie ist die Nutzung von LLMs auch mit Herausforderungen verbunden, die berücksichtigt und bewältigt werden müssen. Die Qualität der Ausgabe hängt ausschließlich von der Qualität der Eingangsdaten ab. LLMs werden oft mit öffentlichen Daten-Repositorys trainiert und neigen dazu, zu „halluzinieren“ oder ungenaue Antworten zu liefern, wenn sie nicht mit bereichsspezifischen Daten trainiert wurden. Außerdem ist die Erfassung, Speicherung und Aufbewahrung persönlicher Informationen und nutzergenerierter Inhalte mit Datenschutz- und Urheberrechtsproblemen verbunden.

Auf unserer Seite Was ist ein großes Sprachmodell (Large Language Model, LLM) erfahren Sie mehr über LLMs.

Was ist ein Open-Source-LLM?

Ein Open-Source-LLM ist ein LLM, das kostenlos verfügbar ist und von beliebigen Personen modifiziert und angepasst werden kann.

Open-Source-LLMs können von beliebigen Personen oder Unternehmen für deren Zwecke genutzt werden, ohne Lizenzgebühren zu bezahlen. Dazu gehört auch die Bereitstellung des LLM in einer eigenen Infrastruktur und die Feinjustierung gemäß spezifischen Anforderungen.

Das Gegenteil dazu ist ein Closed-Source-LLM, also ein proprietäres Modell, das einer einzigen Person oder einem Unternehmen gehört und nicht öffentlich verfügbar ist. Das berühmteste Beispiel hierfür ist die GPT-Modellreihe von OpenAI.

Was sind die besten Anwendungsfälle für LLMs?

Es gibt endlose Anwendungsfälle für LLMs, aber hier sind einige der wichtigsten Funktionen, um deren Vielseitigkeit hervorzuheben:

  • Standpunktanalyse: LLMs können subjektive Meinungen aus Feedback, Social Media usw. identifizieren und klassifizieren.

  • Inhaltserstellung: Manche LLMs können kontextbezogene, relevante Inhalte wie Artikel, Marketingtexte und Produktbeschreibungen generieren.

  • Chatbot: Sie können LLMs als Chatbot-Hilfe oder für Interaktionen mit Ihren Kunden feinjustieren.

  • Übersetzungen: Mit mehrsprachigen Textdaten können LLMs eingesetzt werden, um menschliche Sprachen zu übersetzen und bei der Kommunikation zu helfen.

  • Recherchen: LLMs können Recherchen erleichtern, indem sie riesige Datenmengen aufnehmen und verarbeiten, um besonders relevante Informationen zurückzugeben.

Beliebte Open-Source-LLMs für das Jahr 2024

Um Sie bei der Auswahl eines Open-Source-LLM für Ihr Unternehmen oder Ihr Projekt zu unterstützen, haben wir acht der interessantesten verfügbaren Open-Source-LLMs zusammengefasst. Diese Liste basiert auf den Beliebtheitssignalen aus der sehr aktiven KI-Community und dem Machine-Learning-Repository Hugging Face.

1. GPT-NeoX-20B

Das von EleutherAI entwickelte GPT-NeoX-20B ist ein autoregressives Sprachmodell mit einer ähnlichen Architektur wie GPT-3. Es wurde mit der GPT-NeoX-Bibliothek und Daten aus The Pile trainiert, einem 800 GB großen Open-Source-Datensatz, der von „The Eye“ gehostet wird.

GPT-NeoX-20B wurde hauptsächlich zu Forschungszwecken entwickelt und enthält 20 Milliarden Parameter, die Sie verwenden und anpassen können.

Wer ist die Zielgruppe?
GPT-NeoX-20B ist ideal für die Inhaltsgenerierung in mittelgroßen und großen Unternehmen wie etwa Marketingagenturen oder Medienunternehmen. Diese Unternehmen benötigen sowohl qualifizierte Mitarbeiter als auch die entsprechende Rechenleistung, um ein größeres LLM ausführen zu können.

Wer ist nicht die Zielgruppe?
Dieses LLM eignet sich nicht für Kleinunternehmen oder Einzelpersonen ohne die finanziellen und technischen Ressourcen für die Verwaltung der Rechenanforderungen. 

Komplexität der Anwendung
Da GPT-NeoX-20B nicht im vorkonfigurierten Zustand eingesetzt werden kann, brauchen Sie technisches Fachwissen, um dieses Modell bereitzustellen und für Ihre spezifischen Aufgaben und Anforderungen anzupassen.

2. GPT-J-6b

Das ebenfalls von EleutherAI stammende GPT-J-6b ist ein generatives, vorab trainiertes Transformationsmodell, das menschenähnliche Texte anhand von Eingaben generiert. Dieses Modell basiert auf dem GPT-J-Modell und enthält sechs Milliarden trainierbare Parameter (daher auch der Name).

Es wurde mit einem rein englischen Datensatz trainiert und eignet sich daher nicht für Übersetzungen oder zum Generieren von Texten in anderen Sprachen.

Wer ist die Zielgruppe?
Das nutzerfreundliche und relativ kleine GPT-J-6b eignet sich gut für Startups und mittelgroße Unternehmen, die einen Mittelweg zwischen Leistung und Ressourcenverbrauch suchen.

Wer ist nicht die Zielgruppe?
Dieses LLM eignet sich weniger für Unternehmen, die größeren Wert auf die Leistung und Anpassungsfähigkeit des Modells legen. Außerdem ist es ungeeignet für Unternehmen, die mehrsprachige Unterstützung benötigen.

Komplexität der Anwendung
GPT-J-6b ist ein relativ nutzerfreundliches LLM mit einer hilfsbereiten Community und eignet sich daher gut für Unternehmen mit mittelmäßigem technischem Fachwissen.

3. Llama 2

Llama 2 ist Metas Antwort auf die beliebten LLMs von Google und OpenAI. Dieses Modell wurde mit öffentlich verfügbaren Online-Datenquellen trainiert und bietet KI-gestützte Erlebnisse. Es kann für spezifische Aufgaben feinjustiert werden und ist für Forschungs- und kommerzielle Zwecke kostenlos verfügbar.

Llama2 basiert auf der Erfahrung von Meta mit LLaMA, ist in drei Größen verfügbar – sieben Milliarden, 13 Milliarden und 70 Milliarden Parameter – und ist damit eine dynamische und skalierbare Option.

Wer ist die Zielgruppe?
Dank der verschiedenen Modellgrößen eignet sich Llama 2 hervorragend für Anwender im Forschungs- und Bildungsbereich, die umfassende Sprachmodelle benötigen. Dieses Modell kann sogar auf gewöhnlichen PCs ausgeführt werden und ist damit eine gute Option für Hobbyanwender.

Wer ist nicht die Zielgruppe?
Llama 2 eignet sich weniger gut für risikointensive oder Nischenanwendungen, da es nicht für hochspezialisierte Aufgaben entwickelt wurde und einige Zweifel an der Zuverlässigkeit der Ausgaben bestehen.

Komplexität der Anwendung
Dieses relativ nutzerfreundliche LLM eignet sich gut für Anwendungen im Bildungswesen, muss jedoch für optimale Ergebnisse vermutlich angepasst werden.

4. BLOOM

BLOOM ist ein reines Decoder-Transformationssprachmodell mit einer riesigen Menge von 176 Milliarden Parametern. Dieses Modell generiert Texte anhand von Eingaben und kann für spezifische Aufgaben feinjustiert werden, wie etwa Textgenerierung, Zusammenfassung, Einbettungen, Klassifizierung und semantische Suche.

BLOOM wurde mit einem Datensatz aus Hunderten von Quellen in 46 verschiedenen Sprachen trainiert und ist damit auch eine gute Option für Sprachübersetzung und mehrsprachige Ausgaben.

Wer ist die Zielgruppe?
BLOOM eignet sich gut für größere Unternehmen mit einem globalen Publikum, die mehrsprachige Unterstützung benötigen. Aufgrund der Größe des Modells benötigen die Unternehmen auch umfangreiche Ressourcen für dessen Ausführung.

Wer ist nicht die Zielgruppe?
Die mehrsprachige Unterstützung ist überflüssig für Unternehmen, die nur im englischsprachigen Raum tätig sind, insbesondere angesichts der beträchtlichen Ressourcen, die zum Anpassen und Trainieren eines so großen Modells erforderlich sind.

Komplexität der Anwendung
Durch die Anforderungen im Hinblick auf natürliches Sprachverständnis und die Bereitstellung in mehrsprachigen Kontexten ist BLOOM eher mittelschwer bis schwer einzusetzen.

5. Falcon

Falcon ist ein LLM, das sich beim Anblick von BLOOM gefragt hat: „Pfft, nur 176 Milliarden Parameter?“.

Okay, dieser Satz ist nicht gefallen, aber dieses Open-Source-Sprachmodell ist in drei eindrucksvollen Größen verfügbar: sieben Milliarden, 40 Milliarden und 180 Milliarden.

Falcon ist unter der Apache Licence 2.0 verfügbar und ist ein autoregressives LLM, das Texte anhand von Eingaben generiert und auf dem hochwertigen „RefinedWeb“-Datensatz basiert.

Wer ist die Zielgruppe?
Aufgrund der hervorragenden Leistung und Skalierbarkeit eignet sich Falcon ideal für größere Unternehmen, die mehrsprachige Lösungen in Bereichen wie Websites und Marketinginhalte, Investitionsanalysen und Cybersicherheit benötigen.

Wer ist nicht die Zielgruppe?
Trotz der Option mit sieben Milliarden Parametern richtet sich dieses Modell nicht an Unternehmen, die eine einfache Plug-and-Play-Lösung für ihre Inhaltsgenerierung suchen. Die Kosten für das Anpassen und Trainieren des Modells wären für solche Aufgaben immer noch zu hoch.

Komplexität der Anwendung
Trotz der riesigen Größe der größten Modellvariante ist Falcon im Vergleich zu anderen LLMs noch relativ einfach einzusetzen. Sie müssen Ihre spezifischen Aufgaben jedoch trotzdem bis ins Detail kennen, um optimale Ergebnisse damit zu erzielen.

6. CodeGen

Dieses LLM von Salesforce unterscheidet sich von allen anderen Modellen in dieser Liste, da es Computercode anstelle von Antworten oder Inhalten im Textformat ausgibt. CodeGen ist kurz für „Code Generation“ (Codegenerierung), und genau dafür wurde dieses Modell entwickelt. Es wurde trainiert, um Code anhand von vorhandenem Code oder von Aufforderungen in natürlicher Sprache auszugeben.

CodeGen ist mit sieben, 13 oder 34 Milliarden Parametern verfügbar und wurde erstellt, um eine vereinfachte Herangehensweise an die Softwareentwicklung zu bieten.

Wer ist die Zielgruppe?
CodeGen richtet sich an Technologieunternehmen und Softwareentwicklungsteams, die Programmieraufgaben automatisieren und die Produktivität ihrer Entwickler steigern möchten.

Wer ist nicht die Zielgruppe?
Wenn Ihr Unternehmen keinen Computercode schreibt oder damit arbeitet, dann ist dieses LLM nicht für Sie.

Komplexität der Anwendung
Die Integration von CodeGen in vorhandene Entwicklungs-Workflows ist komplex und erfordert umfangreiche Kenntnisse im Bereich der Softwareentwicklung.

7. BERT

BERT war eines der ersten modernen LLMs und ist eine reine Encoder-Transformationsarchitektur, die 2018 von Google entwickelt wurde. Dieses Modell kann menschliche Sprache verstehen, generieren und bearbeiten.

BERT wurde von Google eingesetzt, um das Verständnis von Suchabfragen zu verbessern, und liefert auch gute Ergebnisse in Aufgaben wie Textgenerierung, Beantwortung von Fragen und Standpunktanalysen.

Wer ist die Zielgruppe?
Aufgrund der Integration in die Google-eigene Suche ist BERT die beste Option für SEO-Spezialisten und Inhaltsersteller, die Sites und Inhalte für Suchmaschinen optimieren und die Relevanz ihrer Inhalte steigern möchten.

Wer ist nicht die Zielgruppe?
Außerhalb des SEO-Bereichs ist BERT aufgrund seines Alters in vielen Situationen vermutlich nicht die beste Wahl und ist angesichts größerer und neuerer Alternativen eher redundant.

Komplexität der Anwendung
BERT ist für Anwender mit Erfahrung in den Bereichen SEO und Inhaltsoptimierung recht einfach einzusetzen, erfordert jedoch etwas Feinjustierung, um mit neueren SEO-Empfehlungen von Google Schritt zu halten.

8. T5

Das T5-Modell (kurz für Text-to-Text Transfer Transformer) ist eine transformationsbasierte Architektur mit einem Text-zu-Text-Ansatz. Dieses Modell konvertiert NLP-Aufgaben in ein Format, das Textzeichenfolgen für Ein- und Ausgaben verwendet. Daher eignet sich T5 für zahlreiche Aufgaben wie Übersetzung, Beantwortung von Fragen und Klassifizierung. T5 ist in fünf verschiedenen Größen von 60 Millionen bis 11 Milliarden Parametern verfügbar.

Wer ist die Zielgruppe?
T5 eignet sich hervorragend für Unternehmen, die ein vielseitiges Tool für verschiedene Text-zu-Text-Verarbeitungsaufgaben benötigen, wie etwa Zusammenfassung, Übersetzung und Klassifizierung.

Wer ist nicht die Zielgruppe?
T5 ist zwar relativ flexibel, eignet sich aber trotzdem nicht für Aufgaben mit anderen Ausgaben als Text. 

Komplexität der Anwendung
T5 ist im Vergleich zu anderen LLMs recht einfach einzusetzen und ist mit verschiedenen vorab trainierten Modellen verfügbar. Für die Anpassung an Nischen- oder spezifische Aufgaben sind dennoch gewisse Fachkenntnisse erforderlich.

Disclaimer: Sämtliche Parameter und Modellgrößen beziehen sich auf den Veröffentlichungszeitpunkt und haben sich seitdem möglicherweise geändert.

Passendes LLM für Ihr Unternehmen auswählen

Bei der Auswahl eines Open-Source-LLM für Ihre Zwecke müssen Sie verschiedene wichtige Kriterien berücksichtigen:

  • Kosten: Diese LLMs sind Open Source, daher müssen Sie für die eigentlichen Modelle nichts bezahlen. Sie müssen sich jedoch Gedanken über die Kosten für Hosting, Training, Ressourcen usw. machen. Je größer und komplexer ein LLM ist, desto höher sind vermutlich auch die Kosten. Dies liegt daran, dass größere LLMs mehr Speicherplatz und Rechenleistung, eine größere Infrastruktur und mehr Wartung benötigen.

  • Genauigkeit: Die Genauigkeit der verschiedenen Optionen ist ein entscheidender Faktor. Vergleichen Sie daher, wie genau verschiedene LLMs die erforderlichen Aufgaben erledigen können. Manche Modelle sind beispielsweise bereichsspezifisch, während andere Modelle mit Feinjustierung oder Retrieval Augmented Generation (RAG) verbessert werden können.

  • Leistung: Die Leistung eines LLM lässt sich anhand von Faktoren wie Sprachbeherrschung, Schlüssigkeit und Kontextverständnis messen. Je besser ein LLM in diesen Bereichen abschneidet, desto besser ist seine Leistung. Eine bessere Leistung verbessert das Nutzererlebnis und die Effektivität und verschafft Ihnen einen Wettbewerbsvorteil. 

  • Datensicherheit: Die Sicherheit Ihrer Daten ist ein weiterer wichtiger Aspekt. Dies ist besonders dann wichtig, wenn Sie vertrauliche oder personenbezogene Daten verarbeiten. Dies ist ein weiterer Bereich, in dem RAG unter Umständen hilfreich ist, da Sie den Datenzugriff mit Sicherheit auf Dokumentebene kontrollieren und Sicherheitsberechtigungen auf bestimmte Daten beschränken können.

  • Aufgabenspezifische oder Allzweckmodelle: Fragen Sie sich, ob Sie ein LLM brauchen, das spezifische Anwendungsfälle abdeckt, oder eines, das sich für viele verschiedene Aufgaben eignet. Manche Modelle sind bereichsspezifisch. Daher ist es wichtig, dass Sie entweder ein passendes Modell für Ihren Bereich oder ein Modell mit breiterem Anwendungsbereich auswählen. 

  • Qualität der Trainingsdaten: Mit minderwertigen Daten lassen sich keine guten Ergebnisse erzielen. Bewerten Sie die Daten, auf denen die einzelnen LLMs basieren, und wählen Sie ein Modell aus, dem Sie vertrauen. RAG kann Sie dabei unterstützen, da Sie benutzerdefinierte Daten verwenden und diese Daten vorbereiten und feinjustieren können, um die Qualität der Ausgabe direkt zu verbessern.

  • Fachwissen: Ein weiterer wichtiger Faktor ist das vorhandene Fachwissen in Ihrem Projektteam. Erfahrung in Bereichen wie Data Science, MLOps und NLP ist unverzichtbar. Je komplexer das LLM ist, desto umfassender ist das erforderliche Fachwissen für dessen Einsatz. Wenn Sie über eingeschränktes Fachwissen verfügen, sollten Sie sich auf einfachere LLMs konzentrieren oder bei Bedarf zusätzliches Fachwissen heranziehen.

Anhand dieser Kriterien können Sie entscheiden, welches der vorgestellten LLMs sich für Ihre einzigartige Situation am besten eignet.

Nehmen Sie sich Zeit, machen Sie sich mit den Optionen vertraut und bewerten Sie sie, um einen optimalen Lösungsansatz für Ihre Probleme zu finden. All diese Open-Source-LLMs sind extrem leistungsstark und können bei richtiger Anwendung transformativ sein.

Die Entscheidung über die Veröffentlichung von Features oder Leistungsmerkmalen, die in diesem Blogpost beschrieben werden, oder über den Zeitpunkt ihrer Veröffentlichung liegt allein bei Elastic. Es ist möglich, dass nicht bereits verfügbare Features oder Leistungsmerkmale nicht rechtzeitig oder überhaupt nicht veröffentlicht werden.

In diesem Blogpost haben wir möglicherweise generative KI-Tools von Drittanbietern verwendet oder darauf Bezug genommen, die von ihren jeweiligen Eigentümern betrieben werden. Elastic hat keine Kontrolle über die Drittanbieter-Tools und übernimmt keine Verantwortung oder Haftung für ihre Inhalte, ihren Betrieb oder ihre Anwendung sowie für etwaige Verluste oder Schäden, die sich aus Ihrer Anwendung solcher Tools ergeben. Gehen Sie vorsichtig vor, wenn Sie KI-Tools mit persönlichen, sensiblen oder vertraulichen Daten verwenden. Alle Daten, die Sie eingeben, können für das Training von KI oder andere Zwecke verwendet werden. Es gibt keine Garantie dafür, dass Informationen, die Sie bereitstellen, sicher oder vertraulich behandelt werden. Setzen Sie sich vor Gebrauch mit den Datenschutzpraktiken und den Nutzungsbedingungen generativer KI-Tools auseinander. 

Elastic, Elasticsearch, ESRE, Elasticsearch Relevance Engine und zugehörige Marken, Waren- und Dienstleistungszeichen sind Marken oder eingetragene Marken von Elastic N.V. in den USA und anderen Ländern. Alle weiteren Marken- oder Warenzeichen sind eingetragene Marken oder eingetragene Warenzeichen der jeweiligen Eigentümer.