Verarbeitung natürlicher Sprache (NLP) bereitstellen: Erste Schritte
Seit Version 8.0 des Elastic Stack können Sie unter anderem mit PyTorch erstellte Machine-Learning-Modelle in Elasticsearch hochladen und moderne Funktionen zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) im Elastic Stack bereitstellen. NLP eröffnet neue Möglichkeiten, mit denen Sie Informationen extrahieren, Text klassifizieren und mehr Suchrelevanz mithilfe von Dichtevektoren und der Suche nach dem geschätzten nächsten Nachbarn anbieten können.
In dieser mehrteiligen Blogreihe erhalten Sie Komplettbeispiele für eine Vielzahl von PyTorch-NLP-Modellen.
Teil 1: Texteinbettungen und Vektorsuche bereitstellen
Teil 2: Erkennung benannter Entitäten (Named Entity Recognition, NER)
Teil 3: Standpunktanalyse
Sämtliche Beispiele verwenden vorab erstellte NLP-Modelle aus dem Hugging Face Model Hub. Anschließend folgen wir den Anweisungen in der Elastic-Dokumentation zum Bereitstellen von NLP-Modellen und zum Hinzufügen von NLP-Inferenz zu einer Ingestionspipeline. Es ist immer eine gute Idee, mit einem definierten Anwendungsfall und einem Überblick über die Textdaten zu beginnen, die unser Modell verarbeiten wird. Daher definieren wir zunächst unser Ziel für die Nutzung von NLP und einen gemeinsamen und öffentlich verfügbaren Datensatz.
Um das NLP-Beispiel vorzubereiten, brauchen wir einen Elasticsearch-Cluster mit Version 8.0 oder höher, einen ML-Knoten mit mindestens 2 GB Arbeitsspeicher, und für das Beispiel zur Erkennung benannter Entitäten (Named Entity Recognition, NER) benötigen wir das Plugin „mapper-annotated-text“). Eine hervorragende Möglichkeit für den Einstieg ist die kostenlose 14-tägige Testversion, mit der Sie Ihren eigenen Cluster in der Elastic Cloud einrichten und die Beispiele selbst durcharbeiten können. Cloud-Testversionen können ML-Knoten mit bis zu 2 GB enthalten. Auf diese Weise können Sie jederzeit eines oder zwei der Beispiele aus dieser mehrteiligen Blogreihe parallel bereitstellen.