Mika Ayenson, PhDJess Daubner

Beschleunigung des Handels mit elastischer Erkennung mit LLMs

Erfahren Sie mehr darüber, wie Elastic Security Labs sich darauf konzentriert hat, unsere Erkennungs-Engineering-Workflows durch die Nutzung generativer KI-Funktionen zu beschleunigen.

Beschleunigung der Elastic-Erkennungsmethoden mit LLMs

Im Einklang mit unserer Openness-Initiative setzen wir uns weiterhin für Transparenz ein und möchten darüber berichten, wie unsere internen KI-Forschungs- und Entwicklungsbemühungen die Produktivität unseres Teams zur Bedrohungserkennung gesteigert haben. In den letzten Monaten haben sich die Elastic Security Labs darauf konzentriert, unsere Workflows im Bereich Detection Engineering zu beschleunigen, indem wir generativere KI-Funktionen nutzen.

Die ONWeek-Erkundungsodyssee

Abgesehen von unserer langjährigen Space , Time-Tradition widmen wir bei Elastic alle 6 Monate eine Woche, um entweder selbstständig oder im Team an etwas zu arbeiten, das wir ONWeek nennen. Dies ist eine Woche, in der wir uns alle von der Arbeit an Spielfilmen, technischen Schulden und anderen ähnlichen Aufgaben verabschieden. und nutzen Sie die Woche, um sich auf innovative Ideen, aktive Lernmöglichkeiten, angewandte Forschung und Proof-of-Concept-Arbeit zu konzentrieren. Während der letzten ONWeek im Mai haben wir Ideen untersucht, wie wir Large Language Models (LLMs) mit den vorhandenen Funktionen von Elastic nutzen können, um die Sichtung von Sicherheitswarnungen und die Produktivität für Tier- 1 -Analysten und darüber hinaus zu verbessern, interne Produktivitäts-Workflows zu verstehen und die grundlegenden Bausteine für unsere Experimente und Abstimmungen zu verstehen. Abbildung 1 zeigt verschiedene Forschungsmöglichkeiten, die wir haben, z. B. das Erfassen von Ereignissen, das Weiterleiten von Daten durch maßgeschneiderte Eingabeaufforderungen und das Generieren verschiedener Inhaltsklassen, die für unterschiedliche Elastic-Workflows entwickelt wurden.

Abbildung 1: Anwendungsfälle für die GenAI-Sicherheit

Grundsätzlich haben wir mehrere traditionelle ML-Ansätze untersucht, uns aber letztendlich darauf konzentriert, einfach zu beginnen und die Komplexität schrittweise zu erhöhen, wobei wir diese Tools und Konzepte im Auge behalten haben:

  • Start Simple - Ein Mantra, das unseren Ansatz geleitet hat.
  • Azure OpenAI – Zugriff auf das GPT-4 LLM
  • Prompt Engineering - Entwicklung maßgeschneiderter Anweisungen für das LLM.
  • LangChain - Python-Bibliothek zur Unterstützung bei der Erstellung von LLM-Anwendungen.

Eines unserer Ziele ist es, die Detection Engineer-Workflows von Elastic zu optimieren, um sich stärker auf bessere Erkennungen konzentrieren zu können und gleichzeitig die Tiefe und Nuancen unserer Abfragesprachen zu präsentieren. Auf dem Weg dorthin verbringen wir Zeit mit Experimenten, um unsere Eingabeaufforderungen zu validieren und sie für den operativen Einsatz vorzubereiten. Wir möchten sicherstellen, dass wir beim Iterieren unserer Eingabeaufforderungen nicht versehentlich Regressionen einführen. Da sich KI-Fortschritte abzeichnen, beabsichtigen wir, mit unseren T&E sicherzustellen, dass alle Anpassungen, sei es Feinabstimmung, Modellwechsel oder zeitnahe Änderungen, bewusst vorgenommen werden. Letztendlich streben wir danach, dass unsere Analysten die neuesten AIML-Funktionen nahtlos nutzen und die am besten geeigneten Eingabeaufforderungen oder ML-Techniken im richtigen Kontext anwenden.

Mit diesen Zielen im Hinterkopf konzentrierte sich unser erster Forschungsanwendungsfall im Mai auf die Abfragegenerierung. Wir haben schnell gelernt, dass wir mit minimalem Datenaufwand und Prompt Engineering eine Reihe von Eingabeaufforderungen verketten können, um unformatierte Elastic-Ereignisse in EQL-Abfragen umzuwandeln.

Abbildung 2: POC für die Abfragegenerierung

Zu Experimentierzwecken haben wir verdächtige Aktivitäten mit unseren Red Team Automation (RTA )-Skripten simuliert und die Endpunktaktivität im SIEM über den Elastic Agent erfasst. Abbildung 2 zeigt Beispielereignisse aus dem Elastic-Stack, die in gold.json Testdateien exportiert wurden und die wesentlichen Ereignisfelder für die Abfragegenerierung enthielten.

Dann baten wir GPT, die Ereignissammlung zu analysieren, die das Zeitfenster der RTA-Ausführung abdeckt, und sich auf Ereignisse mit verdächtigem Verhalten zu konzentrieren. In unserem POC wurden wir aufgefordert, Schlüsselwerte zu ermitteln, die mit potenziellen Anomalien verbunden sind. Es folgten folgende Aufforderungen, um die Ereignisse zu unterteilen und alle Aktivitäten zusammenzufassen. Basierend auf allen Zusammenfassungen haben wir GPT gebeten, eine Liste von Indikatoren zu erstellen, ohne bestimmte Werte einzugeben. Mit dieser kurzen Liste verdächtiger Verhaltensweisen haben wir GPT gebeten, die Abfrage zu generieren. Ein wesentlicher Vorteil unserer langfristigen Open-Source-Entwicklung besteht darin, dass GPT-bezogene Modelle mit Elastic-Inhalten vertraut sind, und so haben wir davon profitiert, dass wir unsere Eingabeaufforderungen nicht überanpassen mussten.

Auch wenn der Übergang von Rohdaten zu einer EQL-Abfrage konzeptionell unkompliziert war, stießen wir dennoch auf kleinere Probleme wie die Verfügbarkeit von Diensten mit Azure OpenAI. Es war relativ günstig, was uns schätzungsweise rund 160 US-Dollar in einer Woche gekostet hat, um die Inferenz- und Einbettungs-APIs von OpenAI und Azure OpenAI zu nutzen. Wir haben auch die Verwendung der GCP Vertex AI Workbench untersucht, um die Zusammenarbeit an Jupyter-Notebooks zu erleichtern, aber die Komplexität der Verwendung der verfügbaren Open-Source-Modelle (OSS) machte es schwierig, sie während des kurzen ONWeek zu verwenden.

Abbildung 3: Mai 2023 ONWeek Hauptergebnisse

Wir haben ONWeek verwendet, um unsere Roadmap zu reifen, z. B. um über bibliotheksbasierte In-Memory-Implementierungen der Vektorsuche hinaus auf leistungsfähigere, skalierbarere und produktionsbereite Datenspeicher unserer Erkennungsregelinhalte in Elasticsearch zu erweitern. Basierend auf unseren ersten Ergebnissen haben wir das Potenzial und die Machbarkeit der Integration von GenAI in den Analysten-Workflow (z. Ermöglicht die Auswahl des Zeitfensters von Ereignissen, die Generierung von Abfragen und das Hinzufügen von Zeitachsen). Basierend auf diesen frühen Erfolgen haben wir unsere internen Roadmap-Pläne für weitere LLM-Forschung und -Entwicklung in Angriff genommen und beschlossen, einen unserer internen Produktivitäts-Workflows in Angriff zu nehmen.

Ein neuer Horizont: Erstellen von Ermittlungsleitfäden

Im Laufe der Jahre hat Elastic Security Labs seine Inhalte weiterentwickelt. Beginnend im 2020 mit dem Hinzufügen der Sicherheitsfunktion des Untersuchungsleitfadens und dann durch Standardisierung dieser Leitfäden im Jahr 2021. Bis 2023, mit über 900 Regeln, suchen wir aktiv nach einem effizienten Weg, um hochgenaue, detaillierte und standardisierte Leitfäden für alle 900+ vorgefertigten Regeln zu erstellen.

Durch die Verschmelzung traditioneller ML-Ansätze (wie z. B. die Suche nach Ähnlichkeitsvektoren) mit unserer speziellen Prompt-Engineering-Soße hat unser Team einen neuen Prototyp entwickelt, der sich auf die Generierung von Untersuchungsleitfäden namens Rulecraft konzentriert. Mit nur einer Regel-ID in der Hand können unsere Regelautoren jetzt in nur wenigen Minuten eine grundlegende Lösung für den Untersuchungsleitfaden erstellen!

Abbildung 4: Leitfaden zur Probenuntersuchung

In dieser ersten Erkundung haben wir Erkennungsregeln bereitgestellt, aber die Eingabe auf einige wenige Felder aus den Regeln wie die Beschreibung und den Namen von GPT beschränkt. Wir haben auch versucht, die Abfrage zu liefern, aber sie schien das erwartete Ergebnis, das wir wollten, zu übererfüllen. Ursprünglich haben wir eine einfache Eingabeaufforderung mit diesen Feldern bereitgestellt, um zu bewerten, wie gut GPT mit minimalem Aufwand einen anständigen Untersuchungsleitfaden erstellen kann. Im weiteren Verlauf wurde deutlich, dass wir von der Verkettung mehrerer Eingabeaufforderungen profitieren könnten, ähnlich wie beim Experiment zur Generierung von EQL-Abfragen. Also haben wir Zeit damit verbracht, Eingabeaufforderungen zu erstellen, die auf bestimmte Abschnitte des Untersuchungsleitfadens zugeschnitten sind. Die Segmentierung der Eingabeaufforderungen gewährte uns nicht nur mehr Flexibilität, sondern befasste sich auch mit Bereichen, in denen GPT ins Stocken geriet, wie z. B. der Abschnitt "Verwandte Regeln", in dem GPT am meisten halluzinierte. In Zeiten wie diesen haben wir traditionelle ML-Methoden wie die Ähnlichkeitssuche verwendet und unsere Regeln in eine Vektordatenbank integriert, um den Kontext zu verbessern.

Als Nächstes haben wir Möglichkeiten identifiziert, zusätzlichen Kontext in bestimmte Abschnitte einzubringen. Um die Einheitlichkeit unserer Leitfäden zu gewährleisten, haben wir eine Bibliothek mit genehmigten Inhalten und Sprachen für jedes Segment zusammengestellt. Diese Bibliothek leitete GPT dann bei der Generierung und Formatierung von Antworten an, die unseren etablierten Standardnachrichten ähnelten. Anschließend verglichen wir die von GenAI erstellten Anleitungen mit ihren manuell erstellten Gegenstücken, um andere Formatierungsdiskrepanzen, allgemeine Fehler, die durch GPT verursacht wurden, und noch allgemeinere Probleme mit unseren Eingabeaufforderungen zu identifizieren.

Basierend auf diesen Erkenntnissen haben wir uns entschieden, unsere generierten Inhalte zu verbessern, indem wir die Eingabeaufforderungen angepasst haben, anstatt Nachbearbeitungstechniken wie die Zeichenfolgenformatierung zu verwenden. Die automatisierten Untersuchungsleitfäden sind zwar nicht perfekt, bieten unseren Erkennungsingenieuren aber einen soliden Ausgangspunkt. In der Vergangenheit haben Untersuchungsleitfäden unseren PR-Peer-Review-Prozess verbessert, indem sie dem Prüfer mehr Kontext zur Verfügung stellten, als die Regeln das Verhalten erwarteten. Wir können jetzt die Basisanleitung generieren, sie optimieren und weitere Details hinzufügen, wenn sie vom Erkennungstechniker benötigt werden, anstatt bei Null anzufangen.

Um diese Funktion direkt an unsere Erkennungstechniker weiterzugeben, haben wir Rulecraft in einen GitHub-Aktionsworkflow integriert, damit sie bei Bedarf Leitfäden generieren können. Außerdem haben wir die zusätzlichen 650+ Leitfäden in nur 13 Stunden erstellt – eine Aufgabe, die sich traditionell über Monate erstrecken würde. Die Automatisierung ermöglicht es uns, kleine Optimierungen vorzunehmen und den Basisinhalt für Regeln, die keine Untersuchungsleitfäden enthalten, schnell neu zu generieren. Auch diese Leitfäden unterliegen immer noch unserer strengen internen Überprüfung, aber die Zeit- und Arbeitsersparnis durch die Nutzung von GenAI für unsere Vorentwürfe ist unglaublich.

Die Zukunft planen: Die nächsten Schritte

Unsere Forschungs- und Entwicklungsreise geht weiter, wobei der Schwerpunkt auf der Verfeinerung unseres Ansatzes zur Erstellung von Inhalten mit LLMs und der gründlicheren Validierung unserer Ergebnisse liegt. Hier ist eine kurze Liste unserer Prioritäten, nachdem wir die Machbarkeit und Wirksamkeit der Integration von LLMs in unseren Detection Engineering-Workflow untersucht haben:

  • Vergleichen Sie proprietäre Modelle mit den neuesten Open-Source-Modellen
  • Verfeinern Sie unseren Experimentierprozess weiter, einschließlich Ereignisfilterung, Eingabeaufforderungsoptimierung und Untersuchung verschiedener Modellparameter
  • Erstellen Sie eine Testsuite, um unsere Ergebnisse zu validieren und Regressionen zu verhindern.
  • Integrieren Sie unsere F&E-Fortschritte nahtlos in den Elastic AI Assistant.

Insgesamt wollen wir die Abdeckung unserer Ermittlungsleitfäden drastisch erhöhen und den Zeitaufwand für die Erstellung dieser Leitfäden von Grund auf reduzieren. Jedes Untersuchungshandbuch bietet Analysten detaillierte Schritt-für-Schritt-Anweisungen und Abfragen für die Sichtung von Warnungen. Mit einer kundenorientierten Mentalität an der Spitze unseres Quellcodes wollen wir die Analystenerfahrung mit mehr Untersuchungsleitfäden von noch höherer Qualität verbessern, was dazu führt, dass unsere Kunden weniger Zeit für FP-Analysen und Alarm-Triagings aufwenden.

Zusammenfassung

Im Geiste unserer offenen Innovation und Transparenz hat Elastic Security Labs seine generative KI-Reise begonnen, um die Produktivität unserer Bedrohungserkennungsprozesse zu steigern. Unsere Bemühungen entwickeln sich weiter und integrieren von Fall zu Fall Prompt Engineering und traditionelle ML-Ansätze, was zu mehr F&E-Proof-of-Concepts wie "LetmeaskGPT" und "Rulecraft" führt. Der letztgenannte POC hat den Zeitaufwand für die Erstellung von Baseline-Leitfäden, die Verbesserung der Analystenerfahrung und die Reduzierung falsch positiver Analysen erheblich reduziert. Es gibt noch so viel mehr zu tun und wir möchten Sie auf unsere Reise einbeziehen! Wir haben zwar Fortschritte gemacht, aber zu unseren nächsten Schritten gehören die weitere Verfeinerung, die Entwicklung eines Frameworks zur rigorosen Validierung unserer Ergebnisse und die Erkundung von Möglichkeiten zur Operationalisierung unserer Forschung und Entwicklung, um sicherzustellen, dass wir an der Spitze der Sicherheitsfortschritte bleiben.

Wir sind immer daran interessiert, Anwendungsfälle und Workflows wie diese zu hören, also kontaktieren Sie uns wie immer über GitHub Issues, chatten Sie mit uns in unserer Community Slack und stellen Sie Fragen in unseren Diskussionsforen!

Schauen Sie sich auch diese zusätzlichen Ressourcen an, um mehr darüber zu erfahren, wie wir die neuesten KI-Funktionen in die Hände des Analysten bringen: