Was sind unstrukturierte Daten?
Definition: unstrukturierte Daten
Unstrukturierte Daten sind Daten, die nicht in einem speziell entwickelten Modell oder einer Struktur organisiert sind. Unstrukturierte Daten sind normalerweise als qualitativ kategorisiert und können von Menschen oder von Maschinen generiert werden. Unstrukturierte Daten sind der umfangreichste Datentyp und können analysiert werden, um Geschäftsentscheidungen zu treffen, Geschäftsziele zu erreichen und andere Anwendungsfälle zu unterstützen.
Unstrukturierte Daten werden normalerweise in ihrem nativen Format gespeichert. Dieses Format erschwert es oft, die Daten in umsetzbare Erkenntnisse zu konvertieren. Unstrukturierte Daten sind zwar schwieriger zu verarbeiten als strukturierte Daten, enthalten jedoch oft auch umfassende und ausführliche Informationen, die in strukturierten Daten nicht verfügbar sind. Daher investieren zahlreiche Unternehmen in Technologien wie Machine Learning (ML) und natürliche Sprachverarbeitung (Natural Language Processing, NLP), um unstrukturierte Daten besser analysieren und Einblicke daraus gewinnen zu können.
Beispiele für unstrukturierte Daten
Unstrukturierte Daten sind qualitativ und existieren beispielsweise in Text-, Bild-, Audio- oder Videoformaten. Beispiele für unstrukturierte Daten:
- Rich Media, wie etwa Audio- oder Videodaten, Überwachungsdaten, Geodaten, Bilder und Wetterdaten.
- IoT-Daten (Internet of Things), wie etwa Ticker- oder Sensordaten aus Geräten.
- Textdaten, wie etwa E-Mails, Textnachrichten, Rechnungen, Aufzeichnungen und Kommunikationsdaten aus Produktivitätsanwendungen.
- Wissenschaftliche Daten, wie etwa computergenerierte Weltraumerkundungsdaten oder seismische Berichte.
- Gesundheits- und Bilddaten, wie etwa Kernspin-, Röntgen- oder CT-Scans und andere medizinische Daten wie Notizen und Rezepte von Ärzten.
Weitere Beispiele für unstrukturierte Daten werden sich durch neu entwickelte Datenerfassungstechnologien von Natur aus ergeben.
Gegenüberstellung: strukturierte und unstrukturierte Daten
Strukturierte Daten sind im Gegensatz zu unstrukturierten Daten quantitativ und existieren in einer vordefinierten Struktur oder einem Modell. Diese Daten liegen in organisierter Form vor und können daher mühelos von Unternehmen und Machine-Learning-Algorithmen verarbeitet werden.
Beispiele für strukturierte Daten sind die Datentypen, die wir mit Tabellenkalkulationen oder relationalen Datenbanken wie etwa SQL, MySQL oder PostgreSQL verarbeiten und die sich leicht in eine vordefinierte Struktur einfügen lassen. Strukturierte Daten können zum Verwalten von Kundenbeziehungen verwendet werden, da sie für Unternehmen leicht auszuwertende Informationen enthalten: Logs, Metriken, Termine, Namen, Postleitzahlen, Kreditkartennummern usw.
Unstrukturierte Daten sind dagegen qualitativ und haben keine einheitliche interne Struktur. Daher sind unstrukturierte Daten ohne passende Tools und das richtige Fachwissen nur schwer auszuwerten.
Wie können Sie die Verwaltung unstrukturierter Daten erleichtern?
Strukturierte Daten können Unternehmen mehr über das Verhalten ihrer Kunden („was“) verraten und enthalten Dinge wie Namen, gekaufte Artikel und Aufenthaltsorte. Unstrukturierte Daten liefern dagegen tiefere Einblicke in die Absichten und Verhaltensweisen der Kunden („warum“, „wie“), wie etwa Produktbewertungen, Supporttickets und Navigationsabläufe auf Websites.
Herausforderungen beim Umgang mit unstrukturierten Daten
Aufgrund der Menge, der Vielfältigkeit und den unterschiedlichen Quellen von unstrukturierten Daten ist es für Unternehmen oft schwer, diese Daten zu verarbeiten, zu verwalten und zu analysieren.
- Datenvolumen: Unstrukturierte Daten sind sehr umfangreich. Sie bilden 80 % aller vorhandenen Daten1 und werden fortlaufend generiert. Das Forschungsunternehmen ITC erwartet für 2018 bis 2025 eine Zunahme des Datenvolumens um 430 %2.
- Datenvielfalt: Unstrukturierte Daten umfassen eine Vielzahl verschiedener Datentypen, wie etwa Textdaten, Bilder und Videos. Große Daten-Repositorys wie etwa Data Lakes sind erforderlich, um unstrukturierte Daten an einem Ort speichern zu können. Die naturbedingte Vielfalt der unstrukturierten Daten erschwert auch deren Verknüpfung. Wie sollen wir Bilder, Videos und Textdaten einander zuordnen?
- Datenqualität: Die Qualität unstrukturierter Daten ist aufgrund der Vielfalt der Daten oft sehr uneinheitlich. Unstrukturierte Daten können Fehler, Unstimmigkeiten oder irrelevante Informationen enthalten. Daher ist es schwierig, genaue Informationen zu extrahieren. Das Vorverarbeiten oder Bereinigen unstrukturierter Daten zur Verbesserung der Qualität ist oft zeitraubend und komplex.
- Analyse: Im Gegensatz zu strukturierten Daten, die mühelos abgefragt und analysiert werden können, sind unstrukturierte Daten oft aufgebläht und passen nicht ohne Weiteres in eine Datenbank. Unstrukturierte Daten werden in ihrem nativen Format gespeichert und erst beim Anzeigen verarbeitet.
- Sicherheit und Datenschutz: Unstrukturierte Daten können vertrauliche Informationen enthalten. Es ist oft nicht einfach, die Sicherheit und den Schutz dieser Daten zu gewährleisten.
- Integration: Das Integrieren von unstrukturierten und strukturierten Daten zu einer ganzheitlichen Ansicht ist oft schwer, weil kein vordefiniertes Datenmodell existiert.
Die Herausforderung beim Verwalten und Analysieren unstrukturierter Daten besteht also hauptsächlich im Volumen der Daten. Viele Unternehmen produzieren Artefakte, Objekte oder Dateien, die wie etwa im Fall einer E-Mail von wenigen Gigabyte (GB) bis hin zu mehreren Petabyte (PB) reichen können, wie etwa eine Mediendatei in voller Länge. Diese Daten können zwar manuell verwaltet werden, aber viele Datenbanken und Tools sind dem Volumen und der Vielfalt unstrukturierter Daten nicht gewachsen. Sie benötigen spezielle Tools und Technologien, um das exponentiell wachsende Datenvolumen zu bändigen.
Anwendungsbereiche für unstrukturierte Daten
Durch die Analyse unstrukturierter Daten ergibt sich eine Vielzahl neuer Möglichkeiten für Unternehmen. Unstrukturierte Daten sind qualitativ und helfen den Unternehmen oft, ihre Kunden und deren Absichten besser zu verstehen oder Marktanpassungen vorzunehmen. Auf diese Weise können die Unternehmen bessere und besonders sichere und resiliente Kundenerlebnisse anbieten.
Mögliche Anwendungsbereiche für unstrukturierte Daten:
- Bessere Kundenerlebnisse: Unternehmen können Kunden-Support-Chats, E-Mails und Anrufmitschriften analysieren, um häufig auftretende Probleme zu identifizieren, Support-Protokolle zu optimieren, personalisierte Sucherlebnisse anzubieten und Kundenservicemitarbeiter effektiver zu schulen.
- Vorhersage von Ergebnissen im Gesundheitswesen: Krankenakten enthalten oft unstrukturierte Daten, wie etwa Notizen von Ärzten, die analysiert werden können, um Muster zu erkennen, Ergebnisse vorherzusagen oder Behandlungspläne zu erstellen.
- Betrugserkennung: In der Finanzbranche können unstrukturierte Daten eingesetzt werden, um betrügerische Aktivitäten aufzudecken. Eine Analyse der E-Mail-Kommunikation kann beispielsweise verdächtige Muster zutage fördern, die auf ein betrügerisches Verhalten hindeuten.
- Erstellen von Empfehlungen: E-Commerce-Plattformen und Streamingdienste können unstrukturierte Daten wie etwa Produktbeschreibungen oder Filmdrehbücher analysieren, um ihre Empfehlungsalgorithmen zu verbessern.
- NLP-Modelle (Natural Language Processing, natürliche Sprachverarbeitung) trainieren: Unstrukturierte Daten sind unverzichtbar beim Trainieren von KI-Modellen mit NLP. Ein mögliches Beispiel ist ein Chatbot, der mit einem großen Korpus aus Textdaten trainiert wird, die von Natur aus unstrukturiert sind.
- KI-Bilderkennungstraining: Unstrukturierte Bilddaten sind wichtig, um Machine-Learning-Modelle für Aufgaben wie Gesichts- oder Objekterkennung zu trainieren.
- Prädiktive Datenanalysen: Durch die Analyse von unstrukturierten Daten können Unternehmen Markttrends vorhersagen und entsprechende Anpassungen vornehmen.
- Standpunktanalysen: Unternehmen können unstrukturierte Daten analysieren, um Einblicke in die Meinungen, Verhaltensweisen und Kaufmuster von Kunden zu gewinnen. Außerdem können die Unternehmen Daten aus Social-Media-Beiträgen oder Produktbewertungen sowie Kunden-Feedback analysieren, um die Meinungen der Kunden gegenüber den Produkten oder Dienstleistungen oder der Marke des Unternehmen zu verstehen.
Diese Anwendungsbereiche für unstrukturierte Daten bieten zahlreiche Vorteile für Unternehmen.
Sicherheitsrisiken reduzieren
Unternehmen können Telemetriedaten analysieren, um wertvolle Einblicke zu gewinnen und die Nutzer über aufgetretene Bedrohungsphänomene und Trends im Bereich der Cybersicherheit zu informieren. Mit einem modernen SIEM-Tool (Security Information and Event Management) können Sicherheitsteams riesige Mengen an beliebigen Daten durchsuchen, inklusive unstrukturierter Daten, um Aufgaben wie Monitoring und Compliance, Erkennung, Vermeidung und Abwehr von Bedrohungen sowie Incident-Response zu erledigen.
Bessere betriebliche Resilienz
Angesichts der Anforderungen im Hinblick auf Verfügbarkeit und Leistung von Anwendungen müssen Unternehmen in der Lage sein, die von ihren Systemen produzierten unstrukturierten Daten zu beobachten. Logs und Metriken können in Echtzeit darauf hindeuten, dass die Nachfrage der Nutzer die Kapazität überschreitet oder dass die Leistung durch einen Serverfehler beeinträchtigt wird. Bekannte Ursachen können behoben werden.
Besseres Kundenerlebnis
Unternehmen können unstrukturierte Daten verwalten, um ein besseres Kundenerlebnis in Form einer besseren Suchfunktion für ihre Nutzer bereitzustellen. Leistungsfähige Suchfunktionen können das Sucherlebnis in Frontend und Backend für Kunden und Entwickler gleichermaßen verbessern. Kunden können jederzeit das gelb gestreifte Spielzeug für ihre Kinder finden, und Mitarbeiter finden mühelos die Dateien, Bilder oder Videoclips, nach denen sie suchen, egal in welcher Umgebung sie sich befinden.
Verwalten und Analysieren von unstrukturierten Daten
Unstrukturierte Daten haben naturgemäß keine vordefinierte Struktur, die das Verwalten und Analysieren der Daten vereinfachen könnte. Um unstrukturierte Daten analysieren zu können, müssen Sie also zunächst eine Struktur für deren Verwaltung definieren. Anschließend können Sie Ihre unstrukturierten Daten speichern, organisieren und schützen.
Danach sind die organisierten unstrukturierten Daten bereit für Verarbeitung und Analyse. Aus diesen Analysen gewinnen Unternehmen praktisch umsetzbare Einblicke.
Sie können eine Vielzahl an Tools und Technologien nutzen, um unstrukturierte Daten verwaltbar und analysierbar zu machen.
Natürliche Sprachverarbeitung (Natural Language Processing, NLP): Die NLP-Technologie befasst sich mit der Interaktion zwischen Computern und Menschen in Form von natürlicher Sprache. NLP hat das Ziel, menschliche Sprache möglichst sinnvoll lesen, entziffern, verstehen und interpretieren zu können.
Machine Learning (ML): Machine Learning ist ein Teilbereich der künstlichen Intelligenz (KI), der Computer in die Lage versetzt, zu lernen, datengestützte Entscheidungen zu treffen und die eigene Leistung im Lauf der Zeit zu verbessern, ohne dies explizit programmieren zu müssen. ML verwendet statistische Methoden, um Muster in strukturierten und unstrukturierten Daten zu erkennen und Vorhersagen oder Entscheidungen zu treffen.
Data Lakes: Aufgrund der Vielfalt und des großen Volumens können unstrukturierte Daten in Data Lakes oder direkt am Ort der Datenerstellung (Edge) gespeichert werden. Data Lakes eignen sich hervorragend, um große Mengen verschiedener Datentypen zu speichern. Data Lakes speichern Daten im nativen Format und können daher Video, Audio, Text und Dokumente nebeneinander enthalten.
Content-Management-Systeme (CMS): Mit einem CMS können Unternehmen unstrukturierte Daten speichern, abrufen, durchsuchen, indexieren und online veröffentlichen.
Schwer auffindbare Daten sind der Schlüssel zur digitalen Transformation
Nutzung unstrukturierter Daten in Unternehmen
Unternehmen in verschiedenen Branchen nutzen unstrukturierte Daten auf zahlreiche Arten. Vom Gesundheitswesen bis hin zur Fertigungsbranche können Unternehmen mit den aus unstrukturierten Daten gewonnenen Einblicken bessere Dienstleistungen anbieten.
Gesundheitswesen
Die Gesundheitsbranche profitiert auf verschiedensten Ebenen von unstrukturierten Daten. Ein ausgeklügelter Chatbot kann Mitarbeitern im Gesundheitswesen helfen, Sprachmuster zu erkennen, die auf eine bestimmte Krankheit hindeuten. Gesundheitsprotokolle können helfen, Gesundheitsrisiken zu identifizieren, wenn die Daten verarbeitet werden. Durch die Zusammenführung von unstrukturierten und strukturierten Daten können die Ergebnisse der Krankenpflege verbessert werden.
Finanzdienstleistungen
Prädiktive Datenanalysen sind in der Finanzbranche unverzichtbar, um Markttrends und -Entwicklungen zu erkennen. Mit diesen Daten können sich Unternehmen entsprechend anpassen. Auf einer differenzierten Ebene werden unstrukturierte Daten eingesetzt, um Dokumente für Kredite, Darlehen, Geschäftspläne und Verträge zu erstellen. Die Analyse unstrukturierter Daten unterstützt auch den Kampf gegen Finanzkriminalität. Unternehmen können betrügerische Unterschriften erkennen oder Phishing-Betrugsversuche identifizieren und abwehren.
Öffentlicher Sektor
Für Unternehmen im öffentlichen Sektor sind Daten oft ein strategischer Asset. Durch die optimale Datennutzung können die Unternehmen Kosten senken, ihren Betrieb vereinfachen und den Tool- und Datenwildwuchs reduzieren, indem sie eine ganzheitliche Strategie anwenden, die Cybersicherheit, Logging und AIOps umfasst.
Telekommunikation
Telekommunikationsunternehmen können ihre Daten besser nutzen, indem Sie Silos aufbrechen, um Telco-as-a-Service anzubieten und die Verfügbarkeit ihrer Netzwerke zu verbessern. Mit der Nutzung unstrukturierter Daten können die Unternehmen schnellere Datenanalysen bereitstellen und Prozesse automatisieren, um ihren Kunden ein besseres Erlebnis zu bieten.
Marketing
Data Mining und prädiktive Analysen werden häufig im Marketingbereich eingesetzt, um Gelegenheiten und Trends, Kundenanforderungen sowie die Verhaltensweisen und Absichten von Kunden zu identifizieren und zu verstehen. Marketingexperten generieren und nutzen unstrukturierte Daten, um besser mit ihren Kunden zu kommunizieren und letztendlich das Kundenerlebnis zu verbessern.
Fertigungsbranche
Unstrukturierte Daten, wie etwa Pläne, Modelle und Blaupausen, sind in der Fertigungsbranche unverzichtbar. Die Fähigkeit, unstrukturierte Daten in der Landwirtschaft verarbeiten und analysieren zu können, ist hilfreich, um Erträge vorherzusagen und zu verwalten. Die Automobilbranche nutzt unstrukturierte Daten, um Nachfrageschwankungen zu erkennen und zu erfüllen.
Mit zunehmender Ausgereiftheit der Technologien zum Verwalten und Analysieren unstrukturierter Daten können Unternehmen ihre unstrukturierten Daten ebenfalls immer optimaler nutzen.
Zukunftstrends im Hinblick auf unstrukturierte Daten
Aktuelle Entwicklungen in den Bereichen künstliche Intelligenz (KI) und Machine Learning (ML) haben eine neue Ära für die Nutzung unstrukturierter Daten eingeläutet. Mit der Weiterentwicklung von KI- und ML-Technologien können unstrukturierte Daten auch immer besser verarbeitet und mit strukturierten Daten zusammengeführt werden, um bessere Geschäftseinblicke zu gewinnen.
Aus neuen Möglichkeiten zur Datenerfassung ergeben sich bisher ungeahnte Anwendungsbereiche für unstrukturierte Daten. Die Gesichtserkennung ist für viele Smartphone-Nutzer bereits eine alltägliche Anwendung. Neue Entwicklungen im Bereich der Gesichtserkennung ermöglichen die Erkennung von Emotionen, was beispielsweise im Gesundheitswesen und im Kundenservice sehr hilfreich sein kann.
Mit der zunehmenden Verfügbarkeit virtueller persönlicher Assistenten werden unstrukturierte Daten auch immer stärker genutzt, um die Produktivität zu steigern. Bestimmte Aufgaben werden automatisiert, damit die Nutzer ihre Effizienz steigern und mehr produzieren können. Mit virtuellen persönlichen Assistenten verbringen Ärzte mehr Zeit mit ihren Patienten und weniger Zeit mit dem Ausfüllen von Papierkram.
Verwalten und Analysieren von unstrukturierten Daten mit Elastic
Nach dem Importieren Ihrer unstrukturierten Daten können Sie eine Struktur auf die Daten anwenden, um sie nutzbar zu machen. Elastic stellt verschiedene Verwaltungslösungen für unstrukturierte Daten bereit.
Mit der Elasticsearch Relevance Engine for AI erhalten Unternehmen eine Reihe leistungsstarker Tools zur Erstellung von KI-gestützten Suchanwendungen, die unstrukturierte Daten nutzen.
Finden Sie heraus, wie Sie Ihre unstrukturierten Daten mit Elasticsearch speichern, durchsuchen und analysieren können, um Anwendungsfälle wie etwa Suche, Observability und Sicherheit abzudecken.
Ressourcen zum Thema unstrukturierte Daten (teils nur auf Englisch verfügbar)
Fußnoten
1 "The Future of Data Revolution will be Unstructured Data" by Priya Dialani, Analytics Insight, October 2020, https://www.analyticsinsight.net/the-future-of-data-revolution-will-be-unstructured-data/ (Accessed June 1, 2023)
2 „Possibilities and limitations, of unstructured data“ von Robert Heeg, ESOMAR Global Market Research 2022 (abgerufen über Research World)