Was sind synthetische Daten? Synthetische Daten sind computergenerierte Informationen, die echte Daten ergänzen oder ersetzen sollen, um KI-Modelle zu verbessern, sensible Daten zu schützen und Bias zu reduzieren. Sie werden von generativer KI erstellt, die anhand realer Muster trainiert wurde, und spiegeln die Eigenschaften der ursprünglichen Daten wider, ohne personenbezogene Informationen zu enthalten. KI-Demo
Wissenswertes über synthetische Daten
Worin liegt der Unterschied zwischen synthetischen Daten und echten Daten? Wo liegt der Ursprung synthetischer Daten? Welche Arten synthetischer Daten gibt es? Wie unterscheiden sich erweiterte und anonymisierte Daten von synthetischen Daten? Welche Vorteile bieten synthetische Daten? Vorteile synthetischer Daten im maschinellen Lernen Welche Herausforderungen gibt es bei der Verwendung synthetischer Daten? Was sind Beispiele für synthetische Daten? Was sind wichtige Anwendungsfälle für synthetische Daten? Wie werden synthetische Daten generiert? Synthetische Daten mit ServiceNow optimieren

Jedes Modell im Bereich der künstlichen Intelligenz basiert auf riesigen Datenmengen, um effektiv zu funktionieren. Je vielfältiger und umfassender der Datensatz ist, desto besser kann die KI lernen, sich anpassen und arbeiten. Daher erfordert das Training brauchbarer KI-Modelle erhebliche Mengen an hochwertigen Daten. Doch das birgt potenzielle Probleme: Daten können schwierig zu beschaffen sein, und herkömmliche Datenerfassungsmethoden sind oft zeitaufwändig und kostspielig – und sie können sogar zu Risiken im Zusammenhang mit Datenschutz und Bias führen. Um diesen und anderen Gefahren entgegenzuwirken, nutzen viele Unternehmen, die mit KI arbeiten, eine simulierte Datenquelle, mit der sie ihre intelligenten Systeme trainieren können: synthetische Daten.

Synthetische Daten sind künstlich generierte Informationen, die reale Daten imitieren sollen. Sie bietet eine Lösung für viele der Herausforderungen, die mit der Verwendung realer Daten verbunden sind. Durch den Einsatz fortschrittlicher GenAI-Modelle (generative KI) bieten synthetische Daten eine vielseitige und ethische Alternative, die die KI-Entwicklung verbessern kann – ohne die Risiken, die häufig mit dem KI-Training verbunden sind.

Alle erweitern Alle reduzieren Worin liegt der Unterschied zwischen synthetischen Daten und echten Daten?

Bevor wir weiter in die Details eintauchen, sollten wir kurz klären, wie sich synthetische Daten von echten Daten unterscheiden:

  • Synthetische Daten werden künstlich generiert, um den statistischen Eigenschaften realer Daten zu entsprechen. Sie enthalten keine tatsächlichen Datenpunkte, die mit Informationen aus der echten Welt korrelieren.
  • Echte Daten werden hingegen von realen Ereignissen, Personen und Interaktionen erfasst. Entsprechend enthalten die Datenpunkte echte Informationen, die möglicherweise sensibel sind. .

Durch die Verwendung ordnungsgemäß generierter synthetischer Daten können Unternehmen die Vorteile eines umfassenden Datentrainings nutzen, ohne dass hierbei reale Daten offengelegt oder voreingenommene oder irrelevante Informationen in Trainingsdatensätze aufgenommen werden.

Wir stellen vor: Now Intelligence Erfahren Sie, wie ServiceNow KI und Analytics vom Labor in die reale Welt bringt, um die Arbeitsweise von Unternehmen zu verändern und die digitale Transformation zu beschleunigen. Zum E-Book
Wo liegt der Ursprung synthetischer Daten?

Simulierte Daten gehen auf die 40er Jahre zurück: Damals wurden Monte-Carlo-Simulationen im Manhattan-Projekt umfassend genutzt, um komplexe, probabilistische Szenarien zu modellieren. Diese Pionierarbeit hat den Weg für die Nutzung künstlicher Daten geebnet, um reale Bedingungen zu replizieren. In den 90er Jahren wurden simulierte Daten regelmäßig für statistische Analysen und Computergrafiken verwendet. So kamen sie in der Luftfahrt- und Automobilindustrie zum Einsatz, um Systeme unter unterschiedlichen hypothetischen Bedingungen zu testen.

Als ab den 2000er Jahren die Nachfrage nach größeren und vielfältigeren Datensätzen wuchs, wurden die Grenzen realer Daten deutlich. Deshalb nutzten Forscher generative Modelle wie Generative Adversarial Networks (GANs) und Variational Autoencoders (VAEs), um synthetische Daten mit hoher Genauigkeit zu erzeugen, indem die Modelle zuvor aus echten Datenbeispielen lernten. Heute sind synthetische Daten ein wichtiges Tool, um KI-Systeme auf kontrollierte, skalierbare und risikofreie Weise zu trainieren und zu testen.

Welche Arten synthetischer Daten gibt es?

Synthetische Daten sind keine Alles-oder-nichts-Lösung: Unternehmen können wählen, wie viele synthetische Daten sie in ihre Trainingsdatensätze aufnehmen möchten. Diese Tatsache hat zu drei verschiedenen Kategorien oder Arten synthetischer Dateneingaben geführt:

 

Vollständig synthetisch

Wie der Name schon vermuten lässt, werden bei dieser Art von Datensatz keine echten Daten verwendet. Hier werden ausschließlich Algorithmen genutzt, um synthetische Daten mit realen statistischen Eigenschaften zu generieren. Vollständig synthetische Daten bieten den stärksten Datenschutz (da sie keine echten personenbezogenen Daten enthalten), eliminieren Risiken im Zusammenhang mit Bias (indem sie die Erstellung von Datensätzen ermöglichen, die fair und repräsentativ sind) und sind hochflexibel. Doch leider kann es ihnen an den Nuancen realer Daten mangeln, was sich möglicherweise auf die Leistung des Modells in realen Anwendungen auswirken kann.

Teilweise synthetisch

Dieser Ansatz ersetzt nur einige sensible Merkmale durch synthetische Werte und behält gleichzeitig Teile der realen Daten bei. So entsteht ein Gleichgewicht zwischen Datenschutz und Sicherheit und dem Einsatz wertvoller, echter Datenmerkmale. Doch dieser Ansatz birgt immer noch ein gewisses Risiko von Informationslecks und eliminiert möglicherweise nicht vollständig das Bias, das in echten Daten verborgen ist.

Hybridansatz aus echten/synthetischen Daten

Der hybride Ansatz kombiniert echte und synthetische Daten und verbindet dabei reale Zufallsdaten mit ähnlichen synthetischen Datensätzen. Das bietet einen guten Mix aus Vorteilen, indem ein umfassendes Modelltraining gewährleistet und gleichzeitig der Datenschutz verbessert wird. Doch dieser Ansatz erfordert mehr Verarbeitungszeit und Arbeitsspeicher, und die Verwaltung der Integration der echten und synthetischen Daten kann eine komplexe Aufgabe sein.

Wie unterscheiden sich erweiterte und anonymisierte Daten von synthetischen Daten?

Synthetische Daten weisen gewisse Ähnlichkeiten mit dem Konzept der erweiterten Daten auf, es gibt jedoch einige wichtige Unterschiede:

Erweiterte Daten umfassen die Verbesserung vorhandener realer Datensätze. Diese Methode erweitert Datensätze, ohne dass völlig neue Daten generiert werden (z. B. durch Rotation oder Aufhellung von Bilddaten). So kann das KI-Training verbessert werden, ohne zusätzliche echte Daten zu sammeln. Der Ansatz geht jedoch Datenschutzbedenken oder Bias nicht effektiv an und erfordert immer noch erhebliche Mengen an realen Daten, um zu funktionieren.

Anonymisierte Daten hingegen stammen aus echten Datensätzen, aber personenbezogene Informationen wurden entfernt oder unkenntlich gemacht, um die Privatsphäre zu schützen. Das trägt zwar dazu bei, regulatorische Anforderungen zu erfüllen und Datenschutzrisiken zu reduzieren. Doch mit diesem Ansatz kann zugrunde liegendes Bias nicht verhindert werden, und möglicherweise werde nicht alle sensiblen Informationen vollständig entfernt.

Im Gegensatz zu diesen anderen Ansätzen werden synthetische Daten vollständig von Algorithmen generiert, um die statistischen Eigenschaften echter Daten nachzuahmen, ohne reale Datenpunkte zu verwenden. Dieser Ansatz bietet einen umfassenderen Datenschutz und ermöglicht die Erstellung vielfältiger, Bias-freier Datensätze, die auf spezifische Anforderungen zugeschnitten sind. Damit sind synthetische Daten die vielseitigste und ethischste Lösung für das KI-Training, die derzeit verfügbar ist.

Welche Vorteile bieten synthetische Daten?

Die Arbeit mit Daten, die den Eigenschaften realer Daten entsprechen, ohne eine Verbindung zu spezifischen realen Quellen herzustellen, bietet viele Vorteile. Hier einige der wichtigsten Geschäftsvorteile:

Datenqualität

Synthetische Daten sind so konzipiert, dass sie fehlerfrei und einheitlich sind. Durch die Beseitigung der Ungenauigkeiten und Abweichungen, die in echten Daten vorkommen, gewährleisten synthetische Daten hochwertige Eingaben, was zu genaueren KI-Modellen führt.

 

Datenschutz

Synthetische Daten eliminieren Risiken im Zusammenhang mit der Offenlegung personenbezogener Daten. So erfüllt dieser Ansatz Datenschutzbestimmungen und reduziert das Risiko von Datenschutzverletzungen.

 

Skalierbarkeit

Synthetische Daten können sehr schnell in großen Mengen generiert werden. Diese Skalierbarkeit stellt sicher, dass Unternehmen ihre Modelle kontinuierlich verfeinern und verbessern können – ohne durch mangelnde Daten eingeschränkt zu werden.

 

Kosteneffizienz

Die Generierung synthetischer Daten ist oft billiger als die Erfassung und Kennzeichnung echter Daten. Das macht diesen Ansatz zu einer attraktiven Option für Unternehmen, die ihre KI innerhalb strikter Budgets optimieren möchten.

 

Weniger Bias

Synthetische Daten können erstellt werden, um das Bias zu beseitigen, das mit realen Daten verbunden ist. So können fairere KI-Systeme entwickelt werden, die in verschiedenen Bevölkerungsgruppen und Szenarien gerechter funktionieren.

 

Anpassbare Daten

Synthetische Daten können auf bestimmte Anforderungen zugeschnitten werden, um sicherzustellen, dass sie für die beabsichtigte Anwendung relevant und genau sind. Diese Anpassung ermöglicht die Erstellung von Daten, die genau den Anforderungen bestimmter KI-Modelle entsprechen.

 

Vollständige Anwenderkontrolle

Anwender können die Parameter der Datengenerierung vorgeben, um sicherzustellen, dass der Datensatz bestimmte Anforderungen erfüllt. Auf diese Weise können Unternehmen Daten erstellen, die genau den Anforderungen ihres KI-Modells entsprechen, was zu effektiveren und gezielteren Lösungen führt.

 

Datenkennzeichnung

Synthetische Daten umfassen eine inhärente Kennzeichnung, wodurch die Notwendigkeit manueller Anmerkungen reduziert wird. Die automatisierte Kennzeichnung beschleunigt den Datenvorbereitungsprozess und senkt die Arbeitskosten.

 

Schnellere Produktion

Die Erstellung synthetischer Daten ist viel schneller als die herkömmliche Erfassung realer Daten. Das beschleunigt die Entwicklung und Bereitstellung von KI-Modellen, sodass Unternehmen ihre vollständig trainierten KI-Lösungen schneller einsetzen können, als es sonst möglich wäre.

 

Vorteile synthetischer Daten im maschinellen Lernen

Neben den oben aufgeführten Vorteilen bieten synthetische Daten spezifische Vorteile für ML-Modelle ( maschinelles Lernen). Noch mehr als viele andere KI-Ansätze hängt maschinelles Lernen stark von riesigen Mengen an Trainingsdaten ab – und diese Daten können schneller und kostengünstiger bereitgestellt werden, wenn sie synthetisch generiert werden.

Ein weiterer Bereich, in dem synthetische Daten eine besondere Bedeutung für maschinelles Lernen haben, ist die Entwicklung von Daten-Repositorys für das Vortraining von ML-Modellen durch mit einer Methode namens Transfer Learning. Diese umfasst die erneute Verwendung von Trainingsdaten für andere, verwandte Aufgaben. So erhalten die ML-Modelle einen Wissensvorsprung, anstatt immer ganz von vorne anzufangen: Sie werden durch Transfer Learning vortrainiert, und dann werden zusätzliche synthetische Daten integriert, um ihre Prozesse zu optimieren.

Welche Herausforderungen gibt es bei der Verwendung synthetischer Daten?

Synthetische Daten bieten zwar zahlreiche Vorteile, bergen aber auch mehrere Herausforderungen. Um das beste Ergebnis mit synthetischen Daten zu erzielen, sollten Sie sich daher der folgenden Hürden bewusst sein und sie beseitigen:

Datenzuverlässigkeit

Es kann schwierig sein, sicherzustellen, dass synthetische Daten die realen Bedingungen genau widerspiegeln. Wenn die generierten Daten nicht zuverlässig sind, kann das zu schlechter Modellleistung und ungenauen Vorhersagen führen. Unternehmen sollten darauf achten, fortschrittliche generative Modelle zu verwenden und die synthetischen Daten kontinuierlich mit realen Datensätzen zu vergleichen, um ihre Zuverlässigkeit zu verbessern.

Ausreißerreplikation

Synthetische Daten sind eine Darstellung dessen, wie die Daten nach Ansicht des Unternehmens oder des generativen Modells aussehen sollten. Seltene Ereignisse oder Ausreißer werden hierbei möglicherweise nicht effektiv erfasst. Doch leider können diese Ausreißer entscheidend für das Training effektiver Modelle sein, insbesondere in Bereichen wie der Betrugserkennung. Indem Sie Techniken implementieren, um Ausreißer spezifisch zu modellieren und zu integrieren, können Sie sicherstellen, dass sie in den synthetischen Datensätzen widergespiegelt werden.

Hohe Anforderungen

Die Erstellung hochwertiger synthetischer Daten erfordert viel Fachwissen, Zeit und Aufwand. Und um Algorithmen zu entwickeln, die realistische Daten generieren, braucht es tiefes Verständnis und sorgfältige Abstimmung, was viele Ressourcen kosten kann. Einige Unternehmen verfügen möglicherweise nicht über die nötigen Mitarbeiter, um diese Anforderungen zu erfüllen. Um dem entgegenzuwirken, sollten sie in Schulungen für Datenwissenschaftler investieren und automatisierte Tools einsetzen, um den Datengenerierungsprozess zu optimieren.

Anwenderakzeptanz

Stakeholder, die mit echten Daten vertraut sind, könnten sich gegen die Verwendung synthetischer Daten wehren. Um Anwender von der Qualität und Eignung synthetischer Daten zu überzeugen, müssen sie geschult werden, um die Vorteile dieser Daten klar zu demonstrieren.

Qualitätsprüfung und Ausgabekontrolle

Die beständige Qualität synthetischer Daten ist entscheidend. Durch die Implementierung gründlicher Qualitätssicherungsprozesse, einschließlich regelmäßiger Audits und Feedbackschleifen, können Unternehmen sicherstellen, dass ihre Daten die erforderlichen Standards erfüllen.

Was sind Beispiele für synthetische Daten?

Synthetische Daten können in verschiedenen Formaten verwendet werden, die jeweils unterschiedliche Anwendungen und Anforderungen in der ML- und KI-Entwicklung erfüllen. Hier einige Beispiele:

Textdaten

Diese Daten umfassen synthetisch generierten Text, der zum Training von KI-Chatbots, Sprachmodellen und Übersetzungsalgorithmen verwendet wird. Durch die Erstellung künstlicher Konversationen und Dokumente können Entwickler NLP-Fähigkeiten (Natural Language Processing) verbessern.

Tabellarische Daten

Dieser Typ synthetischer Daten besteht aus synthetischen Datentabellen, die für Datenanalyse, Finanzmodellierung und maschinelles Lernen verwendet werden. Sie replizieren die Struktur und die statistischen Eigenschaften realer tabellarischer Datensätze und sind damit wertvoll für die prädiktive Modellierung und Risikobewertung.

Mediendaten

Mediendaten umfassen synthetische Bilder, Audio- und Videodaten, die mithilfe von Computergrafiken und Bildverarbeitungsalgorithmen erstellt werden. Sie werden häufig in Anwendungen wie Computervision, Bilderkennung und dem Training autonomer Systeme verwendet.

Unstrukturierte Daten

Unstrukturierte Daten umfassen eine Vielzahl von Datentypen, einschließlich Text, Bilder, Videos und Audioinhalten, die keinem vordefinierten Format folgen. Synthetische unstrukturierte Daten sind besonders nützlich für das Training von KI-Modellen in Bereichen wie Computervision, Spracherkennung und Natural Language Understanding, bei denen das System Muster in scheinbar zufälligen Datensätzen finden muss.

Was sind wichtige Anwendungsfälle für synthetische Daten?

Synthetische Daten werden bereits in zahlreichen Branchen auf der ganzen Welt eingesetzt und bieten Lösungen für verschiedene Herausforderungen beim KI-Training. Im Folgenden finden Sie einige der wirkungsvollsten Anwendungsfälle für synthetische Daten:

Gesundheitswesen

Die Verwendung synthetischer Daten ermöglicht die Erstellung großer Datensätze für das Training von KI-Modellen in der medizinischen Diagnostik, Forschung und Behandlungsplanung, ohne dass dabei die Vertraulichkeit realer Gesundheitsdaten gefährdet wird.

Regelkonformität

Künstliche Datensätze schützen die Privatsphäre und ermöglichen datengestützte Einblicke. Das erleichtert es Unternehmen, Datenschutzgesetze, -vorschriften und -richtlinien einzuhalten.

Finanzunternehmen

Banken und andere Finanzunternehmen verwenden synthetische Daten für Betrugserkennung, Risikomanagement und die Entwicklung von Kreditrisikomodellen.

Automobilbranche

Synthetische Daten werden verwendet, um autonome Fahrzeuge zu simulieren und zu trainieren. So wird ihre Sicherheit und Effizienz verbessert, indem verschiedene Fahrszenarien ohne reale Testrisiken bereitgestellt werden.

Notfallvorhersage und Risikomanagement

Modelle, die mit synthetischen Daten trainiert werden, können Naturkatastrophen simulieren und Risiken bewerten, lange bevor sie auftreten – und das trägt zu Strategien für Katastrophenvorsorge und Risikominderung bei.

Tests/QS

Mithilfe synthetischer Daten können realistische Testszenarien erstellt werden, sodass Softwareentwickler Anwendungen testen und verbessern können, ohne sich dafür auf echte Produktionsdaten verlassen zu müssen.

Einzelhandel und E-Commerce

Einzelhändler aller Arten nutzen synthetische Daten, um die Bestandsverwaltung zu optimieren, das Kundenverhalten zu analysieren und Marketingstrategien für ein besseres Zielgruppen-Targeting zu personalisieren. Synthetische Daten helfen auch bei der Verbesserung von Empfehlungssystemen und bei der Vorhersage von Verkaufstrends.

Landwirtschaft

Synthetische Daten helfen bei der Präzisionslandwirtschaft, indem sie Pflanzenwachstumsmuster, Wetterauswirkungen und Schädlingsbefall simulieren, um die Ertrags- und Ressourcenverwaltung zu verbessern. Synthetische Daten in der Computervision verbessern die Fähigkeit von KI, verschiedene Arten von Pflanzen und Samen zu identifizieren. Diese Informationen können dann für Wachstumsmodelle und die Erkennung von Pflanzenkrankheiten genutzt werden.

Fertigungsindustrie

Synthetische Daten werden verwendet, um Produktionsprozesse zu simulieren, den Betrieb zu optimieren und den Wartungsbedarf von Geräten vorherzusagen. So können Fertigungsunternehmen die Effizienz steigern und Ausfallzeiten reduzieren.

Wie werden synthetische Daten generiert?

Der Prozess zur Generierung synthetischer Daten unterscheidet sich je nach den Tools, Algorithmen und spezifischen Anwendungsfällen. Im Folgenden finden Sie drei gängige Techniken zum Erstellen synthetischer Daten:

Daten aus einfachen Verteilungen generieren

Diese Methode umfasst die zufällige Auswahl von Zahlen aus einer vordefinierten Verteilung, z. B. Gaußsche oder Gleichverteilungen. Obwohl sie im Allgemeinen nicht die Komplexität realer Daten erreicht, bietet sie eine grundlegende Möglichkeit, Daten mit ähnlichen statistischen Eigenschaften zu generieren, was für anfängliche Modelltests und einfache Simulationen nützlich ist.

Agentenbasierte Modellierung

Diese Technik simuliert Interaktionen zwischen autonomen Agenten innerhalb eines Systems, z. B. Personen, Mobiltelefonen oder Computerprogrammen. Jeder Agent arbeitet auf Grundlage vordefinierter Regeln und kann mit anderen Agenten interagieren, sodass Forscher komplexe Systeme und Verhaltensweisen untersuchen können.

Generative Modelle

Fortschrittliche Algorithmen wie Diffusionsmodelle generieren synthetische Daten, indem sie die statistischen Eigenschaften realer Datensätze erlernen. Diese Modelle trainieren mit tatsächlichen Daten, um Muster und Beziehungen zu verstehen und neue, ähnliche Daten zu erstellen. Diffusionsmodelle sind sehr effektiv bei der Erstellung hochwertiger, realistischer synthetischer Datensätze und sind daher wertvoll für KI-Training und -Tests.

Preise von ServiceNow ServiceNow bietet wettbewerbsfähige Produktpakete, die mit Ihrem Unternehmen wachsen und sich Ihren Anforderungen anpassen. Preise anzeigen
Synthetische Daten mit ServiceNow optimieren

Wenn es um das KI-Training geht, sind echte Daten nicht immer die beste Option. Synthetische Daten bieten verbesserte Skalierbarkeit, Datenqualität, Kosteneffektivität und weniger Bias und spiegeln gleichzeitig die Eigenschaften (aber nicht die sensiblen Details) echter Datenpunkte wider. Das macht sie zu einem wertvollen Asset für Unternehmen, die fortschrittliche KI-Funktionen nutzen möchten.

ServiceNow ist führend bei der Anwendung von KI-Lösungen auf Geschäftsbedürfnisse und stellt über die leistungsstarke Now Platform® eine umfassende Suite an KI-Funktionen bereit. ServiceNow integriert die neueste KI-Technologie – darunter ML-Frameworks, Natural Language Processing, prädiktive Analytics und mehr – und ermöglicht es Unternehmen, einen intelligenteren und autonomen Geschäftsansatz zu entwickeln. Mit den umfassenden GenAI-Funktionen von ServiceNow Now Assist haben Sie alles, was Sie brauchen, um die richtigen KI-Trainingsdaten zu erstellen. Schauen Sie sich eine ServiceNow-Demo an, um mehr zu erfahren.

Alt
KI-Workflows entdecken Entdecken Sie, wie die Now Platform den praktischen Nutzen der KI in jeden Aspekt Ihres Geschäfts einbringt. GenAI erkunden Kontakt
Ressourcen Artikel Was ist KI? Was ist generative KI? Analystenberichte IDC InfoBrief: KI-Wert mit einer digitalen Plattform maximieren Generative KI im IT-Betrieb Implementierung generativer KI in der Telekommunikationsbranche Datenblätter KI-Suche Mit ServiceNow® Prädiktive AIOps Ausfälle prognostizieren und verhindern Ressourcenmanagement E-Books IT-Services und -Betrieb mit KI modernisieren Gen AI: Ist es wirklich so eine große Sache? Produktivität mit Gen AI unternehmensweit steigern Whitepaper KI-Reifeindex für Unternehmen Gen AI für die Telekommunikation