あらゆる人工知能のモデルは、効果的に機能するために膨大な量のデータに依存しています。データセットが多様で包括的であればあるほど、AI はより的確に学習し、適応性を高め、パフォーマンスを向上させることができます。そのため、有用な AI モデルをトレーニングするには、大量の高品質データが必要です。これには潜在的な懸念が伴うことがあります。データの入手が困難な場合があり、さらに従来のデータ収集方法では、長い時間と多額のコストがかかることが多く、プライバシーやバイアスに関連した問題が起きる可能性さえあります。このような問題に対処するために、AI を活用している企業は、インテリジェントシステムのトレーニングをする際に、模擬ソースに目を向けるようになっています。それが合成データです。
合成データは現実のデータを模倣するように人工的に生成された情報です。リアルデータの使用に関連した多くの課題に対するソリューションを提供します。合成データは、高度な生成 AI (GenAI) モデルを活用することで汎用性の高い倫理的な代替手段を提供して、AI トレーニングに関連する一般的なリスクを発生させることなく AI の開発を強化できます。
詳細に入る前に、合成データとリアルデータの違いを簡単に説明しておくことにしましょう。
- 合成データは、実世界のデータの統計的特性に一致するように人工的に生成されます。現実の情報と相互に関連する、実際のデータポイントは含まれていません。
- リアルデータは、現実世界のイベント、個人、やり取りから収集され、データポイントには実際の情報が含まれており、その中には機密性の高いものもあります。.
適切に生成された合成データを使用することで、リアルデータが漏洩したり、バイアスを含む情報や無関係な情報がトレーニングデータセットに組み込まれたりするリスクなしに、包括的なデータトレーニングのメリットを得ることができます。
模擬データの起源は 1940 年代にさかのぼり、当時はマンハッタン計画でモンテカルロシミュレーションが広く使用され、複雑な確率論的シナリオをモデル化していました。この先駆的な研究は、人工データを使用して現実世界の状況を再現するための土台を設定しました。1990 年代までに模擬データは統計分析やコンピューターグラフィックスで頻繁に用いられるようになり、航空宇宙工学や自動車工学でさまざまな仮想条件の下でシステムをテストするために応用されました。
2000 年代以降、より大規模で多様なデータセットに対する需要が高まるにつれ、リアルデータの限界が明らかになりました。研究者たちは、敵対的生成ネットワーク (GAN) や変分オートエンコーダー (VAE) などの生成モデルに目を向け、リアルデータのサンプルから学習することで高忠実度の合成データを生成しました。今日では、制御されたスケーラブルでリスクのない方法で AI システムのトレーニングとテストを行うために、合成データは重要なツールになっています。
合成データは、全面的に使用するか一切使用しないかという二者択一のソリューションではありません。トレーニングセットに含める合成データの量は選択可能です。このことにより、合成データの投入量について次の 3 つの異なるカテゴリ (タイプ) が生まれました。
その名の通り、このタイプのデータセットではリアルデータを一切使用せず、完全にアルゴリズムに依存して現実の統計的特性を持つ合成データを生成します。完全合成データは、(実際の個人情報を含まないため) プライバシー保護が最も強力で、(公平で現実を反映したデータセットを作成できるようにすることで) バイアスに関連するリスクを排除するとともに、高い柔軟性を備えています。残念ながら、リアルデータのニュアンスが欠けている可能性もあり、現実での応用においてはモデルのパフォーマンスに影響が及ぶ場合もあります。
このアプローチでは、一部の機密性の高い特徴のみを合成値に置き換え、リアルデータの部分を保持しながら、プライバシーや安全性とリアルデータの貴重な特性とのバランスを取ります。このアプローチにはまだ一定の情報漏洩リスクがあり、リアルデータに隠れたバイアスを完全に排除できない可能性があります。
ハイブリッドアプローチでは、リアルデータのランダムなレコードを類似の合成データとペアリングし、リアルデータと合成データを組み合わせます。これにより、両方のメリットをうまく活かし、プライバシーを強化しながら包括的なモデルトレーニングが行えます。これには、必要な処理時間とメモリが増大し、リアルデータと合成データの統合の管理が複雑なタスクになる可能性もあります。
合成データは、拡張化データの概念と類似している点もありますが、次のような重要な違いがいくつかあります。
拡張化データでは、既存のリアルデータセットを強化します。この手法は、(画像データを回転させたり輝度を上げたりすることなどにより) まったく新しいデータを生成せずにデータセットを拡張するもので、追加のリアルデータを収集しないで AI トレーニングを改善することに役立ちます。ただし、プライバシー上の懸念やデータのバイアスに効果的に対処することはできないので、機能するには依然として膨大な現実のデータに依存します。
一方、匿名化データは、実際のデータセットの個人情報を削除したり難読化したりしてプライバシーを保護します。これは規制要件を満たし、プライバシーリスクを軽減する上で有用ですが、内在するバイアスを保持したままになり、機密情報もすべて完全には削除できない可能性があります。
これらの他のアプローチとは対照的に、合成データは実際のデータポイントを使用せずに完全にアルゴリズムによって生成されて現実のデータの統計的特性を模倣します。このアプローチでは、より完全にプライバシーを保護でき、個別のニーズに合わせてカスタマイズした多様でバイアスのないデータセットを作成できます。その結果、合成データは、AI トレーニングに現在利用可能なソリューションの中で最も汎用的で倫理性の高いものになっています。
実際のデータの特性に一致しながらも特定の実際のソースに結びついていないデータで作業することには、多くのメリットがあります。ビジネス上の最も特筆すべきメリットとしては、次のようなものがあります。
合成データは、エラーのない一貫性のある設計になっています。合成データは、現実のデータに見られる不正確さや矛盾を排除することで、高品質な入力情報を確保し、より正確な AI モデルを実現できます。
合成データは、個人情報の漏洩に関連するリスクを排除します。プライバシー規制に準拠し、データ侵害のリスクを軽減します。
合成データは膨大な量を非常に迅速に生成できます。この拡張性により、組織では限られたデータで制約を受けることなく、モデルを継続的に洗練し改善していくことができます。
多くの場合、合成データの生成は、リアルデータを収集してラベル付けするよりも低費用で実行できます。これにより、厳しい予算の範囲内で AI を最適化したいと考えている組織にとって魅力的な選択肢となります。
合成データを作成して、現実世界のデータに固有のバイアスに対処し、それを軽減することができます。これにより、さまざまな人口統計集団やシナリオでより公平に機能する、より公正な AI システムの開発に貢献します。
合成データは特定のニーズに合わせてカスタマイズすることで、意図したアプリケーションに対して適切で正確なものにできます。カスタマイズにより、特定の AI モデルの要件に正確に合致するデータを作成できます。
ユーザーはデータ生成パラメーターを決定し、データセットが特定の要件を満たすようにすることが可能です。これにより、組織は自分たちの AI モデルのニーズに正確に適合するデータを作成して、より効果的でターゲットを絞ったソリューションを実現できます。
合成データには固有のラベル付けが含まれているため、手動によるアノテーションの必要性が軽減されます。ラベル付けの自動化により、データの準備プロセスが迅速化し、人件費を削減できます。
合成データは、従来のデータ収集方法よりもはるかに迅速に生成できます。AI モデルの開発と展開を加速することで、組織は完全にトレーニングされた AI ソリューションを、他の方法よりも迅速に機能させることができます。
合成データは上記のベネフィットに加えて、機械学習 (ML) モデルに特有のメリットをもたらします。機械学習は、AI に対する他の多くのアプローチよりも、大量のトレーニングデータに大きく依存しています。そのデータは、合成して生成すればより迅速かつ低コストで供給できます。
機械学習において合成データが特別な意義を持つもう 1 つの分野は、転移学習を通じて ML モデルを事前トレーニングするためのデータリポジトリの開発です。ここではトレーニングデータを他の関連タスクに転用します。新しい ML モデルを何もない状態から始めるのではなく、転移学習を使用して事前トレーニングしてから追加の合成データを組み込んでプロセスを微調整することで、有利にスタートを切ることができます。
合成データには多くのベネフィットがありますが、いくつか課題もあります。合成データから最適な結果を得るには、次の課題とその克服方法を認識しておく必要があります。
合成データに現実世界の状況を正確に反映させることが困難な場合があります。生成されたデータの信頼性が低いと、モデルのパフォーマンスが低下し、予測が不正確になる可能性があります。組織では、必ず高度な生成モデルを使用し、合成データを現実世界のデータセットに照らし合わせて継続的に検証して、信頼性を高める必要があります。
合成データは、組織や生成モデルが考えるデータのあるべき姿を表しており、希少なイベントや外れ値を効果的に捉えていない場合があります。残念ながら、そうした外れ値は、特に不正行為の検出などの分野では効果的なモデルをトレーニングするために不可欠です。外れ値を具体的にモデル化して含める技術を実装することで、それらが合成データセットで表現されるようになります。
高品質の合成データを生成するには、多大な専門知識、時間、労力が必要です。現実的なデータを生成するアルゴリズムを開発するには、深い理解と慎重な調整が必要であり、それにはリソースを大量に消費する可能性があります。組織によっては、そうした要件を満たすリソースがない場合があります。これに対処するには、データサイエンティストのトレーニングに投資したり、自動化ツールを使用してデータ生成プロセスを簡素化したりする必要があります。
リアルデータに慣れ親しんだステークホルダーの間では、合成データの使用に抵抗が生じる可能性があります。合成データの妥当性と有用性をユーザーに納得させるには、教育と、ベネフィットの明確な実証が必要です。
合成データの品質と一貫性を維持することは不可欠です。定期的な監査やフィードバックループなどの徹底した品質保証プロセスを導入することで、データが必要な基準を満たしている状態を維持できます。
合成データはさまざまな形式で使用でき、それぞれが機械学習や AI 開発におけるさまざまなアプリケーションやニーズに対応します。以下に例を示します。
これには、AI チャットボット、言語モデル、翻訳アルゴリズムのトレーニングに使用する合成生成したテキストなどがあります。人工的な会話やドキュメントを作成することで、開発者が自然言語処理 (NLP) 機能を強化できます。
このタイプの合成データは、データ分析、財務モデリング、機械学習トレーニングに使用される合成データテーブルで構成されています。現実世界の表形式データセットの構造と統計的特性を再現しているので、予測モデリングとリスクアセスメントに有益です。
メディアデータには、コンピューターグラフィックスや画像処理のアルゴリズムを使用して作成された合成画像、合成音声、合成動画などがあります。コンピュータービジョン、画像認識、自律システムトレーニングなどのアプリケーションで広く使用されています。
非構造化データには、事前定義された形式に従わないテキスト、画像、動画、音声など、さまざまなデータタイプが含まれます。合成非構造化データが特に役に立つのは、コンピュータービジョン、音声認識、自然言語理解など、システムが一見ランダムなデータセットのパターンを見つけられることを期待される分野での AI モデルのトレーニングです。
合成データはすでに世界中の業界で採用されており、AI トレーニングのさまざまな課題に対するソリューションを提供しています。次に、合成データが最も大きな効果を生んでいるユースケースをいくつか紹介します。
合成データを使用することで、医療診断、研究、治療計画における AI モデルをトレーニングするための大規模なデータセットを生成しながら、実際の患者が強く必要とする機密性を保護できます。
人工のデータセットを使用すると、個人のプライバシーを保護しながら、データ主導のインサイトを取得できます。これにより、組織がデータプライバシーに関する法律、規制、ポリシーを遵守しやすくなります。
銀行やその他の金融機関では、不正行為の検出、リスク管理、信用リスクモデルの開発に合成データを使用しています。
合成データを使用して自動運転車のシミュレーションとトレーニングを行い、実際のテストに伴うリスクなしに多様な運転シナリオを提供することで、安全性と効率性を高めています。
合成データでトレーニングしたモデルは、自然災害をシミュレートし、発生前にリスクを評価できるため、災害への備えや軽減戦略への情報提供に役立ちます。
ソフトウェア開発者は、合成データを使用して現実的なテストシナリオを作成できるため、実際の本番データに依存せずにアプリケーションをテストして改善できます。
あらゆる種類の小売業者が合成データを活用して、インベント管理の最適化、顧客行動の分析、マーケティング戦略のパーソナライズ化によるターゲティングの改善に取り組んでいます。合成データは、推奨システムの改善や販売動向の予測にも役立ちます。
作物の成長パターン、天候の影響、害虫の蔓延をシミュレーションして精密農業を支援し、収穫高と資源管理を改善しています。コンピュータービジョンにおける合成データは、成長モデルや作物の病気の検出に使用されるさまざまな種類の植物や種子を特定する AI の能力を向上させます。
合成データを使用して、生産プロセスのシミュレーション、オペレーションの最適化、機器メンテナンスのニーズの予測を行い、製造ビジネスの効率を高め、ダウンタイムを削減しています。
合成データを生成するプロセスは、使用するツールやアルゴリズムおよび対象とする個別のユースケースによって異なります。合成データの生成に使用される一般的な 3 つの手法を紹介します。
この方法では、ガウス分布や一様分布など、事前定義された分布からランダムに数値を選択します。これは一般的には、現実世界のデータと同じ複雑さをキャプチャはしませんが、類似の統計的特性を持つデータを生成する基本的な方法を提供し、初期段階のモデルテストや簡単なシミュレーションに役立ちます。
この手法では、人、携帯電話、コンピュータープログラムなど、システム内の自律的なエージェント間のやり取りをシミュレートします。各エージェントは事前定義されたルールに基づいて振る舞い、他のエージェントともやり取りするため、研究者は複雑なシステムや行動を研究できます。
拡散モデルなどの高度なアルゴリズムは、実世界のデータセットの統計的特性を学習することで合成データを生成します。これらのモデルは、実際のデータでトレーニングすることでパターンと関係を理解し、新しい類似したデータを生成できるようになります。拡散モデルは、高品質で現実的な合成データセットを生成するのに非常に効果的で、AI モデルのトレーニングやテストに有益です。
AI トレーニングデータに関しては、「リアル」が最善の選択肢ではない場合があります。合成データは、拡張性の向上、優れたデータ品質、バイアスの削減、高いコスト効率を実現すると同時に、実際のデータポイントの特性 (ただし機密性の高い詳細は除く) をミラーリングします。そのため、高度な AI 機能を活用しようとしている組織にとって、非常に貴重な資産となります。
ServiceNow は、AI ソリューションをビジネスニーズに適用する最前線に立ち、強力な Now Platform® を通じて包括的な AI 機能のスイートを提供しています。ServiceNow は、機械学習フレームワーク、自然言語処理、予測分析など、最新の AI テクノロジーを取り入れ、組織がビジネスによりインテリジェントで自律的なアプローチを採用できるよう支援します。また、Now Assist アプリケーションを介した ServiceNow の包括的な生成 AI 機能で、AI システムを導くデータの作成に必要なものをすべて揃えることができます。詳細については今すぐ ServiceNow のデモをご覧ください。