AIトレーニングの福音: 合成データについて

今日、AI テクノロジーは克服するのが難しいいくつかの主要な課題に直面しています。正確な結果を提供するには大量のデータが必要であるだけでなく、偏りが生じないようにデータ内容を慎重に選択する必要があり、ますます厳格化するデータプライバシー規制に厳密に準拠する必要があります。過去数年間で、偏見を特定して軽減するためのツール、ユーザーデータの匿名化、ユーザーの同意がある場合にのみデータが収集されるようにする管理フレームワークなど、これらの課題をめぐるさまざまなソリューションが登場しました。ただし、それぞれのソリューションには独自の問題と欠点があります。

今日、私たちは、上記のジレンマを完全に打破すると期待される合成データという新興産業を歓迎しています。合成データとは、コンピューターによって人工的に生成されたデータを指し、現実世界から収集された実際のデータの代わりに使用できます。

合成データセットは、実際のデータセットと同じ数学的および統計的特性を持つ必要がありますが、実際の個人を明確に参照することはできません。これは、統計レベルで実際の状況を反映できる、実際のデータのデジタルミラーと考えることができます。これにより、完全に仮想化された環境で AI システムをトレーニングし、ヘルスケア、小売、金融、輸送、さらには農業など、さまざまなユースケースに合わせてデータをより簡単にカスタマイズできるようになります。

これをきっかけに革命の波が起こりつつあります。 StartUs Insightsが昨年6月に発表した調査によると、50社以上のベンダーが合成データソリューションを開発していることが判明しました。しかし、主要ベンダーについて説明する前に、まずは合成データが解決できる具体的な問題を理解しましょう。

実際のデータの大きな問題

過去数年間、データセットに内在するバイアスが、AI アルゴリズムにおける体系的な差別を意図せず永続化させる可能性があるという懸念が高まっています。ガートナーによると、2022年までに、データ、アルゴリズム、またはAIプロジェクト管理チームによってもたらされる偏見や先入観が、誤って提供される結果全体の85%を占めるようになると予想されています。

AIアルゴリズムの普及により、データのプライバシーに関する懸念も高まっています。この目的のために、欧州連合はGDPRを可決し、カリフォルニア州は州のプライバシー法を制定し、バージニア州は最近、より厳格な消費者データのプライバシーと保護条件を策定し始めました。

関連法の導入により、消費者は個人データをより適切に管理できるようになります。たとえば、バージニア州の新しい法律では、消費者に個人データにアクセスし、修正、削除し、コピーを取得する権利を与えると同時に、消費者が個人データの販売や、ターゲット広告などの目的で個人データ/情報にアルゴリズムでアクセスすることをいつでも拒否できるようにしています。

情報アクセスチャネルを制限することで、個人情報は確かに効果的に保護されますが、アルゴリズムの予測効果も犠牲になります。高精度の AI アルゴリズムを得るために、モデルはできるだけ多くのデータを持つことを望んでいます。データが不十分な場合、実際のアプリケーション (医療診断や医薬品研究の支援など) における AI の利点のパフォーマンスにも影響が出る可能性があります。

プライバシーの問題に対するもう一つの解決策は、消費者情報を匿名化することです。たとえば、識別可能な特性をマスクまたは除去することで（電子商取引の取引記録から名前やクレジットカード番号を削除したり、医療記録から識別可能なコンテンツを消去するなど）、個人データを匿名化することができます。しかし、データソースが匿名化されている場合でも、相手側が誤って漏洩した他の消費者データセットを使用してコンテンツを相関させ、復元できる可能性があるという証拠が増えています。実際、複数のソースからのデータを組み合わせることで、ある程度の匿名化を行った後でも、悪意のある当事者は驚くほど明確な身元情報を得ることができます。特定のケースでは、相手側が悪意のある攻撃を受けることなく、公開ソースデータを直接リンクして ID の位置付けを完了できる場合もあります。

合成データソリューション

合成データは、AI のメリットを実現しながら、悪影響を排除することを約束します。合成データでは、実際の個人データを除外するだけでなく、現実のシナリオで生成されるさまざまな偏差/バイアスを修正することにも重点を置いており、それによって実際のデータを超える素材品質を実現します。

個人データに大きく依存するアプリケーションシナリオに加えて、合成データには他にも多くの用途があります。 1 つは複雑なコンピュータービジョンモデリングであり、多くの場合、複数の要素のリアルタイムの相互作用を伴います。高度なゲームエンジンによって合成されたビデオデータセットを使用して、自動運転のシナリオで発生する可能性のあるさまざまなイベントを描写する超現実的な画像を作成できます。これにより、現実のシナリオではほとんどキャプチャできない、または非常に危険な画像やビデオを取得できます。これらの合成データセットの出現により、自動運転システムのトレーニングの効率と有効性が大幅に向上しました。

図: 合成画像を使用して自動運転車のアルゴリズムをトレーニングする

皮肉なことに、合成データを構築するために使用される主なツールの 1 つは、ディープフェイクビデオを作成するために使用されるツールと同じものです。どちらも生成的敵対ネットワーク、つまり GAN を使用します。 GAN の本質は、合成データを生成するためのニューラルネットワークと、合成データが本物かどうかを検出するためのニューラルネットワークの 2 セットを作成することです。操作サイクル全体を通じて、ジェネレーターネットワークは、分類器が実際のデータと合成データの違いを区別できなくなるまで、データ品質を向上し続けます。

新たなエコシステム

Forrester Researchは最近、AIの応用可能性を本質的に拡大する「AI 2.0」を実現するために必要な要素の1つとして、合成データを含むいくつかの重要なテクノロジーを特定しました。より完全なデータ匿名化機能と強力な固有のバイアス/バイアス修正機能、そしてこれまで入手が困難だったデータのバッチ作成を組み合わせることで、合成データはさまざまなビッグデータアプリケーションにとって効率的な選択肢になると期待されています。

合成データには、データセットをすばやく作成し、このラベル付きデータを教師あり学習に再利用できるなど、他の多くの利点もあります。さらに、合成データは実際のデータのようにクリーニングやメンテナンスを必要としないため、少なくとも理論上は、この技術により多くの時間とコストを節約できます。

市場にはすでに評判の良い合成データベンダーがいくつか存在します。 IBMは、合成テストデータを作成することで機密情報漏洩のリスクを排除し、GDPRやその他の規制問題に対処することを目指し、データ製造事業の推進に取り組んでいると述べた。 AWS は、生成されたデータセットを通じて Alexa を新しい言語で継続的にトレーニングするための内部合成データツールを開発しました。 Microsoft はハーバード大学とも協力し、合成データ機能によって研究部門間の連携を強化できるツールの開発に取り組んでいます。状況は有望ではあるものの、合成データはまだ初期段階にあり、市場の方向性は新興企業の発展によって大きく左右されるでしょう。

以下に、G2 や StartUs Insights などの業界調査組織からの具体的な情報とともに、合成データ業界の初期のリーダーの簡単なリストをまとめました。

1. AiFi — 合成データを使用して小売店と買い物客の行動特性をシミュレートします。

2. AI.Reverie — アクティビティ認識、オブジェクト検出、セグメンテーションのためのコンピュータービジョンアルゴリズムをトレーニングするための合成データを生成します。アプリケーションには、スマートシティ、希少材料表示板の識別、農業、スマートリテールなどがあります。

Anyverse — 自動車業界向けに生のセンサーデータ、画像処理機能、カスタマイズされた LiDAR を使用して、シナリオシミュレーション用の合成データセットを作成します。

4. Cvedia — 合成画像を作成して、ラベル付けされた現実世界の視覚データの収集を簡素化します。このシミュレーションプラットフォームは、さまざまなセンサーを使用して現実的な環境を合成し、豊富な経験的データセットを作成します。

5. DataGen — スマートストア、家庭用ロボット、拡張現実などのシナリオをサポートする屋内環境のユースケース。

6. Diveplane — 元のデータと同じ統計特性を持つ、医療業界向けの合成「ツイン」データセットを作成します。

7. Gretel — 元のデータソースと同じ洞察を含む、GitHub データと同等の合成データセットを開発者に提供します。

8. Hazy — さまざまな金融犯罪に対抗するために、詐欺やマネーロンダリングの検出機能を強化するデータセットを生成します。

9. Mostly AI — 保険と金融分野に特化しており、合成構造化データを作成した最も初期のメーカーの 1 つです。

OneView – 機械学習アルゴリズムを使用して地球観測画像を分析するための仮想合成データセットを開発します。

<<: 機械学習は2021年にこれらの5つの業界を変革するだろう