AIにとって合成データが必須である理由

AIにとって合成データが必須である理由

企業はペタバイト、エクサバイト、さらにはゼタバイト単位のデータを収集しています。

しかし、データは乱雑で、断片化され、サイロ化されていることがよくあります。多くの企業は、データが高度に独占的であるため、特定の環境でデータを使用することを躊躇します。電気通信などの規制産業では、データの多くは機密性が高いため、触れることさえできません。

AI に必要な規模の利用可能なデータの不足、データの偏り、データのドリフトなどのこれらの理由やその他の理由により、ますます多くの企業が合成データに注目しています。合成データは、その名前が示すように、実際のデータではありませんが、実際のデータに非常に似ています。

現実世界のデータの強化と保護

合成データは数学的かつ統計的に現実世界のデータを反映します。しかし、それは現実世界から収集され測定されるのではなく、小規模で匿名化された現実世界のサンプルに基づくコンピューター シミュレーション、アルゴリズム、単純なルール、統計モデリング、シミュレーション、およびその他の手法を通じて作成されます。

実際のデータは、ほとんどの場合、データから得られる洞察を得るための最良の情報源ですが、プライバシー規制により、高価であったり、不均衡であったり、入手できなかったり、使用できなかったりすることがよくあります。合成データは、実際のデータの効果的な補足または代替となり得ます。

人工データは、実際のデータの弱点を軽減するのに役立ちます。また、リアルタイム データが存在しない、機密性が高い、または偏っている、または使用、共有、移動できない状況で使用できます。しかし、必ずしも実際のデータでトレーニングする必要はありません。ドメインや組織の知識、または実際のデータの痕跡を調べることで生成できます。

データ集約型の生成 AI モデルの使用が増え、プライバシーとセキュリティの必要性が高まる中、さまざまな業界の企業が合成データの可能性を認識しています。合成データの世界市場価値は 2021 年時点でわずか 1 億 6,890 万ドルでしたが、2031 年までに 35 億ドルにまで成長すると予想されており、年間複合成長率は約 36% です。

ガートナーは、2030 年までに AI モデル内の合成データが実際のデータを完全に上回ると予測しています。

合成データでプライバシーの壁を克服

多国籍企業である Vodafone は、さまざまな規則や規制がある複数の異なる管轄区域で事業を展開しており、当然ながらデータの使用において障害に直面しています。データへのアクセスは、主にプライバシー上の懸念から制限されることが多く、地理的境界を越えたデータの流れに関しても制限があります。

これを実現するために、ボーダフォンはロンドンを拠点とする合成データのスタートアップ企業Hazyと提携した。同社は3月にシリーズAシードラウンドで900万ドルの資金調達を発表しており、ボーダフォン、アクセンチュア、PwC、BMWグループ、ウェルズ・ファーゴなどの大企業と提携している。これらの企業はデータに関する最大の問題に直面しているからだ。

これらの大企業には、さまざまな地域に散在する「大量の機密データ」と「多数のデータサイロ」があります。

これらのエンタープライズ ツールは、構造化されたデータ セットを取得し、機械学習 (ML) を使用してそれらをスキャンし、傾向、パターン、相関関係、相違点、列間の関係を特定します。データがどこにあっても、実際のデータ ポイントを生成するように要求できます。

このツールは、ソース データセットに含まれるデータよりも多くのデータを生成でき、データの特性を維持しながら機密詳細は含まない安全な環境でそれを実行します。

機械学習を加速する最も包括的なデータ分析

ボーダフォンは、さまざまな国でさまざまな広告キャンペーンがどのように機能するかを調べ、これらのデータセットから学びながら、より包括的なデータ分析を実施したいと考えています。

「壮大な計画」とは、各国で合成データ資産を作成し、それを一箇所に集約して、より広範かつ大規模な分析を可能にすることです。たとえば、顧客離脱分析などです。

その他の関心領域には、負荷予測、不正行為予測、ネットワーク停止の検出と予測などがあります。

人工データの大きな使用例の 1 つは機械学習です。モデルの作成と改善、迅速な実験の実行といった内部開発プロセスを高速化します。

データへのアクセスが不十分な場合が多く、オープンソース データを使用することは可能ですが、それが必要なものではなく、状況に適合しないことがよくあります。ネットワークの現実を反映した合成データを作成する必要があります。

人工データは、データ アクセスの改善と高速化に役立ち、プロジェクトをより迅速に開始できるため、生産性と企業の俊敏性が向上します。

データは機械学習の燃料のようなものです。データがなければ、教師あり学習は不可能です。

コラボレーションを促進し、自動化を促進

Vodafone のモバイル ネットワーク サプライヤーの広大なエコシステムも機械学習の分野で革新を起こしており、新しい機械学習モデルをトレーニングするにはデータが必要です。

しかし、ネットワークデータを配布するのは簡単ではありません。対照的に、合成データを提供することで、これらの障壁を取り除くことができます。

ソフトウェアテストももう一つの重要なユースケースです。ボーダフォンは社内でさらに多くのソフトウェアを開発しており、テストが必要になるだろう。人工データは、障害が発生する可能性が高い時期、特定のネットワーク ソフトウェア コンポーネントの負荷が時間の経過とともにどのように変化するか、ソフトウェア コンポーネントにコンピューティング リソースを最適に割り当てる方法、エネルギー消費を最小限に抑える方法などを判断するのに役立ちます。

すべての大企業の基本業務をテストするには何年もかかる可能性があり、最大のハードルは代表的な生産データを入手することです。

さらに、合成データはネットワークの自動化にとって重要です。したがって、予測を行うには可能な限り自動化することが望ましいです。

通信分野を超えた合成データの検討

もちろん、合成データは通信以外の用途にも使用できます。これは、ChatGPT などのパブリック モデルにとって「非常に機密性の高い」企業固有のデータを漏らすことなく、大規模言語モデル (LLM) を微調整するために一部の企業で使用されています。

一方、銀行業界では、詐欺検出やマネーロンダリングに関する新技術の開発を支援するために、人工データがサンドボックスシステムの一部として使用されています。同時に、BMW は合成データを活用して、潜在顧客の信用状態に関する判断をより迅速かつ正確に行えるようになりました。アクセンチュアは、クレジットカードやデビットカードの取引記録に基づいて脆弱な顧客を特定し、早期介入によって不利な財務状況を防ぐことを目的としたアプリケーションを開発しました。

同様に、この技術はデータセットの特定の領域を生成して現実をよりよく反映するためにも使用できます。たとえば、データ セットに女性が 20% しか含まれていない場合、組織はさらに 30% を生成して、ユーザー ベースにさらに良いサービスを提供できます。

人工データは企業のイノベーションの強度を高め、迅速な実験とイノベーションを可能にします。

認知度の向上が企業の成熟度を決定する

文化的な観点から見ると、合成データの使用はプライバシー担当者の不安を和らげ、彼らがイノベーションの障害、あるいはデータ サイエンティストの敵であるという認識を払拭するのに役立ちます。

合成データは、真に匿名のデータと考えることができます。しかし、それでもなお、組織内でのデータの移動方法が変わるため、CISO、CIO、CEO、セキュリティおよび法務チーム、その他の役員や部門長からの承認を得る必要があります。

小さなことから始めて、証拠ポイントを積み上げていきましょう。これをサポートするために、Hazy は合成データ成熟度モデルを作成しました。成熟段階には、探索、評価、運用化、拡張、組み込みが含まれます。

しかし、人工データは「偽物」または不正確であるという反発に対処することも重要です。

合成材料を使用すると精度が多少低下するという誤解があります。合成データは実際のデータのように 100% 正確になることはありません。

確かに。データを非公開にすることで、正確さが多少犠牲になります。しかし、若干の低下にもかかわらず、まだ多くの有用性が残っています。

最終的には、合成データが成熟するでしょう。規制当局は合成データの可能性を探り始めており、合成データを採用する企業が増えるにつれて、データの使用と共有に関する業界標準が確立されるでしょう。

今は合成データにとって興味深い時期です。合成データは複雑な製品であり、企業が導入するのは容易ではありません。しかし、今後数年間は非常に重要な転換点となるでしょう。

<<:  ガートナー:世界の会話型 AI 支出は 2023 年に 186 億ドルに達すると予測

>>:  200以上の大規模モデル論文の調査と分析、数十人の研究者が1つの論文でRLHFの課題と限界をレビュー

ブログ    
ブログ    
ブログ    

推薦する

Megvii Technology: 人工知能が携帯電話の「視覚」革命をリード

[51CTO.comより引用] 現在、AIの幕が開き、人類世界は蒸気時代、電気時代、情報化時代に続く...

省エネ1000倍!人間の脳のようなニューラルチップはAIモデルの実行時に大幅な電力節約が可能

現在最も成功している人工知能アルゴリズムである人工ニューラル ネットワークは、人間の脳内の実際のニュ...

人工知能技術は急速に発展しています。AIの信頼問題をどのように解決するのでしょうか?

[[441503]] 【グローバルネットワークテクノロジー記者 王楠】AIといえば、まず何を思い浮...

アジャイル開発が機械学習に役立つ5つの方法

[51CTO.com クイック翻訳] フレームワークと方法として、アジャイル開発は現在、ソフトウェア...

高品質なマルチビュー画像生成、シーン素材を完璧に再現! SFUらはMVDiffusionを提案した

フォトリアリスティックな画像生成は、仮想現実、拡張現実、ビデオゲーム、映画制作などの分野で幅広く応用...

...

AI トレーニングを容易にするために、分散を通じてクラウドで弾力的なスループットを実現するにはどうすればよいでしょうか?

翻訳者 | 李睿レビュー | Chonglou人工知能は現在、定量的研究などの分野におけるソフトウェ...

半導体市場における人工知能の可能性と重要性

人工知能プロセッサは世界の半導体産業を活性化させており、少なくとも1つの市場調査会社は、AIチップの...

ChatGPTに「カスタムコマンド」機能が追加されました

海外メディアの報道によると、7月21日、OpenAIはユーザーにChatGPTの応答に対する強化され...

人工知能はデマですか?人工知能が日常生活にもたらす変化を感じられますか?

しかし、メディアで大いに宣伝された後、人々は AlphaGo が Deep Blue と同じレベルに...

2月10日に職場復帰ラッシュが到来し、北京は「急速AI温度検出器」の配備を開始した。

新型コロナウイルスによる肺炎の流行は依然として続いており、中国のさまざまな省や市では2月10日に大規...

AI技術は製薬業界の発展をどのように促進するのでしょうか?

[[315538]]米国では無人タクシーの試験と導入が進み、SFで描かれた無人運転のシナリオが徐々...

IoT機械学習とAIサービスの収益は2026年までに36億ドルに達する

COVID-19 パンデミックにより、増大するデータ量を管理し、そこから洞察を得るための IoT に...

LoraHubはレゴのように組み立てることができ、LoRAのモジュール特性を探索することができます。

低ランク適応 (LoRA) は、基本的な LLM が特定のタスクに効率的に適応できるようにする、一般...

...