人工知能や機械学習 (AI/ML) をトレーニングするために現実世界のデータを収集することは、時間がかかり、コストがかかることは間違いありません。そして、多くの場合、それはリスクを伴いますが、より一般的な問題は、データが少なすぎたり偏っていたりすると、組織が誤った方向に進んでしまう可能性があることです。しかし、新しいデータ、いわゆる合成データを生成できるとしたらどうでしょうか? ありそうもない話に聞こえるかもしれないが、Synthesis AI は、468 Capital、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital、Kubera Venture Capital などのベンチャーキャピタル企業から調達した 1,700 万ドルのシリーズ A ラウンドでまさにそれを実現しようとしているのだ。 これは非常に確固たる証拠です。同社はこの資金を、実データと合成データが混在する分野での研究開発の拡大に充てる予定だ。 「合成データは採用の転換点にあり、私たちの目標は、この技術をさらに発展させ、コンピュータービジョンシステムの構築方法にパラダイムシフトを起こすことです」と、Synthesis AIのCEO、ヤシャール・ベザディ氏は声明で述べた。「業界はまもなく、仮想世界でコンピュータービジョンモデルを完全に設計、トレーニングできるようになり、より高度で倫理的なAIが実現するでしょう。」 しかし、合成データとは何でしょうか?合成データは現実世界から収集されるのではなく、人工的に作成されます。現在、多くのアプリケーションは、コンピューター ビジョン システムから収集されたデータなどの視覚データに重点を置いています。それでも、アプリのテストや不正行為の検出に使用するアルゴリズムの改善など、他のユースケースで合成データを作成できない実用的な理由はありません。それらは、物理的な記録の高度に構造化されたデジタルツインのようなものです。 膨大な現実世界のデータセットを大規模に利用できるようにすることで、データ サイエンティストやアナリストは理論的にはデータ収集プロセスをスキップし、直接テストやトレーニングに進むことができます。 これは、現実世界のデータセットを作成するためのコストの大部分が、生データの収集だけではないからです。コンピュータービジョンと自動運転車を例にとると、自動車メーカーや研究者はさまざまなカメラ、レーダー、LIDARセンサーを車両に取り付けてデータを収集できますが、生のデータはAI/MLアルゴリズムにとって何の意味もありません。同様に困難な課題は、システムがより良い決定を下せるように、データにコンテキスト情報を手動でラベル付けすることです。 この課題を具体的に考えてみましょう。一時停止標識、交差点、駐車中の車、歩行者などがある短距離を頻繁に運転し、潜在的な危険をすべてラベル付けすることが困難な作業であると想像してください。 合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするのに十分な規模で、完全にラベル付けされたデータセットを作成できることです。つまり、データ サイエンティストは、実際のデータを実装する必要が生じる前や、データの入手が困難な状況で、さまざまな新しい場所でアルゴリズムを突然テストできるようになります。自動運転車の例を続けると、データ サイエンティストは、ドライバーを北や山中に送り込んで手動でデータを収集することなく、合成データを作成して、雪道などの悪条件でも車を運転できるようにトレーニングできます。 合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするために必要な規模で、完全にラベル付けされたデータセットを作成できることです。つまり、データ サイエンティストは、実際のデータが利用可能になる前、またはデータの入手が困難な場合でも、さまざまな新しい場所で突然アルゴリズムをテストできるようになります。再び自動運転車の例を挙げると、データ サイエンティストは、ドライバーをはるか北や山中に送り込んで手動でデータを収集することなく、合成データを作成して、雪道などの悪条件でも車を運転できるようにトレーニングすることができます。 しかし、合成データは、より多くのデータとより多くの AI/ML アルゴリズムを使用してのみ作成できるため、鶏が先か卵が先かという問題があります。 「シード」データセットから始めて、それを合成作品のベースラインとして使用すると、合成作品の品質は開始時のデータの品質と同じだけになります。 (無形の)利益無限とも思えるデータ ジェネレーターを利用できることでメリットを得られないデータ サイエンティストや研究者はいないのではないでしょうか。主なメリットである、実世界のデータを手動で収集する手間を省く機能は、合成データが AI/ML アプリケーションを加速する方法の 1 つにすぎません。 アナリストやデータ サイエンティストは、シード データを厳密に管理し、多様性を取り入れるための特別な努力をしたり、外部のコンサルタントと協力して偏見を発見して解読したりできるため、より高い基準を自らに課すことができます。たとえば、Synthesis AI は、ドライバーの状態を監視し、コンピューターで生成された合成データセットにさまざまな顔を慎重に含めて、現実世界のアプリケーションがすべての人に機能することを保証するシステムを開発しています。 プライバシーももう一つの潜在的なメリットです。企業が自社の自動運転車のために何百万マイルもかけて現実世界のデータを収集する場合、多くの人が個人的かつプライベートとみなすデータ、特に顔のデータを大量に収集することになります。 Google や Apple のような大企業は、マッピング ソフトウェアでこの種の問題を回避する方法を見つけましたが、そのルートは、アルゴリズムをテストしたい小規模な AI/ML チームにとっては実現可能ではありません。 「企業は、人間中心の製品におけるモデルの偏りや消費者のプライバシーに関する倫理的問題にも苦慮している。次世代のコンピュータービジョンを構築するには、新たなパラダイムが必要なのは明らかだ」と、同社のCEO兼創設者であるヤシャール・ベザディ氏はメディアに語った。 合成データは開始時にシードに依存しますが、微調整や変更を行うことで、現実世界では捕捉が困難または危険なエッジケースで AI/ML アプリケーションをトレーニングするのに役立ちます。自動運転車を開発する各社は、トラックの後ろに隠れた一時停止標識や、道路に飛び出してきた2台の車の間に立っている歩行者など、部分的にしか見えない物体や人物の識別能力を高めたいと考えている。 これらの成功を念頭に置き、偏見が合成データにエンコードされるという鶏が先か卵が先かという問題に対する懸念があるにもかかわらず、ガートナーは、2024 年までに AI および分析製品の開発に使用されるデータの 60% が合成で生成されると予測しています。彼らは、新しいデータの多くは、予測モデルの基になっている過去のデータが関連性を失ったり、過去の経験に基づく仮定が無効になったりしたときに、予測モデルを修復することに重点が置かれるだろうと予測しています。 しかし、現実世界のデータは常に収集されるため、私たちが一般的で偏見のない自分自身のアバターによって完全に時代遅れになるのは、まだ先のことです。 |
<<: ゼロショット学習がCLIPを超える! Googleは、コンピューティングコストも削減できる初のマルチモーダルスパースモデルLIMoEを提案
>>: 442人の著者による100ページの論文! Googleは2年かけて大規模モデル向けの新しいベンチマーク「BIG-Bench」をリリースした。
自動車業界は、安全性、持続可能性、接続性、全体的なユーザーエクスペリエンスを向上させるソフトウェアの...
[51CTO.comより引用] 現在、AIの幕が開き、人類世界は蒸気時代、電気時代、情報化時代に続く...
[[256514]] EyeSight Technologyの創設者兼CEO、周俊氏。彼は20年以上...
8月3日(東部時間8月2日)、Metaは、ユーザーがテキストプロンプトを通じて音楽やオーディオを作...
Googleは本当に全力を尽くしています。 AlphaGoとGPT-4に似た大規模モデルを組み合わせ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
部屋の中に立っていて、ドアに向かって歩こうとしていると想像してください。自己回帰を使用して、一歩ずつ...
昨年のNVIDIAのGTCで「Virtual Huang」はどのようにして作られたのでしょうか? ブ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
315 Gala で摘発された企業は、業界内ではほんの少数派です。ユーザーのプライバシーを侵害するア...
科学者たちは最近、AI に数学の授業をさせることに夢中になっていると言わざるを得ません。現在、Fac...
[[432233]]文章1. 通訳モード言語に対して、その文法表現(言語のルールを定義するために使...
誰かが実際に大規模モデルで MBTI をテストしたというのは驚くべきことです。結果は良好です。 Ch...