Google MITの最新の研究は、高品質のデータを入手することは難しくなく、大規模なモデルが最適な方法であることを証明しています。

Google MITの最新の研究は、高品質のデータを入手することは難しくなく、大規模なモデルが最適な方法であることを証明しています。

高品質なデータの取得は、現在の大規模モデルのトレーニングにおける大きなボトルネックとなっています。

数日前、OpenAIはニューヨーク・タイムズ紙から訴えられ、数十億ドルの損害賠償を要求された。訴訟では、GPT-4 の盗作の証拠が複数列挙されている。

ニューヨークタイムズでさえ、GPT のようなほぼすべての大規模モデルを破壊するよう求めました。

長い間、多くの AI リーダーは、「合成データ」がこの問題に対する最善の解決策であると信じてきました。

以前、Google チームは、LLM を使用して人間のラベル付けの好みを置き換える RLAIF と呼ばれる手法も提案しており、その効果は人間よりもさらに優れています。

現在、Google と MIT の研究者は、大規模なモデルから学習することで、実際のデータを使用してトレーニングされた最良のモデルの表現が得られる可能性があることを発見しました。

SynCLR と呼ばれる最新のアプローチは、実際のデータを必要とせずに、合成画像と合成記述から完全に仮想表現を学習する方法です。

論文アドレス: https://arxiv.org/abs/2312.17742

実験結果によると、SynCLR メソッドによって学習された表現は、OpenAI の CLIP と同様に ImageNet に転送できることがわかりました。

生成モデルからの学習

視覚表現を学習するための現在の最先端の方法は、大規模な現実世界のデータセットに依存しています。しかし、実際のデータの収集には多くの困難が伴います。

データ収集のコストを削減するために、この論文の研究者たちは次のような質問をしました。

既成の生成モデルからサンプリングされた合成データは、最先端の視覚表現をトレーニングするための大規模なキュレーションされたデータセットへの実行可能な道筋となるでしょうか?

Google の研究者は、データから直接学習するのではなく、このアプローチを「モデルからの学習」と呼んでいます。大規模なトレーニング セットを構築するためのデータ ソースとして、このモデルにはいくつかの利点があります。

- 潜在変数、条件変数、ハイパーパラメータを通じてデータ管理のための新しい制御方法を提供します。

- モデルは共有や保存も簡単です (モデルはデータよりも圧縮しやすいため)。また、無制限の数のデータ サンプルを生成できます。

下流モデルをトレーニングするためのデータ ソースとして生成モデルのこれらの利点と欠点、およびその他の利点と欠点を調査する文献が増えています。

これらの方法の中には、ハイブリッド モデル、つまり実際のデータセットと合成データセットを混合したものや、別の合成データセットを生成するために実際のデータセットを必要とするものがあります。

他のアプローチは、純粋に「合成データ」から表現を学習しようとしますが、最高のパフォーマンスを発揮するモデルには大きく遅れをとっています。

論文では、研究者らは生成モデルを使用して視覚化クラスの粒度を再定義する新しいアプローチを提案した。

図 2 に示すように、「サングラスとビーチハットをかぶって自転車に乗っているゴールデン レトリバー」と「寿司でできた家に座っているかわいいゴールデン レトリバー」という 2 つのプロンプトを使用して、4 つの画像が生成されました。

Sim-CLR などの従来の自己教師あり手法では、これらの画像を異なるクラスとして扱い、画像間の共有セマンティクスを明示的に考慮せずに、異なる画像の埋め込みが分離されます。

一方、教師あり学習アプローチ(SupCE)では、これらすべての画像を単一のクラス(「ゴールデン レトリバー」など)に属するものとして扱います。これは、一方のペアでは犬が自転車に乗っているのに対し、もう一方のペアでは犬が寿司屋に座っているなど、画像の意味の微妙な違いを無視しています。

対照的に、SynCLR アプローチでは、説明をクラスとして扱います。つまり、説明ごとに 1 つの視覚化クラスです。

このようにして、「自転車に乗る」と「寿司レストランに座る」という概念ごとに画像をグループ化することができます。

特定の説明を持つ複数の画像を収集することは、特に説明の数が増えると簡単ではないため、実際のデータでこの粒度をマイニングすることは困難です。

ただし、テキストから画像への拡散モデルは基本的にこの機能を備えています。

同じ説明を条件として異なるノイズ入力を使用するだけで、テキストから画像への拡散モデルは同じ説明に一致する異なる画像を生成できます。

具体的には、著者らは、実際の画像やテキストデータがない場合の視覚エンコーダの学習の問題を研究しています。

最新の方法は、言語生成モデル (g1)、テキストから画像への生成モデル (g2)、および視覚概念のキュレーションされたリスト (c) という 3 つの主要なリソースの利用に依存しています。

前処理には次の 3 つのステップが含まれます。

(1)(g1)を使用して、Cのさまざまな視覚概念をカバーする包括的な画像記述Tのセットを合成する。

(2)T内の各キャプションに対して、(g2)を用いて複数の画像を生成し、最終的に広範な合成画像データセットXを生成する。

(3)Xを訓練して視覚表現エンコーダfを得る。

次に、推論速度が速いため、それぞれ(g1)と(g2)としてllama-27bとStable Diffusion 1.5が使用されます。

合成の説明

強力なテキストから画像への変換モデルの力を活用して、トレーニング画像の大規模なデータセットを生成するには、まず、画像を正確に説明するだけでなく、幅広い視覚的概念を網羅する多様性も示す記述のコレクションが必要です。

これに応えて、著者らは、大規模モデルのコンテキスト学習機能を活用して、このような大規模な記述セットを作成するためのスケーラブルな方法を開発しました。

以下に、合成テンプレートの例を 3 つ示します。

以下は、Llama-2 を使用して生成されたコンテキストの説明です。研究者は、推論の実行ごとに 3 つのコンテキスト例をランダムに選択しました。

合成画像

研究者らは、それぞれのテキスト記述に対して、さまざまなランダムノイズによる逆拡散プロセスを開始し、さまざまな画像を生成しました。

このプロセスでは、分類器フリーガイダンス (CFG) 比率が重要な要素となります。

CFG スケールが高くなるほど、サンプルの品質とテキストと画像間の一貫性が向上し、スケールが低くなるほど、サンプルの多様性が高まり、指定されたテキストに基づく画像の元の条件付き分布との一貫性が高まります。

表現学習

この論文では、表現学習法はStableRepに基づいています。

著者らのアプローチの重要な要素は、同じ記述から生成された画像を(埋め込み空間内で)整列させることによって機能する、多重正対照学習損失である。

さらに、この研究では他の自己教師学習法のさまざまな手法も組み合わせました。

OpenAIのCLIPに匹敵

実験評価では、研究者らはまずアブレーション研究を実施してパイプライン内のさまざまな設計とモジュールの有効性を評価し、その後合成データの量を拡大し続けました。

下の図は、さまざまな記述合成戦略の比較です。

研究者らは、9 つ​​の細粒度データセットにおける ImageNet の線形評価精度と平均精度を報告しています。ここの各アイテムには、1,000 万の説明と、説明ごとに 4 枚の画像が含まれています。

次の表は、ImageNet の線形評価と細粒度分類を比較したものです。

合成データのみを使用しているにもかかわらず、SynCLR は OpenAI の CLIP および DINO v2 モデルに匹敵する結果を達成しました。

以下の表は、同じ合成データで SynCLR と CLIP を比較したものです。SynCLR が CLIP よりも大幅に優れていることがわかります。

具体的には、キャプションごとに 4 つの画像が生成され、SynCaps-150M は SynCLR と CLIP のより優れた表現を提供します。

PCA の視覚化を以下に示します。 DINO v2 に従って、研究者は同じ画像セットのパッチ間の PCA を計算し、最初の 3 つのコンポーネントに従って色付けしました。

DINO v2 と比較すると、SynCLR の車や飛行機の描画はより正確ですが、エネルギーの描画は若干劣ります。

図 6 と 7 は、それぞれ異なるトレーニング スケールでの ImageNet 線形精度と、異なるトレーニング パラメータ スケールでの詳細分類を示しています。

なぜ生成モデルから学ぶのでしょうか?

説得力のある理由の 1 つは、生成モデルが数百のデータセットを同時に処理できるため、トレーニング データをキュレートする便利で効率的な方法を提供できることです。

要約すると、最新の論文では、視覚表現を学習するための新しいパラダイム、つまり生成モデルからの学習を研究しています。

SynCLR は、実際のデータを一切使用せずに、最先端の一般的な視覚表現学習器によって学習されたものに匹敵する視覚表現を学習します。

<<: 

>>: 

ブログ    
ブログ    
ブログ    

推薦する

...

マイクロソフトは、重大なセキュリティ脆弱性を97%の精度で特定できるAIシステムを開発した。

Microsoft は、テストにおいてセキュリティ脆弱性と非セキュリティ脆弱性を 99% の精度で...

情報抽出における画期的な進歩! NLP は大規模に実装されようとしているのでしょうか?

AI におけるブレークスルーには、一般的に 3 つの種類があります。学術ランキングで上位を占め、学...

AI導入における主な障壁とその解決策

COVID-19 パンデミックにより、企業はデジタル変革の取り組みを数か月、場合によっては数年も加速...

...

百度は「ニューラル条件付きランダムフィールド」病理スライス分析アルゴリズムをオープンソース化、専門病理学者よりも高い精度を実現

最近、百度研究所は論文で「ニューラル条件付きランダムフィールド」病理スライス分析アルゴリズムを提案し...

...

Go-OpenAI を使用して ChatGPT を簡単に呼び出し、無限の創造性を解き放ちましょう。

今日は、go-openai を使用して chatGPT を呼び出すという興味深いトピックを皆さんと共...

強化学習とは具体的に何であり、どのように機能するのでしょうか?

強化学習は機械学習のサブセットであり、エージェントが特定の環境で特定のアクションを実行した場合の結果...

複合現実技術による医療シナリオ、Weizhuo Zhiyuan は 3D シーンを使用して病変を正確に特定します

[51CTO.comからの原文] 今日の医療業界は、次第にテクノロジー化と精密化が進んでいます。医療...

...

...

2018年ロシアワールドカップではどのような「スマートハードウェア」が使用されましたか?

4年待ちに待ったワールドカップがついにやって来ました。業界に数十億ドルの資金が投入され、世界人口の...

...

皆を置き去りにする!紅河の人工知能交通違反画像処理プラットフォームが市場にデビュー

社会の生産性の向上は現代交通の進歩を牽引していますが、現代交通がもたらす大きな利便性を享受する一方で...