清華大学の孫茂松教授は、新しい微調整フレームワークCPTを提案し、精度を17.3%向上させた。

清華大学の孫茂松教授は、新しい微調整フレームワークCPTを提案し、精度を17.3%向上させた。

[[428133]]

事前トレーニング済みモデルは、コンピューター ビジョンと言語の両方で顕著な結果を達成していますが、これらの言語モデルの大きな問題は、トレーニング プロセスと推論プロセスが一致しないことです。清華大学の Maosong Sun 氏のチームは、色を使用して画像と言語をマスクおよび融合する新しい微調整フレームワーク CPT を提案しました。これにより、精度が 17.3% 向上し、標準偏差が 73.8% 削減されました。

事前トレーニング済みの視覚言語モデル (VL-PTM) は、言語と視覚情報を同時に処理することができ、さまざまなマルチモーダル タスクを完了するための基本モデルでもあります。

しかし、モデルの事前トレーニングと微調整の間には大きなギャップがあります。事前トレーニング中、ほとんどの VL PTM はマスク言語モデリングの目的に基づいて最適化されます。ここでの主なタスクは、マスクされた単語のクロスモーダルコンテキストから回復することです。

ただし、微調整中は、下流のタスクは通常、マスクされていないトークンの表現をセマンティック ラベルに分類することによって実行され、そこでタスク固有のパラメーターが導入されるのが一般的です。この違いは、VL PTM の下流タスクへの適応性を妨げるため、下流タスクに対する VL-PTM の視覚的基礎機能を最適化するには、大量のラベル付きデータが必要になります。

この問題に対処するため、清華大学の研究者らは、カラフル プロンプト チューニングとも呼ばれる新しいモデル、クロスモーダル プロンプト チューニング (CPT) を提案しました。 CPT は、VL-PTM のパラメータを調整するための新しいパラダイムです。重要な点は、画像とテキストに色ベースの共通参照マーカーを追加することで、視覚的な基盤によってギャップを埋める問題を再定式化し、事前トレーニングと微調整の間のギャップを最小限に抑えることができることです。

画像データで自然言語表現を使用するために、CPT は 2 つのコンポーネントで構成されます: (1) 画像領域をカラーパッチで一意にマークする視覚的なサブプロンプト、および (2) クエリ テキストをカラーベースのクエリ テンプレートに配置するテキスト サブプロンプト。次に、クエリ テンプレート内のマスクされたトークンから対応する色付きテキストを復元することで、ターゲット画像領域の明示的なローカリゼーションを実現できます。

論文の著者は、清華大学人工知能研究所の執行副所長、清華大学コンピュータ学位評価小委員会の委員長、教育部オンライン教育研究センターの副所長、清華大学大規模オンラインオープン教育研究センターの所長を務める孫茂松教授です。彼はかつて清華大学コンピュータサイエンス学部の学部長および党書記を務めていた。彼の研究対象には、自然言語理解、中国語情報処理、Web インテリジェンス、ソーシャル コンピューティング、計算教育などがあります。

[[428134]]

CPT を搭載した VL-PTM は、トレーニング前に色のクロスモーダル表現と他の概念 (オブジェクト、属性、関係など) との組み合わせを十分に学習しているため、ラベル付きデータなしでゼロショット視覚マッピングを実行できます。

複数またはすべてのラベル付きインスタンスが利用可能な場合、CPT はエントロピーベースの目的関数に従って VL PTM をさらに調整できます。

色ベースの手がかりを介して画像とテキストを接続することは有望に思えますが、研究者は依然として2つの重要な問題を発見しました。(1)色セットCの構成をどのように決定するか、(2)限られた事前トレーニング済みの色を使用して画像領域の数をどのように処理するかです。

解決策はクロスモーダルプロンプト検索です。テキスト プロンプトのチューニングに関するこれまでの研究では、プロンプトの構成 (テキスト テンプレートなど) がパフォーマンスに大きな影響を与えることが示されています。この論文は、クロスモーダルな手がかり構成(つまり、色セット C)を探索した最初の研究でもあります。

直感的には、C は VL PTM が最も敏感な色で構成されるはずです。色を取得する簡単な方法は、事前トレーニング テキスト内で最も一般的な色のテキストをその標準 RGB として civ として取得することです。しかし、この解決策は最適ではありません。なぜなら、この方法では、色付きのテキストを決定するときにその視覚的な外観が考慮されず、実際の画像における色の視覚的な外観が標準の RGB とは異なることが通常だからです。

したがって、クロスモーダルヒント検索では、まずフルカラーテキストの候補セットが決定されます。 RGB 空間で可能な各色について、単色パッチとテキスト サブキューを連結して VL PTM を作成します: [CLS] [MASK] 色の写真。[SEP]。次に、候補となるカラーテキストごとに記録スコアが取得されます。

レコード スコアが大きいほど、cv と cw の相関関係が高くなることを示し、どの色の視覚的外観でも高いランクにランクされていないカラー テキストは削除されます。最後に、残りの各色テキストの視覚的な外観は最大色によって決定され、実験結果では、得られた色の構成が元のものよりも大幅に優れていることが示されています。

画像領域のバッチ処理。視覚の基礎では、画像内の領域提案の数は通常、カラーセット C のサイズ (∼ 10) を超えます。さらに、重なり合うパッチは視覚的な基盤を妨げるため、画像領域を複数のバッチに分割し、各バッチに適度に重なり合う少数の画像領域を含め、各バッチにそれぞれ視覚的なサブキューのラベルを付ける必要があります。ターゲット領域を含まないバッチを処理するために、バッチ内にターゲット領域がないことを示す新しい候補テキスト none がデコード語彙にさらに導入されます。

実験結果によると、微調整された VL-PTM のパフォーマンスは、微調整された PTM のパフォーマンスよりもはるかに優れています。

1. CPT は、ゼロショット設定と少数ショット設定の両方で、ランダム ベースラインおよび強力に微調整されたベースラインを大幅に上回ります (たとえば、RefCOCO 評価では、ワンショットの絶対精度が平均 17.3% 向上します)。改善は、さまざまなデータセットやさまざまなトレーニング エポックにわたって一貫しています。これは、CPT が VL PTM チューニングのデータ効率を効果的に向上させ、VL PTM の視覚的グラウンディング能力を刺激できることを示唆しています。

2. CPT では、微調整に比べて標準偏差がはるかに小さくなることに注意してください (例: RefCOCO 評価では、1 回の試行で相対標準偏差が平均 73.8% 減少します)。これは、事前トレーニングからの一貫した条件付けアプローチがより安定した少数ショットのトレーニングにつながる可能性があることを示唆しており、これは少数ショット学習モデルを評価する際の重要な要素でもあります。

3. RefCOCO+の評価では、CPTの微調整性能は16ショットよりもわずかに劣っていることがわかります。その理由は、Ref-COCO+ には色に基づく表現(赤いシャツと青い帽子をかぶっている人など)が多く含まれており、それが色に基づく CPT に干渉する可能性があるためです。ただし、完全に教師ありのシナリオでは、より微調整された例によってこの問題を軽減することができ、モデルはクエリ テキストとヒント テンプレートの色をより適切に区別することを学習できます。

4. 完全に監視された設定では、CPT は、強力に微調整された VL PTM と同等のパフォーマンスを実現します。結果は、CPT が、完全に監督された設定でも VL-PTM に対して競争力のある微調整方法であることを示しています。要約すると、一般的な微調整方法と比較して、CPT はゼロショット、少数ショット、完全教師ありビジョンで優れた/同等でより安定したパフォーマンスを実現します。

<<:  プライベート写真100億枚が流出! Clearview AIバイオメトリクスがあなたを監視しています

>>:  呼吸の落ち込みはWiFi信号で検知できます!北京大学のハードテクノロジー研究はますます隠蔽が困難になっている

ブログ    
ブログ    
ブログ    

推薦する

自動運転スタートアップのAuroraは、テスト用によりリアルな仮想世界を構築するために元ピクサーのベテランを雇用

来週ナスダックに上場する予定の自動運転車スタートアップ企業、オーロラは、自動運転システムのテストとト...

掃除ロボットに抜け穴がある!あるいは数秒で盗聴ツールに変わる可能性もある

先日、陝西省西安市は「サイバーセキュリティは人々のためのものであり、サイバーセキュリティは人々に依存...

LangGraphの無限の可能性を発見

著者 | 崔昊レビュー | Chonglouまとめこの記事では、LangChain をベースにした新...

この方程式はバイナリツリーの森ですか?データから直接未知の支配方程式と物理的メカニズムを発見する

研究者たちは、機械学習の手法を使用して、高次元の非線形データから直接最も価値があり重要な内部法則を自...

10万ドル+26日、低コスト1000億パラメータLLMが誕生

大規模言語モデル (LLM) には、デコーダーのみの構造 (GPT や LLAMA シリーズ モデル...

大規模モデルのスコアリングのためのベンチマークは信頼できるでしょうか? Anthropicは大きなレビューを出した

現段階では、人工知能 (AI) が社会に与える影響に関する議論のほとんどは、信頼性、公平性、悪用され...

...

...

モデルの過剰適合を防ぐにはどうすればよいですか?この記事では6つの重要な方法を紹介します

バフェット氏は「正確に間違っているよりも、おおよそ正しい方が良い」と述べています。機械学習では、過剰...

人工知能の先駆者であるIBM Watsonは殉教者となったのか? IBMがWatsonを売却、AIは本当に失敗したのか?

かつて、人工知能医療診断の先駆者であったIBM Watson(通称ワトソン)は、現実世界における人工...

量子コンピューティングがサプライチェーン管理を改善する方法

サプライチェーン業務における量子コンピューティングのユースケースでは、意思決定モデル内の複雑で不可能...

AIをベッド管理に適用し、追跡予測により患者にベッドの空きを確保

[[228998]]画像出典: Visual China医療分野はAIが進歩していく上で重要な方向で...

オバマが強制的に「白人化」された後、AIは芸術作品における人種的偏見というタブーを犯した

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

エッジAI: インテリジェンスをソースに近づける

人工知能の発展により、データをアルゴリズムに渡すのではなく、アルゴリズムがデータを処理するようになり...

[GPT-4理論] GPT-4のコア技術を探る

序文GPT-4はリリースされてからしばらく経ちますが、セキュリティなどのさまざまな理由から、Open...