この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 プロンプト チューニングは、NLP 分野の「新たな寵児」として、NLP 事前トレーニングの新しいパラダイムとして学者からも賞賛されています。 では、これをCV 分野に適用して同じ結果を得ることができるのでしょうか? 現在、コーネル大学や Meta AI などの研究者が Prompt を使用して Transformer ベースの視覚モデルを微調整し、次のことを発見しました。 絶対に! 包括的な微調整と比較すると、Prompt のパフォーマンスは大幅に向上します。モデルとトレーニング データのサイズに関係なく、24 ケースのうち 20 ケースで優れたパフォーマンスを発揮しました。 同時に、各タスクに必要なストレージコストを大幅に削減できます。 モデルパラメータの1%未満を使用する従来の完全な微調整では、各下流タスクのバックボーン パラメータの個別のコピーを保存して展開する必要があり、特に Transformer ベースのモデルがますます大きくなり、CNN アーキテクチャを超えているため、コストがかかりすぎます。 いわゆるプロンプトとは、もともと、事前トレーニング済みの言語モデルが後でさまざまな下流タスクを直接理解できるように、入力テキストに言語指示を事前にコーディングすることを指します。 これにより、GPT-3 は、サンプルがほとんどないかまったくない場合でも、強力な一般化機能を発揮できるようになりました。 最近の結果によると、Prompt は、パラメータの保存容量が 1,000 分の 1 で、完全に微調整されたモデルと同等のパフォーマンスを発揮します。 NLP の高性能により、多くの人が CV の分野で Prompt の魔法を探求するようになりましたが、それらはすべてクロスモーダル タスクのテキスト エンコーダーの入力に限定されています。 この論文では、著者らは提案した Visual Prompt Tuning 法をVPT と呼んでいます。ビジュアル モデルのバックボーンに Prompt を適用して成果を達成したのはこれが初めてです。 具体的には、包括的な微調整と比較して、VPT は最新の大規模 NLP モデル調整方法にヒントを得ており、下流タスクのトレーニング中に事前トレーニング済みモデルのバックボーンを固定しながら、タスク固有のトレーニング パラメータ (モデル パラメータの 1% 未満) を少数だけ入力スペースに導入します。 実際には、これらの追加パラメータは、各 Transformer レイヤーの入力シーケンスの先頭に追加され、微調整中にリニア ヘッドと一緒に学習されます。 彼らは2つの変種を調査しました: VPT-Deepバリアントは、Transformer エンコーダーの各レイヤーの入力に対して学習可能なパラメータのセットを事前設定します。 VPT-Shallowバリアントは、ヒント パラメータを最初のレイヤーの入力にのみ挿入します。 ダウンストリーム タスクのトレーニング中は、Transformer エンコーダー全体がフリーズされた状態で、リニア ヘッドのタスク固有のヒントとパラメーターのみが更新されます。 次に、それはラバですか、それとも馬ですか?引き出してスライドさせて取り出します〜 勝率20/24実験には、ImageNet-21k で事前トレーニングされた 2 つのバックボーン ( 1 つは Vision Transformer から、もう 1 つは Swin Transformer から)が含まれます。 比較を微調整するための主要な方法には、次の 3 つとマイナーな方法があります。 (1)完全な微調整:バックボーンと分類ヘッドのパラメータをすべて更新する (2)線形、部分k、Mlp-kなどの分類ヘッドに焦点を当てた微調整 (3)微調整中にバックボーンパラメータのサブセットを更新したり、バックボーンに新しいトレーニング可能なパラメータを追加したりするには、サイドチューン、バイアス、アダプタの3つの方法があります。 実験データセットは 2 セットあり、さまざまな分野にわたる合計 24 の下流認識タスクが含まれます。 (1)5つのベンチマーク細粒度視覚分類タスクからなるFGVC (2)VTAB-1kは19種類の視覚分類セットから構成されており、標準カメラで撮影した自然画像タスク(自然)、衛星画像などの特殊な機器で撮影した画像タスク(特殊)、物体数えなどの幾何学的理解を必要とするタスク(構造化)に分類されている。 各タスクの平均精度を測定した結果、主な結果は次のようになりました。 VPT-Deep は、24 のタスクのうち 20 で完全な微調整よりも優れたパフォーマンスを発揮しながら、使用するモデル パラメータの合計が大幅に少なくなっています (1.18 倍対 24.02 倍)。 ご存知のとおり、Prompt は NLP の分野でどれほど強力であっても、そのパフォーマンスは包括的な微調整を超えることはできません。これは、Prompt がビジュアル Transformer モデルに適していることを示しています。 他の微調整方法 (グループ b および c) と比較すると、VPT-Deep はそれらすべてよりも優れています。 さらに、異なるバックボーンパラメータスケールとモデルスケールでViT(ViT-B、ViT-L、ViT-H)をテストしたところ、VPT法は影響を受けず、基本的にその優れた性能を維持することがわかりました。 Swin Transformer では、包括的な微調整方法の平均精度は高くなりますが、パラメータコストも膨大になります。 他のすべての微調整方法は VPT より劣ります。 著者について第一著者のJia Menglin 氏は、コーネル大学の情報科学の博士課程の学生です。彼の主な研究分野は、視覚情報とテキスト情報のきめ細かい認識です。これまでに、彼はトップクラスの会議で 4 つの論文を発表しています。 その一般人とは、コーネル大学でコンピューターサイエンスの博士課程に在籍するタン・ルーミン氏だ。彼は清華大学で数学と物理学の学士号を取得している。 彼の主な研究分野は、機械学習とコンピュータービジョンの交差点です。 論文の宛先: https://arxiv.org/abs/2203.12119 |
<<: 自動運転のセキュリティ確保 - 主流のミドルウェア設計について
>>: 5000億の大台を突破?多くの国で人工知能が急速に進歩している
3月26日、エマージング・リサーチが発表した最新レポートによると、世界の人工知能医療画像ソリューシ...
[[270834]]近年、人工知能はテクノロジー界で注目されている分野です。中国では、Megvii...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
タスクの数が増えるにつれて、現在の計算方法を使用して汎用の日常的なロボットを構築するコストは法外なも...
近年、伝統的な自然科学の問題の解決においてますます多くの人工知能手法が活躍しており、いくつかの重要な...
「私の大胆な決断の1つは、2025年までに従来のヘルプデスクを廃止したいということだった」とトヨタ自...
米国のオンライン教育会社Cheggは6月14日、人工知能チャットボット「ChatGPT」に対する学生...
ノイズ除去拡散確率モデル (DDPM) の仕組みを詳しく検討する前に、生成 AI の進歩、具体的には...
機械学習は興味深いものですが、作業範囲が広く複雑で困難です。開発者として学ぶべきツールはたくさんあり...
7月25日、杭州公安局は「杭州人妻殺害事件」について記者会見を開き、捜査結果を発表した。ネットユーザ...