この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 プロンプト チューニングは、NLP 分野の「新たな寵児」として、NLP 事前トレーニングの新しいパラダイムとして学者からも賞賛されています。 では、これをCV 分野に適用して同じ結果を得ることができるのでしょうか? 現在、コーネル大学や Meta AI などの研究者が Prompt を使用して Transformer ベースの視覚モデルを微調整し、次のことを発見しました。 絶対に! 包括的な微調整と比較すると、Prompt のパフォーマンスは大幅に向上します。モデルとトレーニング データのサイズに関係なく、24 ケースのうち 20 ケースで優れたパフォーマンスを発揮しました。 同時に、各タスクに必要なストレージコストを大幅に削減できます。 モデルパラメータの1%未満を使用する従来の完全な微調整では、各下流タスクのバックボーン パラメータの個別のコピーを保存して展開する必要があり、特に Transformer ベースのモデルがますます大きくなり、CNN アーキテクチャを超えているため、コストがかかりすぎます。 いわゆるプロンプトとは、もともと、事前トレーニング済みの言語モデルが後でさまざまな下流タスクを直接理解できるように、入力テキストに言語指示を事前にコーディングすることを指します。 これにより、GPT-3 は、サンプルがほとんどないかまったくない場合でも、強力な一般化機能を発揮できるようになりました。 最近の結果によると、Prompt は、パラメータの保存容量が 1,000 分の 1 で、完全に微調整されたモデルと同等のパフォーマンスを発揮します。 NLP の高性能により、多くの人が CV の分野で Prompt の魔法を探求するようになりましたが、それらはすべてクロスモーダル タスクのテキスト エンコーダーの入力に限定されています。 この論文では、著者らは提案した Visual Prompt Tuning 法をVPT と呼んでいます。ビジュアル モデルのバックボーンに Prompt を適用して成果を達成したのはこれが初めてです。 具体的には、包括的な微調整と比較して、VPT は最新の大規模 NLP モデル調整方法にヒントを得ており、下流タスクのトレーニング中に事前トレーニング済みモデルのバックボーンを固定しながら、タスク固有のトレーニング パラメータ (モデル パラメータの 1% 未満) を少数だけ入力スペースに導入します。 実際には、これらの追加パラメータは、各 Transformer レイヤーの入力シーケンスの先頭に追加され、微調整中にリニア ヘッドと一緒に学習されます。 彼らは2つの変種を調査しました: VPT-Deepバリアントは、Transformer エンコーダーの各レイヤーの入力に対して学習可能なパラメータのセットを事前設定します。 VPT-Shallowバリアントは、ヒント パラメータを最初のレイヤーの入力にのみ挿入します。 ダウンストリーム タスクのトレーニング中は、Transformer エンコーダー全体がフリーズされた状態で、リニア ヘッドのタスク固有のヒントとパラメーターのみが更新されます。 次に、それはラバですか、それとも馬ですか?引き出してスライドさせて取り出します〜 勝率20/24実験には、ImageNet-21k で事前トレーニングされた 2 つのバックボーン ( 1 つは Vision Transformer から、もう 1 つは Swin Transformer から)が含まれます。 比較を微調整するための主要な方法には、次の 3 つとマイナーな方法があります。 (1)完全な微調整:バックボーンと分類ヘッドのパラメータをすべて更新する (2)線形、部分k、Mlp-kなどの分類ヘッドに焦点を当てた微調整 (3)微調整中にバックボーンパラメータのサブセットを更新したり、バックボーンに新しいトレーニング可能なパラメータを追加したりするには、サイドチューン、バイアス、アダプタの3つの方法があります。 実験データセットは 2 セットあり、さまざまな分野にわたる合計 24 の下流認識タスクが含まれます。 (1)5つのベンチマーク細粒度視覚分類タスクからなるFGVC (2)VTAB-1kは19種類の視覚分類セットから構成されており、標準カメラで撮影した自然画像タスク(自然)、衛星画像などの特殊な機器で撮影した画像タスク(特殊)、物体数えなどの幾何学的理解を必要とするタスク(構造化)に分類されている。 各タスクの平均精度を測定した結果、主な結果は次のようになりました。 VPT-Deep は、24 のタスクのうち 20 で完全な微調整よりも優れたパフォーマンスを発揮しながら、使用するモデル パラメータの合計が大幅に少なくなっています (1.18 倍対 24.02 倍)。 ご存知のとおり、Prompt は NLP の分野でどれほど強力であっても、そのパフォーマンスは包括的な微調整を超えることはできません。これは、Prompt がビジュアル Transformer モデルに適していることを示しています。 他の微調整方法 (グループ b および c) と比較すると、VPT-Deep はそれらすべてよりも優れています。 さらに、異なるバックボーンパラメータスケールとモデルスケールでViT(ViT-B、ViT-L、ViT-H)をテストしたところ、VPT法は影響を受けず、基本的にその優れた性能を維持することがわかりました。 Swin Transformer では、包括的な微調整方法の平均精度は高くなりますが、パラメータコストも膨大になります。 他のすべての微調整方法は VPT より劣ります。 著者について第一著者のJia Menglin 氏は、コーネル大学の情報科学の博士課程の学生です。彼の主な研究分野は、視覚情報とテキスト情報のきめ細かい認識です。これまでに、彼はトップクラスの会議で 4 つの論文を発表しています。 その一般人とは、コーネル大学でコンピューターサイエンスの博士課程に在籍するタン・ルーミン氏だ。彼は清華大学で数学と物理学の学士号を取得している。 彼の主な研究分野は、機械学習とコンピュータービジョンの交差点です。 論文の宛先: https://arxiv.org/abs/2203.12119 |
<<: 自動運転のセキュリティ確保 - 主流のミドルウェア設計について
>>: 5000億の大台を突破?多くの国で人工知能が急速に進歩している
生成型検索エンジンは、入力クエリとオンライン引用に対する応答を直接生成することで、ユーザーの情報ニー...
Big Language Model が世界モデルであるという新たな証拠!少し前、MITとノースイー...
最近、「被験者 3」について多かれ少なかれ耳にしたことがあるかもしれません。握手、軽く捻挫した足、リ...
新しい報告によると、私たちは人工知能革命の瀬戸際に立っている。この革命において、私たちが作り出すテク...
昨日、ネットユーザーから、数学オリンピックを勉強したことがないのにシステムアーキテクトになれるかと質...
[[417825]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
最近、「つながりとインテリジェンス、より安全な世界の構築」をテーマにした2021年世界セキュリティ博...
[[432744]] TensorFlow は、Google が開発し、2015 年にオープンソース...
最近、GPT-4 は静かに更新され、マルチモーダル性や音声対話などの機能が追加されました。しかし、O...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[432257]]ソースコードはこちら GitHub: https://github.com/na...