CV モデルのトレーニングに関する新しいアイデア: パフォーマンスを向上させるために微調整の代わりに NLP の人気の Prompt を使用する

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

プロンプトチューニングは、NLP 分野の「新たな寵児」として、NLP 事前トレーニングの新しいパラダイムとして学者からも賞賛されています。

では、これをCV 分野に適用して同じ結果を得ることができるのでしょうか?

現在、コーネル大学や Meta AI などの研究者が Prompt を使用して Transformer ベースの視覚モデルを微調整し、次のことを発見しました。

絶対に！

包括的な微調整と比較すると、Prompt のパフォーマンスは大幅に向上します。モデルとトレーニングデータのサイズに関係なく、24 ケースのうち 20 ケースで優れたパフォーマンスを発揮しました。

同時に、各タスクに必要なストレージコストを大幅に削減できます。

モデルパラメータの1%未満を使用する

従来の完全な微調整では、各下流タスクのバックボーンパラメータの個別のコピーを保存して展開する必要があり、特に Transformer ベースのモデルがますます大きくなり、CNN アーキテクチャを超えているため、コストがかかりすぎます。

いわゆるプロンプトとは、もともと、事前トレーニング済みの言語モデルが後でさまざまな下流タスクを直接理解できるように、入力テキストに言語指示を事前にコーディングすることを指します。

これにより、GPT-3 は、サンプルがほとんどないかまったくない場合でも、強力な一般化機能を発揮できるようになりました。

最近の結果によると、Prompt は、パラメータの保存容量が 1,000 分の 1 で、完全に微調整されたモデルと同等のパフォーマンスを発揮します。

NLP の高性能により、多くの人が CV の分野で Prompt の魔法を探求するようになりましたが、それらはすべてクロスモーダルタスクのテキストエンコーダーの入力に限定されています。

この論文では、著者らは提案した Visual Prompt Tuning 法をVPT と呼んでいます。ビジュアルモデルのバックボーンに Prompt を適用して成果を達成したのはこれが初めてです。

具体的には、包括的な微調整と比較して、VPT は最新の大規模 NLP モデル調整方法にヒントを得ており、下流タスクのトレーニング中に事前トレーニング済みモデルのバックボーンを固定しながら、タスク固有のトレーニングパラメータ (モデルパラメータの 1% 未満) を少数だけ入力スペースに導入します。

実際には、これらの追加パラメータは、各 Transformer レイヤーの入力シーケンスの先頭に追加され、微調整中にリニアヘッドと一緒に学習されます。

彼らは2つの変種を調査しました:

VPT-Deepバリアントは、Transformer エンコーダーの各レイヤーの入力に対して学習可能なパラメータのセットを事前設定します。

VPT-Shallowバリアントは、ヒントパラメータを最初のレイヤーの入力にのみ挿入します。

ダウンストリームタスクのトレーニング中は、Transformer エンコーダー全体がフリーズされた状態で、リニアヘッドのタスク固有のヒントとパラメーターのみが更新されます。

次に、それはラバですか、それとも馬ですか?引き出してスライドさせて取り出します〜

勝率20/24

実験には、ImageNet-21k で事前トレーニングされた 2 つのバックボーン ( 1 つは Vision Transformer から、もう 1 つは Swin Transformer から)が含まれます。

比較を微調整するための主要な方法には、次の 3 つとマイナーな方法があります。

（１）完全な微調整：バックボーンと分類ヘッドのパラメータをすべて更新する

（２）線形、部分k、Mlp-kなどの分類ヘッドに焦点を当てた微調整

（３）微調整中にバックボーンパラメータのサブセットを更新したり、バックボーンに新しいトレーニング可能なパラメータを追加したりするには、サイドチューン、バイアス、アダプタの３つの方法があります。

実験データセットは 2 セットあり、さまざまな分野にわたる合計 24 の下流認識タスクが含まれます。

（１）５つのベンチマーク細粒度視覚分類タスクからなるFGVC

（２）VTAB-1kは19種類の視覚分類セットから構成されており、標準カメラで撮影した自然画像タスク（自然）、衛星画像などの特殊な機器で撮影した画像タスク（特殊）、物体数えなどの幾何学的理解を必要とするタスク（構造化）に分類されている。

各タスクの平均精度を測定した結果、主な結果は次のようになりました。

VPT-Deep は、24 のタスクのうち 20 で完全な微調整よりも優れたパフォーマンスを発揮しながら、使用するモデルパラメータの合計が大幅に少なくなっています (1.18 倍対 24.02 倍)。

ご存知のとおり、Prompt は NLP の分野でどれほど強力であっても、そのパフォーマンスは包括的な微調整を超えることはできません。これは、Prompt がビジュアル Transformer モデルに適していることを示しています。

他の微調整方法 (グループ b および c) と比較すると、VPT-Deep はそれらすべてよりも優れています。

さらに、異なるバックボーンパラメータスケールとモデルスケールでViT（ViT-B、ViT-L、ViT-H）をテストしたところ、VPT法は影響を受けず、基本的にその優れた性能を維持することがわかりました。

Swin Transformer では、包括的な微調整方法の平均精度は高くなりますが、パラメータコストも膨大になります。

他のすべての微調整方法は VPT より劣ります。

著者について

第一著者のJia Menglin 氏は、コーネル大学の情報科学の博士課程の学生です。彼の主な研究分野は、視覚情報とテキスト情報のきめ細かい認識です。これまでに、彼はトップクラスの会議で 4 つの論文を発表しています。

その一般人とは、コーネル大学でコンピューターサイエンスの博士課程に在籍するタン・ルーミン氏だ。彼は清華大学で数学と物理学の学士号を取得している。

彼の主な研究分野は、機械学習とコンピュータービジョンの交差点です。

論文の宛先:

https://arxiv.org/abs/2203.12119

<<: 自動運転のセキュリティ確保 - 主流のミドルウェア設計について

>>: 5000億の大台を突破？多くの国で人工知能が急速に進歩している

「2020年中国AIコンピューティングパワーレポート」が発表：中国はGPT-3のコンピューティングパワー問題をどう解決するのか？

CV モデルのトレーニングに関する新しいアイデア: パフォーマンスを向上させるために微調整の代わりに NLP の人気の Prompt を使用する

モデルパラメータの1%未満を使用する

勝率20/24

著者について

「2020年中国AIコンピューティングパワーレポート」が発表：中国はGPT-3のコンピューティングパワー問題をどう解決するのか？

ものづくりを変える6つのAI活用法！

[私はジャービスです]: FaceIDの背後にあるディープラーニング視覚アルゴリズムについて語る

2021年1月から2月までの中国人工知能の月次情報まとめ

Midjourney V6 は壮大なレベルにアップグレードされ、ネットユーザーたちはそのリアルさに驚いています。写真は次々と公開されており、今日と明日にはオンラインになるという。

2023 年に最も影響力のある 10 のオープンソース大規模言語モデル

ワクチン生産を加速するには？答えは医学ではなくテクノロジーにある

警告！「リップリーディング」キーでデータを盗む、AIは本当に怖い

推薦する

スマートカーシステムへの生体認証技術の統合

3分レビュー！ 2021年1月のドローン業界の重要な動向の概要

機械学習の新たな嵐: ML モデルを使用して住宅価格を予測する方法とは?

数独問題を解くには人工知能や量子コンピューティングを使うべきでしょうか?

物流と輸送における人工知能の将来的な役割

Googleが絵画におけるAI使用の権利を取り戻す、ネットユーザー「DALL・E 2は発売からわずか1ヶ月で時代遅れ？」

LVS 負荷分散モードとアルゴリズムの概要

「AI+教育」の試行錯誤に誰がお金を払うのか？

リチャード・サットン：経験はAIの究極のデータであり、4つの段階が真のAIの開発につながる

新技術により大規模人工知能モデルの処理性能が効果的に向上

アルゴリズムから離れた「ジレンマ」に直面し、専門家はシナリオベースの洗練されたガバナンスの実行を提案している。