Google: パフォーマンスの低い微調整モデルを捨てず、平均重量を計算してパフォーマンスを向上させる

Google: パフォーマンスの低い微調整モデルを捨てず、平均重量を計算してパフォーマンスを向上させる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

モデルの精度を最大化するにはどうすればよいでしょうか?

最近、Google やその他の機関は次のことを発見しました。

パフォーマンスの悪い微調整されたモデルをまだ捨てないで、平均重量を計算してください。

これにより、推論時間とメモリのオーバーヘッドを増やすことなく、モデルの精度と堅牢性を向上させることができます。

たとえば、研究者はこの方法を使用して、ImageNet1K の新しい記録90.94% を作成しました。

これを複数の画像分類および自然言語処理タスクに拡張すると、モデルの分布外パフォーマンスが向上し、新しい下流タスクのゼロショット パフォーマンスも向上します。

このメソッドにはモジュールスープという面白い名前が付けられています

すぐにフィボナッチスープのジョークを思い出しませんか? (昨日のスープ+一昨日のスープ=今日の新しいスープ)

△ Zhihuユーザー@hzwer、承認済み

レシピは全部で3つあります

これまでのことを振り返って、モデルの価値をどのように高めましたか?

まず、さまざまなハイパーパラメータを使用して複数の微調整されたモデルをトレーニングし、検証セットで最高のパフォーマンスを発揮するモデルを選択して、残りを破棄する必要がありますか?

ニューラル ネットワークは非線形であるため、さまざまな損失領域に多くのソリューションが存在する可能性があります。そのため、すべての微調整されたモデルの重みを保持して平均化する Module Soup の方法によってパフォーマンスが向上するというのは、少し意外です。

しかし、最近、同じ初期化構成から独立して最適化された微調整モデルは同じ誤差範囲内にあることが判明しました。   (エラーランドスケープの同じ盆地内にあります)

これまでの研究では、単一のトレーニング軌跡に沿った重み平均化により、ランダムに初期化されたトレーニング モデルのパフォーマンスが向上することも示されています。

著者はこれらの結論に触発された。

モジュール スープには、均一スープ、貪欲スープ、学習スープという 3 つの「レシピ」 (実装)があります

貪欲スープは、すべての重みを直接均等に平均化するよりもパフォーマンスが高いため、最も一般的に使用される実装です。

具体的には、Greedy Soup は各モデルを「スープ」の潜在的成分として順番に追加することで構築され、検証セットでのパフォーマンスが向上した場合にのみ、対応するモデルが「スープ」に保持されます。

ソートは検証セットの精度の降順で行われます。

単一の最も優れた微調整モデルを上回る

著者らは、モジュールスープの効果を判断するために包括的な微調整実験を実施しました。

最初のステップは画像とテキストのペアのコントラスト損失を使用して事前トレーニングされた CLIP と ALIGN を微調整することです。

モジュール スープ操作後、両方とも、分布内および自然分布シフト テスト セットで、最良の単一の微調整モデルよりも優れたパフォーマンスを発揮しました。

△ 左にCLIP、右にALIGN

続いて、 JFT データセットで事前トレーニングされたViT-Gモデルを実行します

つまり、ImageNet1K データセットで 90.94% の精度を達成し、CoAtNet が以前に保持していた 90.88% を破り、推論フェーズでの FLOP を 25% 削減しました。

著者は、画像分類タスクに加えて、 NLP の分野でもモジュール スープを検証しました。

次の表は、GLUE ベンチマークの 4 つのテキスト分類タスクにおける BERT モデルと T5 モデルの結果を示しています。

画像分類ほど改善は明らかではありませんが、ほとんどのタスクでは、貪欲スープは最良の単一モデルと比較してパフォーマンスを向上できることわかります

もちろん、著者はモジュールスープには適用性の面で限界があることも指摘しています。たとえば、現在テストされているモデルは、大規模な異種データセットで事前トレーニングされています。これらのモデル以外では、効果はあまり明白ではありません。

最後に、Zhihu ネットユーザー @宫酱手艺人 は、実際にはこのようなモデルパラメータの平均化は古典的なトリックであり、元のトランスフォーマー論文でも使用されていたと述べました。

見つかりましたか?

論文の宛先:
https://arxiv.org/abs/2203.0548

<<:  テスラAIディレクター:33年前にルカンのニューラルネットワークを再現したが、今とあまり変わらない

>>:  2022 年の人工知能のトレンド: AI はあなたにどのような影響を与えるでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

...

2018 年の人工知能と機械学習のトップトレンド

[[243985]]人工知能(AI)は、1955年に米国のダートマス大学のAIの第一人者ジョン・マッ...

AI界のお笑い王に100万の賞金!北京郵電大学、南洋理工大学などが「砂像動画」データセットを公開 FunQA:アルゴリズムで人間のユーモアを学習

人は直感に反する動画(ユーモラスで独創的で視覚的に魅力的な動画)から容易に喜びを得ることができます。...

...

李開復:人工知能の「7つのブラックホール」は、最終的にはオープンエコシステムに置き換えられるだろう

最近、李開復氏は記者との独占インタビューで人工知能に関する自身の観察と洞察について語った。シリコンバ...

自然の中でショウジョウバエがVRをプレイし、注意メカニズムとワーキングメモリを発見

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ドローンと農業は互いに補完し合い、数千億ドルの価値がある広大なブルーオーシャンを共同で生み出す

かつて、農業と言えば、人々はいつも「真昼に畑を耕し、汗を地面に垂らす」という苦労を思い浮かべていまし...

Pythonを全く知らなかった私がAIエンジニアになるまでに2年かかりました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

LSTM の父は Llama 2 に中傷されて激怒しました。メタは32年前にアイデアトレーニングモデルを盗用し、ルカンに責任を求めた。

LSTM の父はまた機嫌が悪いです!何が起こっているのか?今日、ユルゲン・シュミットフーバー氏はソ...

UiPath が前進中!企業が包括的な自動化を実現する可能性を探るのを支援する

[51CTO.com からのオリジナル記事] RPA は人間の働き方をシミュレートし、ルールベースの...

ナレッジグラフの過去と現在: ナレッジグラフがなぜ人気なのか?

[51CTO.com からのオリジナル記事] 近年、ナレッジグラフは、その強力な表現力、優れたスケ...

ジェネレーティブAIがファッション業界にもたらす変化

業界ではデザインやスキンケアに AI 技術が活用されています。一部の企業は、生成ツールを超えて、コン...

AI人工知能は弱い:あなたを瞬時に複製できる仮想人間が登場

今、テクノロジー界で最もホットな話題はAI(人工知能)です。将来、世界はこれらの人工知能に支配される...

Google DeepMind の最新研究: 敵対的攻撃は人間に対しても有効であり、人間も AI も花瓶を猫と間違える!

人間のニューラルネットワーク(脳)と人工ニューラルネットワーク(ANN)の関係は何ですか?ある先生が...

3つのシナリオは、人工知能が新しい小売業に力を与える方法を示しています

1950年代以降、人工知能は長年にわたり浮き沈みを経験し、ビジネスシーンで継続的に試されてきました。...