この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 モデルの精度を最大化するにはどうすればよいでしょうか? 最近、Google やその他の機関は次のことを発見しました。 パフォーマンスの悪い微調整されたモデルをまだ捨てないで、平均重量を計算してください。 これにより、推論時間とメモリのオーバーヘッドを増やすことなく、モデルの精度と堅牢性を向上させることができます。 たとえば、研究者はこの方法を使用して、ImageNet1K の新しい記録90.94% を作成しました。 これを複数の画像分類および自然言語処理タスクに拡張すると、モデルの分布外パフォーマンスが向上し、新しい下流タスクのゼロショット パフォーマンスも向上します。 このメソッドにはモジュールスープという面白い名前が付けられています。 すぐにフィボナッチスープのジョークを思い出しませんか? (昨日のスープ+一昨日のスープ=今日の新しいスープ) △ Zhihuユーザー@hzwer、承認済み レシピは全部で3つありますこれまでのことを振り返って、モデルの価値をどのように高めましたか? まず、さまざまなハイパーパラメータを使用して複数の微調整されたモデルをトレーニングし、検証セットで最高のパフォーマンスを発揮するモデルを選択して、残りを破棄する必要がありますか? ニューラル ネットワークは非線形であるため、さまざまな損失領域に多くのソリューションが存在する可能性があります。そのため、すべての微調整されたモデルの重みを保持して平均化する Module Soup の方法によってパフォーマンスが向上するというのは、少し意外です。 しかし、最近、同じ初期化構成から独立して最適化された微調整モデルは同じ誤差範囲内にあることが判明しました。 (エラーランドスケープの同じ盆地内にあります) 。 これまでの研究では、単一のトレーニング軌跡に沿った重み平均化により、ランダムに初期化されたトレーニング モデルのパフォーマンスが向上することも示されています。 著者はこれらの結論に触発された。 モジュール スープには、均一スープ、貪欲スープ、学習スープという 3 つの「レシピ」 (実装)があります。 貪欲スープは、すべての重みを直接均等に平均化するよりもパフォーマンスが高いため、最も一般的に使用される実装です。 具体的には、Greedy Soup は、各モデルを「スープ」の潜在的成分として順番に追加することで構築され、検証セットでのパフォーマンスが向上した場合にのみ、対応するモデルが「スープ」に保持されます。 ソートは検証セットの精度の降順で行われます。 単一の最も優れた微調整モデルを上回る著者らは、モジュールスープの効果を判断するために包括的な微調整実験を実施しました。 最初のステップは、画像とテキストのペアのコントラスト損失を使用して事前トレーニングされた CLIP と ALIGN を微調整することです。 モジュール スープ操作後、両方とも、分布内および自然分布シフト テスト セットで、最良の単一の微調整モデルよりも優れたパフォーマンスを発揮しました。 △ 左にCLIP、右にALIGN 続いて、 JFT データセットで事前トレーニングされたViT-Gモデルを実行します。 つまり、ImageNet1K データセットで 90.94% の精度を達成し、CoAtNet が以前に保持していた 90.88% を破り、推論フェーズでの FLOP を 25% 削減しました。 著者は、画像分類タスクに加えて、 NLP の分野でもモジュール スープを検証しました。 次の表は、GLUE ベンチマークの 4 つのテキスト分類タスクにおける BERT モデルと T5 モデルの結果を示しています。 画像分類ほど改善は明らかではありませんが、ほとんどのタスクでは、貪欲スープは最良の単一モデルと比較してパフォーマンスを向上できることがわかります。 もちろん、著者はモジュールスープには適用性の面で限界があることも指摘しています。たとえば、現在テストされているモデルは、大規模な異種データセットで事前トレーニングされています。これらのモデル以外では、効果はあまり明白ではありません。 最後に、Zhihu ネットユーザー @宫酱手艺人 は、実際にはこのようなモデルパラメータの平均化は古典的なトリックであり、元のトランスフォーマー論文でも使用されていたと述べました。 見つかりましたか? 論文の宛先: |
<<: テスラAIディレクター:33年前にルカンのニューラルネットワークを再現したが、今とあまり変わらない
>>: 2022 年の人工知能のトレンド: AI はあなたにどのような影響を与えるでしょうか?
英国最高裁判所は12月21日、特許出願において人工知能(AI)を発明者として記載することはできないと...
機械にはハードウェアだけでなくソフトウェアもあります。ハードウェアには材料や電力の問題が必要ですが、...
私たちは、使用するほぼすべてのものが「スマート」な時代に生きています。私たちのデバイスは、長い間、指...
[51CTO.com からのオリジナル記事] 先進的なクラウドサービスプロバイダーとして、AWS は...
技術の進歩はあらゆる産業革命の原動力となってきましたが、人類社会は人工知能技術の進歩により、いわゆる...
「人工知能」という言葉を聞くと、まず頭に浮かぶのは「スマートデバイス/スマートシステム」です。しか...
現在、自動運転車の知覚の実現は、車両に搭載されたレーザーレーダー、車載カメラ、ミリ波レーダーなどのセ...
2018 年には、自然言語処理の分野で多くの刺激的なアイデアやツールが生まれました。概念的な視点から...
2022年、学者たちは人工知能の将来の発展をどのように見ているのでしょうか?将来、AI はモデル駆...