2 つの小型モデルで大型モデルに勝つことができます。北京大学卒業生、Google 中国版第一著者「モデルコレクション」、CNN や Transformer にも応用可能!

2 つの小型モデルで大型モデルに勝つことができます。北京大学卒業生、Google 中国版第一著者「モデルコレクション」、CNN や Transformer にも応用可能!

[[435896]]

優れたパフォーマンスを得るにはモデルを大きくする必要がありますか?

それは必ずしも真実ではありません!

新しい機械学習アプリケーション用のディープモデルを構築する場合、研究者は ResNet や EfficientNet などの既存のネットワーク アーキテクチャから初期アーキテクチャを選択することがよくあります。

初期モデルの精度が十分に高くない場合は、より大きなモデルに切り替えるのが一般的な選択肢ですが、これが実際には最善の解決策ではない可能性があります。

代わりに、特定のタスクに最適化された新しいモデルを設計することで、より良いパフォーマンスを実現できる可能性があります。ただし、このような取り組みは困難を伴う場合があり、多くの場合、多大なリソースの支出が必要になります。

中国人研究者の王暁芳氏は、Google Research でのインターンシップ中に、論文「委員会の知恵: より高速でより正確なモデルへの見落とされがちなアプローチ」の中で、モデル統合とモデル カスケードという 2 つの手法を提案しました。

出典: http://arxiv.org/pdf/2012.01988.pdf

これら両方の方法は、既存のモデルを収集し、その出力を組み合わせることで新しいモデルを構築する簡単な方法です。

簡単に構築できるモデルの小さなコレクションでも、最先端のモデルと同等かそれ以上の精度を実現でき、同時に効率も大幅に向上できることを実証します。

[[435897]]

王暁芳はカーネギーメロン大学ロボット工学研究所の博士課程の学生です。北京大学でコンピューターサイエンスを専攻しました。IJCV、TIP、ACM Computing Surveys などのジャーナルや、CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR などのカンファレンスの査読者です。

モデルアンサンブルとカスケードとは何ですか?

アンサンブルとカスケードは、複数のモデルの長所を活用してより優れたソリューションを実現する関連アプローチです。

アンサンブルは複数のモデルを並行して実行し、それらの出力を組み合わせて最終的な予測を行います。

カスケードはアンサンブルのサブセットですが、収集されたモデルは順番に実行され、予測の信頼性が十分に高くなるとソリューションがマージされます。

単純な入力の場合、カスケードでは計算量が少なくなりますが、より複雑な入力の場合は、呼び出されるモデルが多くなり、計算コストが高くなります。

アンサンブルとカスケードの概要、この例では、アンサンブルとカスケードの 2 つのモデルの組み合わせを示します。

収集されたモデル予測にばらつきがある場合、アンサンブルは単一のモデルと比較してより高い精度を提供できます。

たとえば、ImageNet の画像のほとんどは既存の画像認識モデルで簡単に分類できますが、モデル間で予測が異なる画像も多く、ここでモデル アンサンブルが最も効果を発揮します。

アンサンブルはよく知られていますが、通常はディープモデルアーキテクチャのコアビルディングブロックとは見なされておらず、研究者がより効率的なモデルを開発する際に調査されることはほとんどありません。

したがって、この研究では、アンサンブル効率の包括的な分析を提供し、既製の事前トレーニング済みモデルの単純なアンサンブルまたはカスケードによって、最先端のモデルの効率と精度を向上できることを示しています。

モデル アンサンブルには、次のような有益な特性があります。

  1. 構築が簡単: 統合には複雑な技術 (早期終了学習など) は必要ありません。
  2. メンテナンスが容易: モデルは個別にトレーニングされるため、メンテナンスとデプロイが容易です。
  3. 手頃なトレーニング コスト: アンサンブル内のモデルの合計トレーニング コストは、同じ精度の単一モデルのトレーニング コストよりも低くなることがよくあります。
  4. デバイスの高速化: 計算コストの削減が実際のハードウェアの高速化にうまく反映されます。

効率とトレーニング速度

アンサンブルによって精度が向上することは驚くべきことではありませんが、アンサンブルで複数のモデルを使用すると、実行時に追加の計算コストが発生する可能性があります。

問題は、同じ計算コストで、モデルのアンサンブルが単一のモデルよりも正確になるかどうかです。

ImageNet 入力に適用した場合の、さまざまなレベルの精度と浮動小数点演算 (FLOPS) を持つ、EfficientNet-B0 から EfficientNet-B7 までの一連のモデルを分析します。

アンサンブル モデルは、ImageNet 上の単一モデルよりも少ない FLOP で高い精度を実現します。

アンサンブル予測は、各個別モデルの予測を平均化することによって計算されます。

大規模な計算範囲(50 億 FLOPS 以上)では、統合の方がコスト効率が大幅に高くなることがわかりました。

たとえば、2 つの EfficientNet-B5 モデルのアンサンブルは、約 50% の FLOPS を使用しながら、1 つの EfficientNet-B7 モデルの精度に匹敵します。

大規模な計算範囲 (50 億 FLOPS 以上) では、モデル アンサンブルは個々のモデルよりも優れたパフォーマンスを発揮します。

これは、この場合、単一の大きなモデルを使用するのではなく、複数のはるかに小さなモデルのアンサンブルを使用する必要があることを示唆しており、これにより、精度を維持しながら計算要件が削減されます。

さらに、アンサンブルのトレーニング コストは大幅に削減できます (たとえば、2 つの B5 モデルのトレーニングには合計 96 TPU 日が必要ですが、1 つの B7 モデルのトレーニングには 160 TPU 日が必要です)。

実際には、モデル アンサンブル トレーニングは複数のアクセラレータを使用して並列化できるため、トレーニング時間をさらに短縮できます。このモードは、ResNet および MobileNet シリーズにも適用されます。

カスケードのパワーとシンプルさ

モデル アンサンブルの有用性は実証しましたが、アンサンブルのサブセットが正しい答えを出すため、単純な入力に対してアンサンブルを適用するのは無駄になることがよくあります。

このような場合、カスケードは早期終了を許可することで計算を節約し、すべてのモデルが使用される前に停止して回答を出力する可能性があり、課題はカスケードをいつ終了するかを決定することです。

カスケードアルゴリズムの疑似コード

カスケードの実際的な利点を強調するために、予測の信頼性を測定するための単純なヒューリスティックが選択されます。モデルの信頼性は、各クラスに割り当てられた確率の最大値であると見なされます。

たとえば、画像が猫、犬、馬である確率がそれぞれ 20%、80%、20% と予測される場合、モデルは信頼スコア 0.8 で (犬) を予測し、信頼スコアのしきい値を使用してカスケードを終了するタイミングを決定します。

このアプローチをテストするために、計算コストまたは精度のいずれかを一致させる EfficientNet、ResNet、MobileNetV2 ファミリのモデル カスケードを構築しました (カスケードは最大 4 つのモデルに制限)。

積分は計算負荷が大きい領域でうまく機能し、カスケードは計算負荷が大きいすべての領域で利点を示します。

カスケード設計では、より難しい入力はより簡単な入力よりもカスケード内のより多くのモデルを通過するため、一部の難しい画像入力は簡単な画像よりも多くの FLOPS を必要とします。

すべてのテスト済みイメージの平均 FLOPS 計算結果は、カスケードがすべての計算領域で単一モデルよりも優れていることを示しています (FLOPS が 0.15B から 37B の範囲の場合)。また、すべてのテスト済みモデルで精度が向上したり、FLOPS が削減されたり (場合によっては両方) します。

同様の FLOPS を使用する場合、カスケードは単一モデルよりも高い精度を実現します (上向きの赤い矢印で示されています)。カスケードでは、FLOPS が大幅に少ない単一モデルの精度に匹敵することもできます。たとえば、B7 の場合は 5.4 倍です (左向きの緑の矢印)。

場合によっては、制限要因は平均計算コストではなく、最悪の場合のコストになります。カスケード構築プロセス中に単純な制約を追加することで、カスケード計算コストの上限を保証できます。

研究者らは、畳み込みニューラル ネットワークに加えて、Transformer アーキテクチャに基づく ViT も検討しました。

彼らは、最先端の単一の ViT-Large モデルの平均計算または精度に一致するように ViT-Base モデルと ViT-Large モデルのカスケードを構築し、カスケードの利点が Transformer ベースのアーキテクチャにも当てはまることを示しました。

ImageNet 上のカスケード ViT モデルのパフォーマンス。カスケードでは、同様のスループットで ViT-L-384 よりも 1.0% 高い精度を達成できます。つまり、そのモデルの精度と一致しながら 2.3 倍の速度を達成できます。

推論結果

上記の分析では、計算コストを測定するために平均として FLOPS を使用していますが、カスケードの FLOPS 削減が実際にハードウェア アクセラレーションにつながるかどうかを確認することも重要です。

TPUv3 でのオンライン処理のカスケードの平均レイテンシ。同じ色のバーの各ペアはかなりの精度で処理され、カスケード接続によりレイテンシを大幅に削減できます。

デバイス上で同様のパフォーマンスを持つ単一モデルとカスケード モデルのレイテンシとスピードアップを比較したところ、効率的なネットワークのカスケード モデルでは、同等の精度を持つ単一モデルと比較して、TPUv3 の平均オンライン レイテンシが最大 5.5 倍短縮されることがわかりました。モデルが大きくなるにつれて、カスケードによってもたらされる速度の向上はますます大きくなります。

<<:  データ構造とアルゴリズム: K 回の否定後の配列の合計を最大化する

>>:  AIプログラマーの負担を軽減!マイクロソフト、スケーラブルなインテリジェンスをサポートするためにディープラーニングライブラリ SynapseML を導入

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Google MITの最新の研究は、高品質のデータを入手することは難しくなく、大規模なモデルが最適な方法であることを証明しています。

高品質なデータの取得は、現在の大規模モデルのトレーニングにおける大きなボトルネックとなっています。数...

機械学習開発者が知っておくべき 5 つのディープラーニング フレームワーク

ディープラーニングには大量の計算が必要です。通常、多数のノードを持つニューラル ネットワークで構成さ...

AI がモノのインターネットをよりスマートにする 5 つの方法

第三者の介入なしに何十億ものデバイスを接続してデータを交換できるため、モノのインターネット (IoT...

30秒で署名、上海の核酸採取ロボットが登場!

COVID-19の流行が続き、核酸検査が広範囲で徐々に常態化している中、複数の組織が核酸検査用ロボ...

ディープラーニングと群衆カウントの融合

【51CTO.comオリジナル記事】 1. はじめに:昨今、人工知能の研究が盛んになり、機械学習技術...

ソフトウェア開発における AI と機械学習の応用: 将来の動向と課題

人工知能 (AI) と機械学習 (ML) は、現代のソフトウェア開発の重要な部分になりつつあります。...

AIをホームセキュリティに活用する方法

人工知能の台頭は、ホームセキュリティを含む多くの業界に大きな影響を与えています。人工知能は、監視カメ...

...

ソフトウェア開発を簡素化する 5 つの機械学習ツール

[51CTO.com クイック翻訳] 機械学習を使用する開発者の間での議論のほとんどは、AI ベース...

企業におけるAIの応用は成熟段階に入ったのでしょうか?

マッキンゼーは、AI が多くの業務活動を自動化するという見通しに楽観的である一方で、あらゆる規模の自...

ニューヨーク大学のチームは、自然言語を使ってチャットボットChatGPTを使ってマイクロプロセッサをゼロから設計した。

6月19日、生成型人工知能がハードウェア設計などの分野に参入し始めました。最近、ニューヨーク大学の...

OpenAI も参入したいと考えている GPU とは一体何でしょうか?

ChatGPTなどの大規模言語モデルがAI変革の新たな波を引き起こすにつれ、AIチップの不足はます...

アルゴリズムエンジニアの日常生活において、トレーニングされたモデルが失敗した場合はどうすればよいでしょうか?

[[353013]]みなさんこんにちは。今日は職場でのアルゴリズム エンジニアの日常生活、つまりモ...

LLM評価にArthur Benchを使用する方法を学ぶ

こんにちは、皆さん。私は Luga です。今日は、人工知能 (AI) エコシステムに関連するテクノロ...