「概念のドリフト」問題と闘おう! Google が新しい時間認識フレームワークをリリース: 画像認識精度が 15% 向上

「概念のドリフト」問題と闘おう! Google が新しい時間認識フレームワークをリリース: 画像認識精度が 15% 向上

機械学習の分野では、コンセプトドリフトという問題が長い間研究者を悩ませてきました。つまり、データの分布が時間の経過とともに変化し、モデルの有効性を維持することが困難になるのです。

注目すべき例としては、CLEAR 非定常学習ベンチマークからの画像の表示があり、物体の視覚的特徴が 10 年間で大きく変化したことが明らかになっています。

この現象は「スローコンセプトドリフト」と呼ばれ、オブジェクト分類モデルにとって深刻な課題となります。物体の外観や特性が時間の経過とともに変化する場合、モデルがそのような変化に適応し、正確に分類し続けることができるようにする方法が研究者の焦点となっています。

最近、この課題に応えて、Google AI の研究者は最適化主導型の手法 MUSCATEL (Multi-Scale Temporal Learning) を提案しました。これにより、大規模で動的なデータセットにおけるモデルのパフォーマンスが大幅に向上しました。この作品はAAAI2024に掲載されました。

論文アドレス: https://arxiv.org/abs/2212.05908

現在、確率ドリフトに対する主流のアプローチは、オンライン学習と継続学習です。

これらの方法の中心的な考え方は、最新のデータに適応するためにモデルを継続的に更新することで、モデルを最新の状態に保つことです。しかし、このアプローチには 2 つの根本的な問題があります。

まず、最新のデータのみに焦点を当てる傾向があり、過去のデータに含まれる貴重な情報が無視されてしまいます。第二に、これらの方法では、すべてのデータインスタンスの寄与が時間の経過とともに均一に減少すると想定していますが、これは現実世界の実際の状況と一致しません。

MUSCATEL メソッドはこれらの問題を効果的に解決できます。トレーニング インスタンスに重要度スコアを割り当て、将来のインスタンスでモデルのパフォーマンスを最適化します。

この目的のために、研究者らは、インスタンスとその年齢を組み合わせてスコアを生成する補助モデルを導入しました。補助モデルとメインモデルは協力して学習し、2 つの主要な問題を解決します。

この方法は実際のアプリケーションで優れたパフォーマンスを発揮します。9 年間にわたる 3,900 万枚の写真の大規模な実世界データセットを対象とした実験では、他の定常学習ベースライン方法と比較して精度が 15% 向上しました。

同時に、2 つの非定常学習データセットと継続的な学習環境においても、SOTA 手法よりも優れた結果を示しています。

教師あり学習におけるコンセプトドリフトの課題

教師あり学習におけるコンセプトドリフトの課題を研究するために、研究者らは、過去 10 年間のソーシャル メディアの写真約 3,900 万枚を使用して、写真分類タスクにおけるオフライン トレーニングと継続的トレーニングを比較しました。

下の図に示すように、オフライン トレーニング モデルは初期パフォーマンスは高いものの、壊滅的な忘却により時間の経過とともに精度が低下し、初期データの理解が低下します。

対照的に、継続的にトレーニングされたモデルは、初期のパフォーマンスは低くなりますが、古いデータへの依存度が低く、テスト中により速く劣化します。

これは、データが時間の経過とともに進化するにつれて、2 つのモデルの適用性が低下することを示しています。コンセプトドリフトは教師あり学習にとって課題となるため、データの変化に適応するためにモデルを継続的に更新する必要があります。

マスカット

MUSCATEL は、ゆっくりとしたコンセプトドリフトの課題に対処するために設計された革新的なアプローチです。オフライン学習と継続学習の利点を巧みに組み合わせることで、将来的にモデルのパフォーマンス低下を軽減することを目指しています。

膨大な量のトレーニングデータに対して、MUSCATEL は独自の魅力を発揮しました。従来のオフライン学習に依存するだけでなく、これに基づいて過去のデータの影響を慎重に調整および最適化し、モデルの将来のパフォーマンスのための強固な基盤を築きます。

新しいデータに対するメイン モデルのパフォーマンスをさらに向上させるために、MUSCATEL は補助モデルを導入します。

下の図の最適化目標に従って、トレーニング補助モデルは、各データ ポイントの内容と年齢に基づいて重みを割り当てます。この設計により、モデルは将来のデータ変更に適応しやすくなり、継続的な学習機能を維持できるようになります。

補助モデルをメインモデルと共進化させるために、MUSCATEL はメタ学習戦略も採用しています。

この戦略の鍵となるのは、下の図に示すように、複数の固定減衰時間スケールを組み合わせることで、サンプル インスタンスの寄与を年齢とセットの重みから効果的に分離することです。

さらに、MUSCATEL は、より正確な学習のために、各インスタンスを最も適切な時間スケールに「割り当てる」ことを学習します。

インスタンスの重み付けスコアリング

下の図に示すように、CLEAR オブジェクト認識チャレンジでは、学習した補助モデルがオブジェクトの重みを正常に調整し、新しい外観のオブジェクトの重みが増加し、古い外観のオブジェクトの重みが減少しました。

勾配ベースの特徴重要度評価により、補助モデルは背景やインスタンスの年齢とは無関係な特徴ではなく、画像内の被写体に焦点を当てていることが判明し、その有効性が実証されました。

大規模な写真分類タスクにおける大きな進歩

大規模写真分類タスク (PCAT) は、YFCC100M データセットで研究され、最初の 5 年間のデータがトレーニング セットとして、最後の 5 年間のデータがテスト セットとして使用されます。

重み付けされていないベースラインやその他の堅牢な学習手法と比較すると、MUSCATEL メソッドには明らかな利点があります。

特に、MUSCATEL アプローチでは、テスト中のパフォーマンスの大幅な向上と引き換えに、遠い過去のデータに対する精度を意図的に調整します。この戦略は、将来のデータに対するモデルの適応性を最適化するだけでなく、テスト中の劣化も低減します。

データセット全体にわたる広範な適用性の検証

非定常学習チャレンジのデータセットは、写真、衛星画像、ソーシャル メディアのテキスト、医療記録、センサーの読み取り値、表形式のデータなど、さまざまなデータ ソースとモードをカバーしており、データ サイズは 1 万インスタンスから 3,900 万インスタンスに及びます。各データセットの以前の最良の方法には異なる利点がある可能性があることに注意してください。ただし、下の図に示すように、データと方法の両方の多様性の文脈では、MUSCATEL メソッドは大きなゲイン効果を示しています。この結果は、MUSCATEL の幅広い適用性を十分に実証しています。

大規模データ処理の課題に対処するための継続学習アルゴリズムの拡張

膨大な大規模データに直面すると、従来のオフライン学習方法では圧倒されてしまうかもしれません。

この問題を念頭に置いて、研究チームは継続的学習にヒントを得た手法を巧みに改良し、大規模データの処理に簡単に適応できるようにしました。

この方法は非常にシンプルで、データの各バッチに時間重みを追加し、モデルを順番に更新します。

モデルの更新は最新のデータに基づいてのみ行われるなど、これには若干の制限がありますが、その効果は驚くほど良好です。

以下に示す写真分類ベンチマーク テストでは、この方法は従来の継続学習アルゴリズムやその他のさまざまなアルゴリズムよりも優れたパフォーマンスを発揮します。

さらに、その考え方は多くの既存の方法と互換性があるため、他の方法と組み合わせることでさらに驚くべき効果が期待できます。

全体として、研究チームはオフライン学習と継続学習をうまく組み合わせて、業界を長年悩ませてきたデータドリフトの問題を解決することに成功しました。

この革新的な戦略は、モデルの「破滅的な忘却」現象を大幅に緩和するだけでなく、大規模データの継続的な学習の将来の発展に新たな道を開き、機械学習の分野全体に新たな活力を注入します。

<<:  AI 生成ビデオにもう一つ大きな爆弾があるのでしょうか?アリ・エモはレオがラップし、ガオ・チチアンが法律を広めるなど、素晴らしいデビューを果たした。

>>:  生画像の新しい「マルチモーダル」AIテキストレンダリングはMidjourney + DALL·E 3に勝る!Karpathyが5億元の資金調達に投資

ブログ    
ブログ    

推薦する

データセンター管理者は AI と ML の爆発的な増加にどのように備えればよいのでしょうか?

生成 AI と機械学習 (ML) は急速に一般の人々の意識に入り込み、これらの有望なテクノロジーの能...

自己教師学習の効率限界を突破! Ma Yi と LeCun が共同で EMP-SSL をリリース: 特別なトリックは不要、30 エポックで SOTA を達成可能

過去数年間、教師なし学習と自己教師あり学習 (SSL) は大きな進歩を遂げてきました。SSL を通じ...

ChatGPT の新機能がオンラインになりました。これでビデオ編集が簡単になりますか?

最近、OpenAIが数か月間隠していた大きな動きがついに公開されました。それが「コードインタープリタ...

...

縮小版のOpenAIの新しいテキスト生成画像モデルGLIDEは、DALL-Eに匹敵する35億のパラメータを持つ。

[[441688]]モデルのパラメータサイズはそれほど大きくする必要はありません。今年初めにOpe...

ビッグデータとクラウドコンピューティングの融合がロボット工学の未来

史上初のロボットのデザインはレオナルド・ダ・ヴィンチにまで遡ることができます。 16 世紀の変わり目...

次世代IoTシステムにおける環境CV技術

現在、コンピューター ビジョン (CV) テクノロジは転換点を迎えており、主要なトレンドが収束して、...

...

機械学習 = 「新しいボトルに入った古いワイン」の統計?いいえ!

最近、ディープラーニングと人工知能に関するジョークがソーシャルメディア上で広く流布しており、この2つ...

トップ 10 の AI フレームワークとリポジトリのレビュー、その長所と短所の分析

[51CTO.com クイック翻訳] 人工知能は決して新しいものではありませんが、科学の分野では古く...

マジック: メモリプーリングと分散 AI クラスターの最適化

[[429309]]分散機械学習が登場した理由は非常に単純です。一方では、トレーニングに利用できるデ...

人工知能開発の現状と将来動向の分析

人工知能、またはよく「AI」(英語の正式名称:Artificial Intelligence)と呼ば...

AIの「ショートカット」がシミュレーションを数十億倍高速化

[[314916]]シミュレーターは、NASA がエアロゾル モデルを使用してオーストラリアの火災に...