ビッグデータ時代のデータセット蒸留:大規模データセットでの最初の成功

ビッグデータ時代のデータセット蒸留:大規模データセットでの最初の成功

11月30日、世界初の人工知能大学であるモハメド・ビン・ザイド人工知能大学(MBZUAI)は、arXivプレプリントプラットフォームで「大規模データ時代のデータセット蒸留」と題する論文を公開した。

データ蒸留のアプリケーションと現在の課題

データセット蒸留は、コンピューター ビジョンや自然言語処理のさまざまな分野で広く注目を集めています。

データセット蒸留の目的は、大規模なデータセットから小さいながらも代表的なサブセットを生成し、モデルを効率的にトレーニングしながら、元のテスト データの分布を評価して良好なパフォーマンスを実現することです。

データセットの蒸留という概念は、データとモデルのサイズが拡大し続けるビッグデータの時代にはさらに重要になります。データセットは多くの場合非常に大きく、保存、計算、処理に課題をもたらすためです。

一般的に、データセット蒸留は公平な競争の場を提供し、計算リソースとストレージリソースが限られている研究者でも、ビッグデータとビッグモデルの現在の体制で手頃な価格の ChatGPT や Stable Diffusion などの最先端のベースモデルトレーニングとアプリケーション開発に参加できるようになります。さらに、抽出されたデータセットを使用すると、元の個人を特定できるデータ ポイントを抽出バージョンから除外できるため、データ プライバシーに関する懸念を軽減できます。

最近、さまざまな研究・応用分野で大規模モデルやビッグデータを採用する傾向が顕著になっています。しかし、これまでのデータセット蒸留方法の多くは、主に CIFAR、Tiny-ImageNet、ダウンサンプリングされた ImageNet-1K などのデータセットを対象としており、そのフレームワークを完全な ImageNet-1K などのより大きなデータセットに拡張することは困難です。これは、これらの方法が現代の進歩や主流の方法論に沿ってまだ完全に進化していないことを示唆しています。

さまざまな大規模データセットを抽出し、これまでのすべての方法を上回るパフォーマンスを発揮します

これまでの多くの研究は、トレーニングの重みの軌跡、勾配、特徴/BatchNorm 分布などのマッチングなど、元のデータセットのさまざまな側面と一貫性を保つことを目的としています。

この研究では、研究者らは、さまざまな大規模データセットを抽出して、これまでのすべての方法を上回る最先端の精度を達成する方法を実証しました。

ここで、MBZUAI の研究者は、ImageNet-1K データセットを超えて焦点を広げ、従来の 224×224 の解像度で完全な ImageNet-21K という未知の領域に踏み込みます。これは、データセットの蒸留というタスクのために、このような膨大なデータセットを処理するという先駆的な取り組みとなります。そのアプローチは、シンプルでありながら効果的なカリキュラム学習フレームワークを活用します。私たちは各側面に細心の注意を払い、ImageNet-21K 全体を効率的にトレーニングし、包括的な知識を確実に獲得するための強力な戦略を開発します。

具体的には、これまでの研究に従って、この方法では最初に、元のデータセットからの知識をその密なパラメータにカプセル化するモデルをトレーニングします。しかし、研究者らは、ImageNet-21K における Ridnik らの結果を上回る、洗練されたトレーニング スキームを導入しました。

データの回復/合成フェーズでは、研究者はポリシー学習スキームを使用して、領域の難易度に基づいて部分的な画像クロップを順次更新します。つまり、簡単なものから難しいものへ、またはその逆へと移行します。このプロセスは、さまざまなトレーニング反復における RandomReiszedCrop データ拡張の下限と上限を調整することによって調整されます。

データ合成プロセスでは、シンプルでありながら効果的なカリキュラム データ拡張 (CDA) が導入され、大規模な ImageNet-1K および 21K で IPC (画像クラスあたり) 50 で 63.2%、IPC 20 で 36.1% の精度を達成しました。

注目すべきことに、研究者たちは、この単純な学習アプローチによって合成データの品質が大幅に向上したことを観察しました。この論文では、研究者らはカリキュラム学習フレームワークに関連して、データ統合のための 3 つの学習パラダイムを詳しく検討しています。 1 つ目は標準カリキュラム学習であり、2 つ目はその代替である逆カリキュラム学習です。最後に、基本的な、およびこれまで使用されてきた継続的な学習方法について検討します。

最後に、すべての拡張機能を統合することで、提案モデルは、ImageNet-1K/21K で現在の最先端モデルよりも 4% 以上高い Top-1 精度を達成し、フルデータでトレーニングされたモデルと比較して、絶対値で初めてそのギャップを 15% 未満に狭めることを示します。

さらに、この研究は、大規模な ImageNet-21K データセットを標準の 224×224 解像度で抽出することに初めて成功したことを示しています。

そのコードと、20 IPC および 2K リカバリ バジェットを備えた改良された ImageNet-21K データセットは、 GitHubで入手できます

<<:  機械学習: 教師なし学習: 9 つのクラスタリング アルゴリズム

>>:  DeepMindがAIツールGNoMEをリリース、220万個の新しい結晶材料を発見したと主張

ブログ    
ブログ    
ブログ    

推薦する

メディア分野における人工知能の革新は期待に値する

過去 30 年間にわたり、この種のイノベーションの歴史に残る例は数多くありました。ウェブサイト上のメ...

...

Metaが人工知能チャットボット「Meta AI」をリリース

Meta は、Meta AI と呼ばれる人工知能チャットボットをリリースしました。ザッカーバーグ氏は...

百度研究所が新しいAIツールを発表:10分以内に記事を自動的に動画に変換可能

[[322859]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

PyCaret: 機械学習モデルの開発が簡単に

今日の急速に変化するデジタル世界では、組織はローコード/ノーコード (LC/NC) アプリケーション...

...

ドライバー疲労モニタリングシステムの開発動向に関する簡単な分析

車両に先進運転支援システムが搭載されることで、ドライバーの安全性と快適性がさらに向上しました。先進運...

人工知能は電子商取引の分野でどのような応用が期待できるでしょうか?

科学技術と経済社会の急速な発展に伴い、人工知能の応用はますます一般的になり、その発展は私たちの仕事や...

...

旅行業界における機械学習と AI: 5 つの重要な業界ユースケース

この利便性は、近年旅行、観光、ホスピタリティ業界が積極的に導入している機械学習と人工知能の技術がなけ...

9つの主要な回帰アルゴリズムと例のまとめ

線形回帰は、多くの場合、機械学習やデータサイエンスで最初に学ぶアルゴリズムです。シンプルでわかりやす...

AIがあなたが何歳で死ぬかを予測?トランスフォーマーの「占い」がネイチャーのサブジャーナルに掲載され、事故死の予測に成功

AIは本当に科学的に占いができるんですね! ?デンマーク工科大学(DTU)の研究者らは、各人の死亡の...

...

Python のデータ構造とアルゴリズム - 優先度キュー

[[405132]]序文キュー ライブラリは、マルチスレッド プログラミングに適した先入れ先出し (...