ビッグデータ時代のデータセット蒸留:大規模データセットでの最初の成功

ビッグデータ時代のデータセット蒸留:大規模データセットでの最初の成功

11月30日、世界初の人工知能大学であるモハメド・ビン・ザイド人工知能大学(MBZUAI)は、arXivプレプリントプラットフォームで「大規模データ時代のデータセット蒸留」と題する論文を公開した。

データ蒸留のアプリケーションと現在の課題

データセット蒸留は、コンピューター ビジョンや自然言語処理のさまざまな分野で広く注目を集めています。

データセット蒸留の目的は、大規模なデータセットから小さいながらも代表的なサブセットを生成し、モデルを効率的にトレーニングしながら、元のテスト データの分布を評価して良好なパフォーマンスを実現することです。

データセットの蒸留という概念は、データとモデルのサイズが拡大し続けるビッグデータの時代にはさらに重要になります。データセットは多くの場合非常に大きく、保存、計算、処理に課題をもたらすためです。

一般的に、データセット蒸留は公平な競争の場を提供し、計算リソースとストレージリソースが限られている研究者でも、ビッグデータとビッグモデルの現在の体制で手頃な価格の ChatGPT や Stable Diffusion などの最先端のベースモデルトレーニングとアプリケーション開発に参加できるようになります。さらに、抽出されたデータセットを使用すると、元の個人を特定できるデータ ポイントを抽出バージョンから除外できるため、データ プライバシーに関する懸念を軽減できます。

最近、さまざまな研究・応用分野で大規模モデルやビッグデータを採用する傾向が顕著になっています。しかし、これまでのデータセット蒸留方法の多くは、主に CIFAR、Tiny-ImageNet、ダウンサンプリングされた ImageNet-1K などのデータセットを対象としており、そのフレームワークを完全な ImageNet-1K などのより大きなデータセットに拡張することは困難です。これは、これらの方法が現代の進歩や主流の方法論に沿ってまだ完全に進化していないことを示唆しています。

さまざまな大規模データセットを抽出し、これまでのすべての方法を上回るパフォーマンスを発揮します

これまでの多くの研究は、トレーニングの重みの軌跡、勾配、特徴/BatchNorm 分布などのマッチングなど、元のデータセットのさまざまな側面と一貫性を保つことを目的としています。

この研究では、研究者らは、さまざまな大規模データセットを抽出して、これまでのすべての方法を上回る最先端の精度を達成する方法を実証しました。

ここで、MBZUAI の研究者は、ImageNet-1K データセットを超えて焦点を広げ、従来の 224×224 の解像度で完全な ImageNet-21K という未知の領域に踏み込みます。これは、データセットの蒸留というタスクのために、このような膨大なデータセットを処理するという先駆的な取り組みとなります。そのアプローチは、シンプルでありながら効果的なカリキュラム学習フレームワークを活用します。私たちは各側面に細心の注意を払い、ImageNet-21K 全体を効率的にトレーニングし、包括的な知識を確実に獲得するための強力な戦略を開発します。

具体的には、これまでの研究に従って、この方法では最初に、元のデータセットからの知識をその密なパラメータにカプセル化するモデルをトレーニングします。しかし、研究者らは、ImageNet-21K における Ridnik らの結果を上回る、洗練されたトレーニング スキームを導入しました。

データの回復/合成フェーズでは、研究者はポリシー学習スキームを使用して、領域の難易度に基づいて部分的な画像クロップを順次更新します。つまり、簡単なものから難しいものへ、またはその逆へと移行します。このプロセスは、さまざまなトレーニング反復における RandomReiszedCrop データ拡張の下限と上限を調整することによって調整されます。

データ合成プロセスでは、シンプルでありながら効果的なカリキュラム データ拡張 (CDA) が導入され、大規模な ImageNet-1K および 21K で IPC (画像クラスあたり) 50 で 63.2%、IPC 20 で 36.1% の精度を達成しました。

注目すべきことに、研究者たちは、この単純な学習アプローチによって合成データの品質が大幅に向上したことを観察しました。この論文では、研究者らはカリキュラム学習フレームワークに関連して、データ統合のための 3 つの学習パラダイムを詳しく検討しています。 1 つ目は標準カリキュラム学習であり、2 つ目はその代替である逆カリキュラム学習です。最後に、基本的な、およびこれまで使用されてきた継続的な学習方法について検討します。

最後に、すべての拡張機能を統合することで、提案モデルは、ImageNet-1K/21K で現在の最先端モデルよりも 4% 以上高い Top-1 精度を達成し、フルデータでトレーニングされたモデルと比較して、絶対値で初めてそのギャップを 15% 未満に狭めることを示します。

さらに、この研究は、大規模な ImageNet-21K データセットを標準の 224×224 解像度で抽出することに初めて成功したことを示しています。

そのコードと、20 IPC および 2K リカバリ バジェットを備えた改良された ImageNet-21K データセットは、 GitHubで入手できます

<<:  機械学習: 教師なし学習: 9 つのクラスタリング アルゴリズム

>>:  DeepMindがAIツールGNoMEをリリース、220万個の新しい結晶材料を発見したと主張

ブログ    
ブログ    

推薦する

AIは「GitHub危機」を乗り越えられるか?

機械学習は現在、この分野の急速な発展を妨げるいくつかの危機に直面しています。これらの危機は、より広範...

人工知能について知っておくべきことすべて

人工知能は今日最も話題になっている技術の一つです。しかし、それは正確には何でしょうか?なぜ気にする必...

クラウドコンピューティング、ビッグデータ、AI の関係と違いを 1 つの記事で理解する

クラウドコンピューティング、ビッグデータ、人工知能という言葉は誰もが聞いたことがあると思いますが、こ...

HTTPS の暗号化アルゴリズムに関連する概念

[[176353]]暗号化はコンピュータサイエンスで広く使用されており、HTTPS は暗号化に基づい...

ドイツ企業の47%は、人工知能の最大の利点は生産効率の向上であると考えている。

ドイツ連邦政府は2018年に「ドイツ人工知能開発戦略」を発表し、人工知能分野におけるドイツの研究開発...

ヘルスケアにおける IoT と AI

IoT 対応デバイスの登場により、医療における遠隔モニタリングが可能になりました。ほぼすべての大手...

...

...

顔認識が「トレンド」になったら、少なくとも私たちには選択する権利があるはずです。

【CNMO】「東莞でトイレットペーパーを買うのに顔認証が必要」「94歳の男性が顔認証で逮捕」「南寧...

Python コーディング面接の前に解くべき 10 個のアルゴリズム

アルゴリズムの練習がなぜ重要なのか?私が最初に問題を解き始めたときのように世間知らずにならないでくだ...

NvidiaとGenentechがAIを活用して新薬発見を加速させる提携

Nvidia はバイオテクノロジー大手の Genentech と提携し、生成 AI を含む最先端の人...

手書き認識のための単層基本ニューラルネットワーク

[[214992]]まず、コードテンソルフローをインポートする tensorflow.example...

フロントエンド人工知能: 機械学習による関数方程式の導出 - プラチナ III

[[259734]] tensorflow.jsとはTensorflow.js は、ブラウザーと ...

AIアラインメントを説明する4万語:北京大学と複数の大学チームがアラインメントの包括的なレビューを発表

論文(継続的に更新):arxiv.org/abs/2310.19852 AI アライメント概要ウェブ...