人間の学習を模倣した、データセット拡張の新しいパラダイム GIF フレームワークが登場

論文リンク: https://browse.arxiv.org/pdf/2211.13976.pdf
GitHub: https://github.com/Vanint/DatasetExpansion

周知のとおり、ディープニューラルネットワークのパフォーマンスはトレーニングデータの量と品質に大きく依存するため、ディープラーニングを小規模なデータタスクに広く適用することは困難です。たとえば、医療などの分野における小規模なデータ応用シナリオでは、大規模なデータセットを手動で収集してラベル付けすることは、多くの場合、時間がかかり、労力がかかります。このデータ不足の問題に対処し、データ収集のコストを最小限に抑えるために、本論文では、新しいデータを自動的に生成して、対象タスクの小さなデータセットをより大きく、より情報量の多いデータセットに拡張することを目的とした、データセット拡張の新しいパラダイムを検討します。これらの拡張データセットは、モデルのパフォーマンスと一般化能力の向上を目的としており、さまざまなネットワーク構造のトレーニングに使用できます。

この研究では、既存の方法を使用するだけではデータセットを効果的に拡張できないことが判明しました。（１）ランダムデータ拡張は主に画像の表面的な視覚的特徴を変化させるものであり、新たな物体内容を持つ画像を作成することはできない（例えば、下図の蓮はそのままであり、新たな蓮は生成されない）。そのため、導入される情報量は限られている。さらに深刻なのは、ランダムなデータ拡張によって医療画像の病変（変異）の位置が切り取られ、サンプルの重要な情報が削減されたり、ノイズの多いデータが生成されたりすることです。（２）事前学習済みの生成（拡散）モデルを直接使用してデータセットを拡張しても、対象タスクにおけるモデルのパフォーマンスを効果的に向上させることはできない。これは、これらの生成モデルの事前トレーニングデータは、ターゲットデータとの分布の差が大きいことが多く、生成したデータとターゲットタスクの間に一定の分布とカテゴリのギャップが生じ、生成されたサンプルに正しいカテゴリラベルが付いていて、モデルのトレーニングに有益であることを保証できないためです。

データセットをより効果的に拡張するために、この研究では人間の連想学習を調査しています。つまり、ある物体が与えられると、人間は蓄積された事前知識を使用して、その物体のさまざまなバリエーション（下の写真の犬など）をさまざまなタイプ、色、形、背景で簡単に想像することができます。この想像力豊かな学習プロセスは、単に写真内の動物の外観を変えるだけでなく、豊富な事前知識を適用して新しい情報を含むさまざまな写真を作成するため、データセットの拡張に非常に役立ちます。

しかし、データ想像力のための事前モデルとして人間を直接モデル化することはできません。幸いなことに、最近の生成モデル (Stable Diffusion、DALL-E2 など) は、大規模なデータセットの分布に適合し、豊かでリアルな画像を生成する優れた能力を実証しています。この論文では、事前にトレーニングされた生成モデルを事前モデルとして使用し、その強力な事前知識を活用して、小さなデータセットを効率的に関連付けて増幅するというアイデアが生まれました。

上記のアイデアに基づいて、この研究では新しいガイド付き想像力フレームワーク (GIF) を提案します。この方法は、自然画像や医療画像タスクにおけるディープニューラルネットワークの分類性能と一般化能力を効果的に向上させ、手動によるデータ収集とラベル付けによって生じる膨大なコストを大幅に削減します。同時に、拡張されたデータセットは、モデルの転移学習を促進し、ロングテールの問題を軽減するのにも役立ちます。

次に、データセット拡張のこの新しいパラダイムがどのように設計されているかを見てみましょう。

方法

データセット拡張の課題とガイドラインデータセット拡張方法を設計する上で、2つの重要な課題があります。(1) 生成されたサンプルに正しいカテゴリラベルを付けるにはどうすればよいか? （２）生成されたサンプルにモデルのトレーニングを容易にするための新しい情報が含まれていることをどのように確認するか？これら2つの課題に対処するため、本研究では広範な実験を通じて、（1）カテゴリー一貫性情報の強化、および（2）サンプル多様性の向上という2つの増幅ガイダンス基準を発見しました。

方法論的枠組み発見された増幅ガイダンス基準に基づいて、この研究ではガイド付き想像力増幅フレームワーク (GIF) を提案します。各入力シードサンプル x に対して、GIF はまず前世代モデルの特徴抽出器を使用してサンプル特徴 f を抽出し、次に特徴に対してノイズ摂動を実行します。ノイズ (z, b) を設定する最も簡単な方法はガウスランダムノイズを使用することですが、生成されたサンプルに正しいカテゴリラベルが付けられ、より多くの情報が得られることを保証することはできません。したがって、効果的なデータセット拡張のために、GIF は発見された拡張ガイダンス基準に基づいてノイズ摂動を最適化します。

使用された増幅ガイダンス基準は次のように実装されました。クラス一貫性情報インデックス: ; サンプル多様性インデックス: 。これら 2 つの指標を最大化することで、GIF はノイズの摂動を効果的に最適化し、カテゴリの一貫性を維持し、より多くの情報をもたらすサンプルを生成できます。

実験

拡張された有効性GIF はより強力な拡張有効性を備えています。GIF-SD は、6 つの自然データセットで分類精度を平均 36.9% 向上させ、3 つの医療データセットで分類精度を平均 13.5% 向上させます。

拡張効率GIF はより強力な増幅効率を備えています。Cars および DTD データセットでは、GIF-SD を使用した 5 倍の増幅の効果は、ランダムデータ拡張を使用した 20 倍の増幅の効果を上回ります。

視覚化の結果既存のデータ拡張方法では新しい画像コンテンツを生成できませんが、GIF では新しいコンテンツを含むサンプルをより適切に生成できます。

既存の強調方法では、医療画像の病変の位置まで切り取られ、サンプル情報やノイズが減少する結果になりますが、GIF ではカテゴリの意味をより適切に保持できます。

計算コストと時間コスト手動によるデータ収集と注釈付けと比較して、GIF を使用するとデータセット拡張の時間とコストを大幅に削減できます。

拡張データの汎用性拡張されたデータセットは、さまざまなニューラルネットワークモデル構造のトレーニングに直接使用できます。

モデルの一般化能力の向上GIF は、モデルの分布外一般化パフォーマンス (OOD 一般化) の向上に役立ちます。

ロングテール問題の緩和GIF はロングテール問題の緩和に役立ちます。

セキュリティチェックGIF 生成された画像は安全で無害です。

上記の実験結果に基づいて、人間の類推と想像力の学習をシミュレートすることにより、本論文で設計された方法は、小さなデータセットを効果的に拡張し、それによって小さなデータタスクシナリオでのディープニューラルネットワークの実装とアプリケーションを改善できると信じる理由があります。

<<: コンピューティング要件が 1% 削減されました。清華大学が初めて「二値化スペクトル再構成アルゴリズム」を提案、コードは完全オープンソース｜NeurIPS 2023

>>: 「3D ガウス」バージョンですべてをセグメント化: ミリ秒単位で 3D セグメンテーション、1,000 倍高速

このAI「マスターレベル」の棒人間レベルはネットユーザーを驚かせた。GANすら使っていない

人間の学習を模倣した、データセット拡張の新しいパラダイム GIF フレームワークが登場

方法

実験

このAI「マスターレベル」の棒人間レベルはネットユーザーを驚かせた。GANすら使っていない

人々は長い間、運転免許試験に悩まされてきました。自動運転は、その苦しみを緩和できるのでしょうか？

Amazon が「AI チケット」を購入するために 40 億ドルを費やす!ユニコーン企業に投資し、ライバル企業から幹部を引き抜く

人間的な顧客サービスを必要とするのは高齢者だけではない

AI インフラストラクチャスタックをわかりやすく解説し、AI プロジェクトをより迅速に展開

テクノロジー企業は、自動運転車市場に参入するための魅力的なビジネスモデルをまだ欠いている。

オープンソースのAIがディープラーニングを使用して、顔の表情の特徴に基づいて画像のキャプションを生成

15人の専門家が予測：AIは2024年にサイバーセキュリティのルールを変える

推薦する

アリババのPingtouge Xuantie CPUが重要な進歩を遂げました。RISC-V + Android 12 AIサポートを初めて実現しました。

機械学習における 5 つの現実的な問題とビジネスへの影響

AI と SEO の組み合わせ: 祝福か呪いか?

さようなら鉄丼！もう一つの業界が混乱に陥っています!中国建設銀行が正式に発表

テンセント AI ラボが初の自動モデル圧縮フレームワークのソースを公開: ディープラーニングをポケットに

恥ずかしい！ ChatGPT を使用して論文を書いたのですが、生成ボタンを削除するのを忘れました。出版社から「論文を撤回します」と言われました。

李開復氏：将来、人間の仕事の半分はAIに奪われるが、失業しない分野は2つだけ

AI面接官はこんなに簡単に騙される！本棚の写真を動画の背景として使用すると好感度が 15% 上昇します

待ちに待った！ ByteDance初の大規模モデル製品「Doubao」が公開テスト可能、招待コードは不要！

アルゴリズム取引におけるビッグデータ分析の活用

従来の銀行は人工知能をどのように活用しているのでしょうか? ——2017年中国国際金融博覧会で光り輝く民生銀行の技術革新に関するメモ

建設業界における人工知能の応用

中国科学院研究員蔡少偉：SATソルバーEDA基本エンジン