この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 ViT はコンピューター ビジョンの分野で大きな成功を収めており、CNN に取って代わる可能性さえあります。 しかし、CNN と比較すると、ViT のトレーニングにはより多くのデータが必要であり、通常は大規模なデータセット JFT-300M または少なくとも ImageNet で事前トレーニングされており、少量のデータで ViT をトレーニングすることを研究した人はほとんどいません。 最近、南京大学のWu Jianxin 氏のチームは、ViT をトレーニングするのに 2040 枚の画像しか必要としない新しい方法を提案しました。 彼らは 2040 枚の花の画像をゼロからトレーニングし、96.7% の精度を達成しました。これは、少量のデータで ViT をトレーニングすることが可能であることを示しています。 さらに、ViT バックボーンの下にある 7 つの小さなデータセットで最初からトレーニングしたときにも、SOTA の結果が達成されました。 さらに重要なことは、小さなデータセットで事前トレーニングした場合でも、 ViT は優れた転移性を備えており、大規模なデータセットでのトレーニングも容易にできることを実証したことです。 論文内容この論文では、著者らはIDMM (インスタンス 差別 マルチクロップとカットミックス)。 まず、ViT 画像分類ネットワークの基本的なアーキテクチャを見てみましょう。 画像サンプルxᵢ(i = 1, 2, …, N; Nは画像の数)をViTに入力し、出力表現zᵢのセットを取得します。 wⱼはj番目のカテゴリの重みです。 次に、クラス数がトレーニング画像の総数 N に等しい場合、つまりインスタンスの識別がパラメータ化されている場合、完全に接続された層 W が分類に使用されます。 クラス j の出力は次のとおりです。 O を Softmax 層に入力して確率分布 P⁽ⁱ⁾ を取得します。たとえば、識別の場合、損失関数は次のようになります。 ディープクラスタリングの場合、損失関数は次のようになります。 重みが適切に設定されている限り(wⱼ = ~wₖとする)、インスタンスの識別はディープクラスタリングと同等にできることがわかります。 下の図からわかるように、インスタンス識別は他の方法と比較して、より分散した表現を学習し、クラス内の類似性をより適切に捉えることができます。 著者がパラメータ化されたインスタンス識別を選択したもう一つの重要な理由は、単純さと安定性です。 不安定性は、自己監督型 ViT トレーニングに影響を与える大きな問題です。インスタンス識別 (クロスエントロピー) の形式はより安定しており、最適化が容易です。 次に、勾配分析を開始し、重みに関する損失関数を導出します。 ここで、δ は指示関数であり、k=i の場合は値 1 をとり、それ以外の場合は 0 をとります。 インスタンス識別の場合、クラス数 N が通常大きく、インスタンス サンプルへのアクセスが極めて稀であるという問題があることに注意する必要があります。 まれにk≠iの場合、P⁽ⁱ⁾ₖ≈0、つまり∂L/∂wₖ≈0が期待できます。これはwₖが非常にまれにしか更新されないことを意味します。 小規模データセットの問題では、著者はCutMixとラベル スムージングを使用してこの問題を軽減します。 カットミックス: ラベルのスムージング: 最終的に、勾配は次のようになります。 この方法は、単一のラベルを直接変更することで重みマトリックスがより頻繁に更新される ViT 教師ありトレーニングでよく使用されます。 要約すると、著者らは小規模なデータセットでのインスタンス識別を強化するために以下の戦略を使用しました。
ターゲット データセットで最初から直接トレーニングする必要がある理由について、著者は次の 3 つの理由を挙げています。 1.データ 現在の ViT モデルは通常、大規模なデータセットで事前トレーニングされ、その後さまざまな下流タスクで微調整されます。畳み込みの典型的な帰納的バイアスがないため、これらのモデルは通常の CNN よりもデータ集約的です。 したがって、画像の量が限られたタスクでは、ViT を最初からトレーニングすることが重要です。 2.計算能力 大規模なデータセット、時間がかかり複雑なバックボーン ネットワークにより、ViT トレーニングの計算コストは非常に高くなります。この現象により、ViT は少数の機関の研究者にとっての特権となります。 3.柔軟性 事前にトレーニングしてから下流で微調整するモデルは、時々問題が発生することがあります。 たとえば、同じタスクに対して 10 個の異なるモデルをトレーニングし、それらを異なるハードウェア プラットフォームに展開する必要がある場合がありますが、大規模なデータセットで 10 個のモデルを事前トレーニングすることは現実的ではありません。 上の図では、ImageNet の事前トレーニング済みモデルでは、ゼロからトレーニングする場合と比較して、より多くのパラメーターと計算コストが必要であることが明らかです。 小さなデータセットで事前トレーニングした場合の転送可能性。各セルと列の最高精度の要素には、それぞれ下線と太字が表示されます。 最後に、以下の表では、著者らはさまざまなデータセットでの事前トレーニング済みモデルの転送精度を評価しています。 対角線上のユニット(灰色)は、同じデータセットで事前トレーニングおよび微調整されています。対角線の外側のセルは、これらの小さなデータセットの転送パフォーマンスを評価します。 この表から、次の点がわかります。
著者についてこの記事の第一著者は南京大学博士課程の曹雲豪氏であり、責任著者は南京大学人工知能学院の呉建新教授である。 Wu Jianxin 氏は、南京大学でコンピューターサイエンスの学士号と修士号を取得し、ジョージア工科大学で博士号を取得しました。 2013年、南京大学理工学部に教授および博士課程の指導者として加わりました。ICCV 2015およびCVPR 2017のフィールドチェアを務め、現在はジャーナル「Pattern Recognition」の編集委員を務めています。 |
>>: コードが分かりませんか? AIが人間の言語で翻訳します
テレンス・タオ氏は、ChatGPT が数学的証明を覆すだろうと常に楽観的でしたが、現在、化学分野にお...
画像処理の分野では、AIブラシがますます目立つようになってきています。以前、AIロスレス画像拡大、A...
著者 |馬斌映像データに関しては、コンピュータビジョン技術を通じて関連データを活用し、ユーザーや企業...
[[221538]]人工知能とは何ですか? 「第一次産業革命における蒸気機関、第二次産業革命における...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
次のことは直感に反するように思えるかもしれません: AI が現実世界のアプリケーション シナリオに適...
ChatGPTに代表される大型モデル製品は新たな産業革命を先導し、国内外の機関が関連技術研究に積極的...
[51CTO.comより引用] eスポーツは近年最も急速に発展した競技スポーツのユニークな分野として...
背景LinkedHashMap は HashMap を継承し、内部的に removeEldestEn...
どのような知識が私たちを賢くするのでしょうか?私たちが世界を理解し、新しい経験を解釈し、思慮深い選択...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
最近、CCTVニュースによると、中国は2月末までに計画通り5Gネットワーク構築の80%を完了した...