この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 最近、Meta AIはそのような「雑食」を立ち上げました 画像、ビデオ、3D データなど、さまざまな視覚的モダリティからのデータを分類できる(Omnivore)モデル。 たとえば、左端の画像に直面すると、深度マップ、単焦点 3D 画像、ビデオ データセットから最も一致する結果を収集できます。 以前は、これを異なるモデルを使用して実現する必要がありましたが、現在は1 つのモデルだけで実行できます。 さらに、Omnivore はトレーニングが容易で、すぐに利用できる標準データセットを使用することで、対応する単一モデルと同等かそれ以上のパフォーマンスを実現できます。 実験結果によると、Omnivore は、 ImageNet画像分類データセットで86.0% 、 Kineticsデータセットの動作認識で84.1% 、 SUN RGB-Dデータセットのシングルビュー 3D シーン分類で67.1%の精度を達成できます。 さらに、Omnivore は、クロスモーダル認識を実装する際に、モダリティ間の対応にアクセスする必要はありません。 あらゆる視覚的モダリティを食べることができる雑食動物Omnivore は Transformer アーキテクチャに基づいており、このアーキテクチャ独自の柔軟性を備え、さまざまなモダリティでの分類タスク向けに共同でトレーニングされています。 モデルのアーキテクチャは次のとおりです。 Omnivore は、入力画像、ビデオ、および単一ビューの 3D 画像を埋め込みに変換し、Transformer に送ります。 パッチ埋め込みを処理するために任意のビジョン トランスフォーマー アーキテクチャを使用することは可能ですが、画像およびビデオ タスクにおけるSwin トランスフォーマーの強力なパフォーマンスを考慮して、このアーキテクチャがここでは基本モデルとして使用されます。 具体的には、Omnivore は画像をパッチに、ビデオを時空間チューブに、単一ビューの 3D 画像を RGB パッチと深度パッチに変換します。 次に、線形レイヤーを使用してパッチを埋め込みにマッピングします。 RGB パッチには同じ線形レイヤーが使用され、深度パッチには別のレイヤーが使用されます。 一般的に、すべての視覚モードは埋め込みを通じて共通の形式に変換され、その後、一連の時空間アテンション操作を使用して、さまざまな視覚モードの統一された表現が構築されます。 研究者らは、ImageNet-1K データセット、Kinetics-400 データセット、SUN RGB-D データセットでさまざまな Omnivore モデルを共同でトレーニングしました。 このアプローチは、マルチタスク学習やクロスモーダルアライメントに似ていますが、2 つの重要な違いがあります。 1. 入力観測値の配置については仮定が行われません(つまり、画像、ビデオ、3Dデータ間の対応については仮定が行われません) 。 2. これらのデータセットが同じラベル空間を共有するとは想定されていません。 パフォーマンスはSOTAを超える実験では、まずOmnivoreを各視覚モダリティに対応する特定のモデル(以下の表ではSpecificと表記)と比較します。 モデルサイズにはT、S、Bの3種類があります。 事前トレーニング済みのモデルは、7 つのダウンストリーム タスクで微調整されます。 画像固有のモデルは IN1K で事前トレーニングされています。ビデオ固有モデルとシングルビュー 3D 固有モデルは両方とも、事前トレーニング済みの画像固有モデルのインフレーションを使用して初期化され、それぞれ K400 と SUN RGB-D で微調整されます。 結果は、Omnivore がほぼすべての下流タスクにおいて特定のモデルと同等かそれ以上のパフォーマンスを発揮することを示しています。 その中で最大のSwin-Bは全てのタスクでSOTAを達成しました。 Omnivore を、同じモデル アーキテクチャとパラメータ数を持つ特定のモデルと比較すると、同じ結果が得られます。 Omnivore は IN1K、K400、SUN データセットで最初から共同トレーニングされますが、モダリティ固有のモデルは各データセットごとに特別にトレーニングされます。 ImageSwin モデルは最初からトレーニングされますが、VideoSwin モデルと DepthSwin モデルは ImageSwin モデルから微調整されます。 次に、画像、ビデオ、3D データ分類タスクでOmnivore とSOTA モデルを比較します。 結果は依然として良好で、Omnivore はすべての事前トレーニング タスクで SOTA モデルよりも優れたパフォーマンスを示しています(次の図は、上から下に画像、ビデオ、3D データを示しています) 。 さらに、ImageNet-1K データセット上の特定の RGB 画像の深度マップを取得したところ、Omnivore は1K 深度マップでトレーニングされていなかったにもかかわらず、意味的に同様の正解を返すことができたこともわかりました。 最後に、著者らは、この「雑食性」は従来のパターン固有のモデルに比べて大幅に改善されているが、いくつかの制限もあると述べています。 たとえば、現在はシングルビューの 3D 画像でのみ機能し、ボクセル、ポイント クラウドなどの他の 3D 表現では機能しません。 論文の宛先: コードはオープンソースです: https://github.com/facebookresearch/omnivore |
<<: 自動運転によりシェアリングエコノミーは再び普及するでしょうか?
今朝、またひとつのAI奇抜なアプリケーションが公開されました!アルゴリズムを使って女性の服を直接「脱...
自然言語処理 (NLP) システムのコアコンポーネントとして、言語モデルは単語表現と単語シーケンスの...
ナレッジグラフは NLP の未来でしょうか?今は2021年で、かつて全盛期だった多くの技術は長い間無...
Github を使用しているときに、次のプロンプトを見たことがありますか? $ gitクローンhtt...
ここでは、ブロックレベル ボックスのデフォルトの幅、幅のない絶対配置ボックス、幅のないフローティング...
コンピュータービジョンと比較すると、自然言語処理 (NLP) は長い間解決が難しい問題であると考えら...
今年5月のGoogle I/Oカンファレンスで、ピチャイ氏はGPT-4と競合する大規模モデルであるP...
[[409573]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
4月23日は第25回「世界本の日」です!今日は本を読みましたか?ゴーリキーはかつてこう言った。「本は...
[[340645]] [51CTO.com クイック翻訳] 人工知能が雇用に与える影響は、現在、さま...
人々の間には大きな違いがしばしばありますが、私たちの存在にはほぼすべての人に共通する要素が数多くあり...
機械学習面接のためのハンドブック。これだけあれば十分です。 [[348502]]機械学習やデータサイ...
ビッグデータ、自動化、ニューラルネットワークが日常語となっている世界では、人工知能とその背後にあるプ...