最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

AI がチャットできるだけでなく、「目」を持ち、絵を理解し、絵を描くことで自分自身を表現することさえできると想像してみてください。つまり、チャットしたり、写真やビデオを共有したり、相手も写真やテキストで返信したりできるということです。

最近、上海人工知能研究所は、香港中文大学マルチメディア研究所(MMLab)、清華大学、センスタイム、トロント大学などの大学や機関と共同で、多用途で強力なオープンソースのマルチモーダル生成モデルMM-Interleavedをリリースしました。これは、新たに提案されたマルチモーダル機能同期装置の助けを借りて、複数のタスクのSOTAを刷新しました。高解像度画像の詳細と微妙な意味を正確に理解する能力を持ち、任意に散在するグラフィックとテキストの入出力をサポートし、大規模モデルのマルチモーダル生成に新たなブレークスルーをもたらします。


論文アドレス: https://arxiv.org/pdf/2401.10208.pdf

プロジェクトアドレス: https://github.com/OpenGVLab/MM-Interleaved

モデルアドレス: https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain

MM-Interleaved は、魅力的な旅行日記やおとぎ話を簡単に書いたり、ロボットの操作を正確に理解したり、さらにはコンピューターや携帯電話の GUI インターフェースを分析して、独自のスタイルで美しい画像を作成したりすることができます。料理の仕方を教えたり、一緒にゲームをしたり、いつでも注文を受けるパーソナルアシスタントになったりすることもできます。では早速、結果を見てみましょう。

複雑なマルチモーダルコンテキストを簡単に理解

MM-Interleaved は、画像とテキストのコンテキストに基づいて要件を満たすテキスト応答を生成できます。果物の数学の問題を解決できます。

常識を使って、ロゴ画像が対応する会社を推測し、紹介することもできます。

赤い円でマークされた手書きのテキストも正確に認識できます。

さらに、モデルは、一連の画像によって表されるロボットの動作を直接理解できます。

Minecraft でフェンスを構築する方法:

コンテキストに基づいて、モバイル UI インターフェースでグレースケールを構成する方法を段階的にユーザーに教えることもできます。

そして、背後に隠れている飛行機を正確に見つけます。

想像力を駆使してさまざまなスタイルの画像を生成します

MM-インターリーブ モデルは、さまざまな複雑な画像生成タスクでも優れたパフォーマンスを発揮します。たとえば、ユーザーが提供した詳細な説明に基づいてグランドピアノのシルエットを生成します。

また、生成されたイメージに含めるオブジェクトやスタイルをユーザーが複数の形式で指定する場合も、MM-Interleaved フレームワークで簡単に処理できます。

たとえば、水彩画風の象を生成するには、次のようにします。

犬のスタイルで猫の絵を生成します。

ひまわりに囲まれた木造の家:

また、海の波の画像を生成する際には、コンテキストに基づいて対応するスタイルがインテリジェントに推測されます。

画像生成では空間の一貫性を考慮する

さらに驚くべきことは、MM-Interleaved には、入力されたセグメンテーション マップと対応するテキスト記述に基づいて画像を生成し、生成された画像が空間レイアウトでセグメンテーション マップと一致するようにする機能もあることです。

この機能は、画像やテキストの生成タスクにおけるモデルの優れたパフォーマンスを実証するだけでなく、ユーザーにさらに柔軟で直感的な操作エクスペリエンスを提供します。

写真とテキストによる自作記事

さらに、簡単な導入だけで、MM-Interleaved は自律的に書き込みを続け、さまざまなトピックについて意味的に一貫性のあるイラスト付きの記事を生成します。

バラに関するおとぎ話であっても:

リンゴジュースの作り方のチュートリアルガイド:

または、漫画アニメーションのストーリークリップ:

MM-Interleaved フレームワークはすべて、驚くべき創造性を発揮します。これにより、MM-Interleaved フレームワークは、無限の創造性を実現するインテリジェントなコラボレーターとなり、ユーザーが魅力的なグラフィック作品を簡単に作成できるようになります。

MM-Interleaved は、インターリーブされた画像とテキストを使用した大規模なマルチモーダル モデルのトレーニングにおける中核的な問題の解決に取り組んでいます。徹底的な研究を通じて、エンドツーエンドの新しい事前トレーニング フレームワークを提案しています。

MM-Interleavedトレーニングに基づくモデルは、パラメータが少なく、プライベートデータを使用しません。複数のゼロショットマルチモーダル理解タスクで優れたパフォーマンスを発揮するだけでなく、FlamingoやEmu2など、国内外の最新の研究成果をリードしています。

また、教師ありの微調整により、視覚的な質問応答 (VQA)、画像キャプション、参照表現の理解、セグメントから画像への生成、視覚的なストーリーテリングなど、複数の下流タスクで全体的なパフォーマンスをさらに向上させることもできます。

現在、モデルの事前トレーニング済みの重みと対応するコード実装は GitHub でオープンソース化されています。

マルチモーダル機能シンクロナイザーと新しいエンドツーエンドのトレーニングフレームワーク

MM-Interleaved は、インターリーブされた画像およびテキスト データ専用の新しいエンドツーエンドのトレーニング フレームワークを提案します。

このフレームワークは、入力としてマルチスケールの画像特徴をサポートし、画像とテキストの中間特徴に追加の制約を加えません。代わりに、次のテキスト トークンまたは次の画像を予測するという自己教師ありトレーニング目標を直接採用して、単一段階の統合された事前トレーニング パラダイムを実現します。

MM-Interleaved は、従来の方法と比較して、テキストと画像のインターリーブ生成をサポートするだけでなく、画像内のより詳細な情報を効率的にキャプチャすることもできます。

さらに、MM-Interleaved の主要な実装には、一般的なマルチモーダル機能同期装置も含まれています。

シンクロナイザーは、複数の高解像度画像のきめ細かい特徴をマルチモーダル大規模モデルと画像デコーダーに動的に注入し、テキストと画像をデコードおよび生成しながら、クロスモーダル特徴同期を実現します。

この革新的な設計により、MM-Interleaved はマルチモーダル大規模モデルの分野の開発に新たな活力を注入することができます。

複数のタスクで優れたパフォーマンスを発揮

表 1 および 3 に示すように、MM-Interleaved はゼロショットのマルチモーダル理解タスクと生成タスクの両方で優れたパフォーマンスを実現します。この成果は、フレームワークの強力な機能を実証するだけでなく、多様なタスクに取り組む際のその強力な汎用性も強調しています。


表2と表4は、MM-Interleavedをさらに微調整した後の実験結果を示しています。参照理解、セグメンテーションマップに基づく画像生成、画像とテキストのインターリーブ生成など、複数の下流タスクでのパフォーマンスも優れています。

これは、MM-Interleaved が事前トレーニング段階で優れたパフォーマンスを発揮するだけでなく、特定のタスクを微調整した後も主導的な地位を維持し、大規模なマルチモーダル モデルの広範な適用に対して信頼性の高いサポートを提供していることを示しています。

結論は

MM-Interleaved の登場は、包括的なエンドツーエンドの統合モデリングとトレーニングの実現に向けた、マルチモーダル大規模モデルの開発における重要な一歩となります。

このフレームワークの成功は、事前トレーニング段階での優れたパフォーマンスだけでなく、微調整後のさまざまな特定の下流タスクでの包括的なパフォーマンスにも反映されています。

そのユニークな貢献は、強力なマルチモーダル処理機能を実証するだけでなく、オープンソース コミュニティが新しい世代のマルチモーダル大規模モデルを構築するためのより広い可能性を切り開くことです。

MM-Interleaved は、インターリーブされた画像とテキスト データの将来の処理のための新しいアイデアとツールも提供し、よりインテリジェントで柔軟な画像とテキストの生成と理解のための強固な基盤を築きます。

このイノベーションが、より多くの分野の関連アプリケーションにさらなる驚きをもたらすことを期待しています。

<<:  アリババ北京交通大学インターンの論文が人気に! MobileAgent は、人間が携帯電話を使用する様子をシミュレートできます。ネットユーザーの皆さん、ショッピングをスピードアップして、泥を食べましょう!

>>:  Xiaohongshuのオープンソース「InstantID」は大きな効果があり、Yann LeCunに賞賛され、Githubのホットリストのトップに急上昇

ブログ    
ブログ    

推薦する

AIによる顔変えが流行っているが、Alipayはまだ安全か?公式回答

最近、AI技術を使ってアテナ・チュウ演じる黄容の顔を楊冪の顔に置き換える動画が話題になった。ネットユ...

小売業界における人工知能の応用

多くの小売業者にとって、2020年のコロナウイルスの流行は、その存続と運営に深刻な影響を及ぼしました...

2021 年に注目すべき 27 の建設技術トレンド (パート 2)

テクノロジーは建設業界にかつてないほど大きな影響を与えています。クラウドベースのコラボレーションやデ...

なぜ誰もディープラーニングの本質を明らかにしないのでしょうか? !

[[213484]]人類はゆっくりと世界の本質に近づいています。物質は単に情報パターンの担い手にす...

AI支援ツールを使用してソフトウェア要件を定義する

Userdoc は、ソフトウェア要件ド​​キュメントの作成を支援する AI 支援サービスです。最近の...

UdeskブランドアップグレードWofeng TechnologyはAIコア技術を深化させ、5つの主要製品ラインでトップ1または2戦略を全面的に推進

6月9日、「新AI、新企業サービス、新旅」Wofeng Technologyブランドアップグレードメ...

Nvidiaの生成AIスーパーチップGH200はH100の2倍の計算能力を持つ。黄仁訓:それは狂ったように推論できる

アーキテクチャの革新を待つことができず、Nvidia は生成 AI 専用のチップを「先行して」リリー...

責任ある AI 導入: IT 共生の青写真

AI ツールが合法化され、職場に導入されるようになると、人々は当然、その使用例や AI ツールに依存...

深層強化学習: 知能機械のトッププレイヤー

ラボガイドロボットがゲームの分野でもスーパーマスターになれると想像したことがありますか?あなたの夢を...

JavaScript アルゴリズムを使用するための 6 つの実用的なヒント

[[208068]] 1. 2つの数値を入れ替える通常、2 つの数値の値を交換する方法としては、新し...

TuSimpleはAIと自動運転に注力し、時価総額84億ドル超でナスダックに正式に上場した。

海外メディアの報道によると、人工知能(AI)と自動運転の企業TuSimpleが株式コード「TSP」で...

機械学習の世界的ゴッドファーザーであるトム・ミッチェルは、スクワールAIラーニングに入社すると発表した。

トム・ミッチェル教授は、スクワレルAIラーニングからの最高AI責任者としての招待を受け入れたことを正...

仕事の未来に向けたスマートデバイスの準備

パンデミック以前は、スマートデバイスは接続できなかった可能性があります。しかし、従業員が自宅からログ...

...