最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

AI がチャットできるだけでなく、「目」を持ち、絵を理解し、絵を描くことで自分自身を表現することさえできると想像してみてください。つまり、チャットしたり、写真やビデオを共有したり、相手も写真やテキストで返信したりできるということです。

最近、上海人工知能研究所は、香港中文大学マルチメディア研究所(MMLab)、清華大学、センスタイム、トロント大学などの大学や機関と共同で、多用途で強力なオープンソースのマルチモーダル生成モデルMM-Interleavedをリリースしました。これは、新たに提案されたマルチモーダル機能同期装置の助けを借りて、複数のタスクのSOTAを刷新しました。高解像度画像の詳細と微妙な意味を正確に理解する能力を持ち、任意に散在するグラフィックとテキストの入出力をサポートし、大規模モデルのマルチモーダル生成に新たなブレークスルーをもたらします。


論文アドレス: https://arxiv.org/pdf/2401.10208.pdf

プロジェクトアドレス: https://github.com/OpenGVLab/MM-Interleaved

モデルアドレス: https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain

MM-Interleaved は、魅力的な旅行日記やおとぎ話を簡単に書いたり、ロボットの操作を正確に理解したり、さらにはコンピューターや携帯電話の GUI インターフェースを分析して、独自のスタイルで美しい画像を作成したりすることができます。料理の仕方を教えたり、一緒にゲームをしたり、いつでも注文を受けるパーソナルアシスタントになったりすることもできます。では早速、結果を見てみましょう。

複雑なマルチモーダルコンテキストを簡単に理解

MM-Interleaved は、画像とテキストのコンテキストに基づいて要件を満たすテキスト応答を生成できます。果物の数学の問題を解決できます。

常識を使って、ロゴ画像が対応する会社を推測し、紹介することもできます。

赤い円でマークされた手書きのテキストも正確に認識できます。

さらに、モデルは、一連の画像によって表されるロボットの動作を直接理解できます。

Minecraft でフェンスを構築する方法:

コンテキストに基づいて、モバイル UI インターフェースでグレースケールを構成する方法を段階的にユーザーに教えることもできます。

そして、背後に隠れている飛行機を正確に見つけます。

想像力を駆使してさまざまなスタイルの画像を生成します

MM-インターリーブ モデルは、さまざまな複雑な画像生成タスクでも優れたパフォーマンスを発揮します。たとえば、ユーザーが提供した詳細な説明に基づいてグランドピアノのシルエットを生成します。

また、生成されたイメージに含めるオブジェクトやスタイルをユーザーが複数の形式で指定する場合も、MM-Interleaved フレームワークで簡単に処理できます。

たとえば、水彩画風の象を生成するには、次のようにします。

犬のスタイルで猫の絵を生成します。

ひまわりに囲まれた木造の家:

また、海の波の画像を生成する際には、コンテキストに基づいて対応するスタイルがインテリジェントに推測されます。

画像生成では空間の一貫性を考慮する

さらに驚くべきことは、MM-Interleaved には、入力されたセグメンテーション マップと対応するテキスト記述に基づいて画像を生成し、生成された画像が空間レイアウトでセグメンテーション マップと一致するようにする機能もあることです。

この機能は、画像やテキストの生成タスクにおけるモデルの優れたパフォーマンスを実証するだけでなく、ユーザーにさらに柔軟で直感的な操作エクスペリエンスを提供します。

写真とテキストによる自作記事

さらに、簡単な導入だけで、MM-Interleaved は自律的に書き込みを続け、さまざまなトピックについて意味的に一貫性のあるイラスト付きの記事を生成します。

バラに関するおとぎ話であっても:

リンゴジュースの作り方のチュートリアルガイド:

または、漫画アニメーションのストーリークリップ:

MM-Interleaved フレームワークはすべて、驚くべき創造性を発揮します。これにより、MM-Interleaved フレームワークは、無限の創造性を実現するインテリジェントなコラボレーターとなり、ユーザーが魅力的なグラフィック作品を簡単に作成できるようになります。

MM-Interleaved は、インターリーブされた画像とテキストを使用した大規模なマルチモーダル モデルのトレーニングにおける中核的な問題の解決に取り組んでいます。徹底的な研究を通じて、エンドツーエンドの新しい事前トレーニング フレームワークを提案しています。

MM-Interleavedトレーニングに基づくモデルは、パラメータが少なく、プライベートデータを使用しません。複数のゼロショットマルチモーダル理解タスクで優れたパフォーマンスを発揮するだけでなく、FlamingoやEmu2など、国内外の最新の研究成果をリードしています。

また、教師ありの微調整により、視覚的な質問応答 (VQA)、画像キャプション、参照表現の理解、セグメントから画像への生成、視覚的なストーリーテリングなど、複数の下流タスクで全体的なパフォーマンスをさらに向上させることもできます。

現在、モデルの事前トレーニング済みの重みと対応するコード実装は GitHub でオープンソース化されています。

マルチモーダル機能シンクロナイザーと新しいエンドツーエンドのトレーニングフレームワーク

MM-Interleaved は、インターリーブされた画像およびテキスト データ専用の新しいエンドツーエンドのトレーニング フレームワークを提案します。

このフレームワークは、入力としてマルチスケールの画像特徴をサポートし、画像とテキストの中間特徴に追加の制約を加えません。代わりに、次のテキスト トークンまたは次の画像を予測するという自己教師ありトレーニング目標を直接採用して、単一段階の統合された事前トレーニング パラダイムを実現します。

MM-Interleaved は、従来の方法と比較して、テキストと画像のインターリーブ生成をサポートするだけでなく、画像内のより詳細な情報を効率的にキャプチャすることもできます。

さらに、MM-Interleaved の主要な実装には、一般的なマルチモーダル機能同期装置も含まれています。

シンクロナイザーは、複数の高解像度画像のきめ細かい特徴をマルチモーダル大規模モデルと画像デコーダーに動的に注入し、テキストと画像をデコードおよび生成しながら、クロスモーダル特徴同期を実現します。

この革新的な設計により、MM-Interleaved はマルチモーダル大規模モデルの分野の開発に新たな活力を注入することができます。

複数のタスクで優れたパフォーマンスを発揮

表 1 および 3 に示すように、MM-Interleaved はゼロショットのマルチモーダル理解タスクと生成タスクの両方で優れたパフォーマンスを実現します。この成果は、フレームワークの強力な機能を実証するだけでなく、多様なタスクに取り組む際のその強力な汎用性も強調しています。


表2と表4は、MM-Interleavedをさらに微調整した後の実験結果を示しています。参照理解、セグメンテーションマップに基づく画像生成、画像とテキストのインターリーブ生成など、複数の下流タスクでのパフォーマンスも優れています。

これは、MM-Interleaved が事前トレーニング段階で優れたパフォーマンスを発揮するだけでなく、特定のタスクを微調整した後も主導的な地位を維持し、大規模なマルチモーダル モデルの広範な適用に対して信頼性の高いサポートを提供していることを示しています。

結論は

MM-Interleaved の登場は、包括的なエンドツーエンドの統合モデリングとトレーニングの実現に向けた、マルチモーダル大規模モデルの開発における重要な一歩となります。

このフレームワークの成功は、事前トレーニング段階での優れたパフォーマンスだけでなく、微調整後のさまざまな特定の下流タスクでの包括的なパフォーマンスにも反映されています。

そのユニークな貢献は、強力なマルチモーダル処理機能を実証するだけでなく、オープンソース コミュニティが新しい世代のマルチモーダル大規模モデルを構築するためのより広い可能性を切り開くことです。

MM-Interleaved は、インターリーブされた画像とテキスト データの将来の処理のための新しいアイデアとツールも提供し、よりインテリジェントで柔軟な画像とテキストの生成と理解のための強固な基盤を築きます。

このイノベーションが、より多くの分野の関連アプリケーションにさらなる驚きをもたらすことを期待しています。

<<:  アリババ北京交通大学インターンの論文が人気に! MobileAgent は、人間が携帯電話を使用する様子をシミュレートできます。ネットユーザーの皆さん、ショッピングをスピードアップして、泥を食べましょう!

>>:  Xiaohongshuのオープンソース「InstantID」は大きな効果があり、Yann LeCunに賞賛され、Githubのホットリストのトップに急上昇

推薦する

人工知能を活用して室内装飾デザインを最適化する方法

インテリアデザインや装飾に AI を応用することで、エンジニアやインテリアデザイナーは、機械学習によ...

機械学習における欠損値に対処する9つの方法

データサイエンスはデータに関するものです。これは、あらゆるデータ サイエンスや機械学習プロジェクトの...

...

Java で実装された一貫性ハッシュ アルゴリズムの詳細な研究

一貫性ハッシュアルゴリズムコンシステントハッシュアルゴリズムについては、これまでのブログ記事で何度も...

ロボットが自律的に人間を助けるというアイデアはもはや手の届かないものではない

サイエンスフィクションネットワーク、11月18日(朱熹偉)技術の発展に伴い、さまざまな形や大きさのロ...

ブロックチェーン科学: 非対称暗号化、楕円曲線暗号

ブロックチェーン暗号化入門ブロックチェーン暗号化技術ブロックチェーン技術の応用と発展において、デジタ...

注目の話題レビュー:自動運転タクシーは商用化まであと一歩

自動運転については長い間議論されてきましたが、それが本当に人々の生活に不可欠なものになるのはいつでし...

...

深さ優先探索 (DFS) と幅優先探索 (BFS) の 2 つのアルゴリズムの詳細な説明

序文深さ優先探索 (DFS) と幅優先探索は、グラフ理論における非常に重要な 2 つのアルゴリズムで...

AIオープンクラス | データのラベル付けについてはあまりご存じないのではないでしょうか?

人工知能の分野が日々急速な発展と進歩を遂げていることは疑いの余地がありません。携帯電話の電源を入れ、...

...

人工知能

[[200702]] 250年以上にわたり、技術革新は経済発展の根本的な原動力となってきました。これ...

シングルトランスフォーマー情報検索、Google は微分可能な検索インデックスでデュアルエンコーダーモデルに勝利

情報検索 (IR) は、インターネットの誕生以来、揺るぎない地位を築いてきました。膨大なデータからユ...

清華大学の崔鵬氏:因果推論技術の最新開発動向

著者 | 真実を追求する実践主義者人工知能が発展し続けるにつれて、セキュリティとコンプライアンスの問...

日本の首相、偽情報対策にAI生成ルールを発表へ

読売新聞によると、10月8日、岸田文雄首相は明日、京都で生成型AIの活用と規制ルールを発表する予定で...