復旦大学などがAnyGPTをリリース:画像、音楽、テキスト、音声をサポートする任意のモーダル入出力

復旦大学などがAnyGPTをリリース:画像、音楽、テキスト、音声をサポートする任意のモーダル入出力

最近、OpenAIのビデオ生成モデルSoraが人気を集めており、生成AIモデルのマルチモーダル機能が再び広く注目を集めています。

現実世界は本質的にマルチモーダルであり、生物は視覚、言語、音、触覚などのさまざまなチャネルを通じて情報を認識および交換します。マルチモーダル システムを開発するための有望な方向性は、LLM のマルチモーダル認識機能を強化することです。これには主に、マルチモーダル エンコーダーと言語モデルの統合が含まれ、さまざまなモダリティにわたって情報を処理し、LLM のテキスト処理機能を活用して一貫した応答を生成できるようにします。

ただし、この戦略はテキスト生成に限定されており、マルチモーダル出力は含まれていません。いくつかの先駆的な研究は、言語モデルにおけるマルチモーダルな理解と生成を可能にすることで大きな進歩を遂げてきましたが、これらのモデルには、画像や音声などの単一の非テキスト モダリティしか含まれていません。

上記の問題を解決するために、復旦大学のQiu Xipeng氏のチームは、Multimodal Art Projection(MAP)および上海人工知能研究所の研究者と共同で、さまざまなモダリティのコンテンツを任意の組み合わせで理解および推論できるAnyGPTと呼ばれるマルチモーダル言語モデルを提案しました。具体的には、AnyGPT は、テキスト、音声、画像、音楽などの複数のモダリティが絡み合った指示を理解し、適切なマルチモーダルの組み合わせを巧みに選択して応答することができます。

たとえば、音声プロンプトが与えられた場合、AnyGPT は音声、画像、音楽の形式で包括的な応答を生成できます。

テキスト + 画像の形式でプロンプトが与えられると、AnyGPT はプロンプトの要件に従って音楽を生成できます。


  • 論文アドレス: https://arxiv.org/pdf/2402.12226.pdf
  • プロジェクトのホームページ: https://junzhan2000.github.io/AnyGPT.github.io/

方法の紹介

AnyGPT は離散表現を利用して、音声、テキスト、画像、音楽などのさまざまなモダリティを均一に処理します。

あらゆるモダリティからあらゆるモダリティへの画像生成タスクを完了するために、本研究では統一された方法でトレーニングできる包括的なフレームワークを提案しました。下の図 1 に示すように、フレームワークは次の 3 つの主要コンポーネントで構成されています。

  • マルチモーダルトークナイザー
  • バックボーンネットワークとしてのマルチモーダル言語モデル
  • マルチモーダルデトークン化

その中で、トークナイザーは連続した非テキスト モダリティを個別のトークンに変換し、それをマルチモーダル インターリーブ シーケンスに配置します。次に、次のトークン予測トレーニング目標を使用して言語モデルをトレーニングします。推論中、マルチモーダル トークンは、関連付けられたデトークナイザーによって元の表現にデコードされます。生成の品質を高めるために、音声クローン作成や画像の超解像度などのアプリケーションを含む、生成された結果を後処理するマルチモーダル拡張モジュールを導入できます。

AnyGPT は、現在の Large Language Model (LLM) アーキテクチャやトレーニング パラダイムを変更することなく、安定してトレーニングできます。代わりに、データ レベルの前処理に完全に依存しているため、新しい言語を追加するのと同様に、新しいモダリティを LLM にシームレスに統合できます。

この研究の主な課題は、マルチモーダルインターリーブ命令トレースデータが不足していることです。マルチモーダル アライメントの事前トレーニングを完了するために、研究チームは生成モデルを使用して、初の大規模な「any-to-any」マルチモーダル指示データセットである AnyInstruct-108k を合成しました。これは、さまざまなモダリティを複雑に織り交ぜた 108,000 のマルチターン ダイアログ サンプルで構成されており、モデルがマルチモーダル入力と出力の任意の組み合わせを処理できるようにします。

このデータを正確に表現するには通常、多数のビットが必要であり、結果として長いシーケンスが生成されます。シーケンスの長さに応じて計算の複雑さが指数関数的に増加するため、言語モデルにとっては特に厳しいものとなります。この問題に対処するために、本研究では、意味情報モデリングと知覚情報モデリングを含む 2 段階の高忠実度生成フレームワークを採用しました。まず、言語モデルのタスクは、意味レベルで融合され、整列されたコンテンツを生成することです。次に、非自己回帰モデルが、マルチモーダル セマンティック トークンを知覚レベルで高忠実度のマルチモーダル コンテンツに変換し、パフォーマンスと効率のバランスを実現します。

実験

実験結果によると、AnyGPT はあらゆるモダリティ間の対話タスクを完了しながら、すべてのモダリティで専用モデルと同等のパフォーマンスを達成できることが示されており、離散表現によって言語モデル内の複数のモダリティを効果的かつ便利に統合できることが実証されています。

この研究では、すべてのモダリティにわたるマルチモーダル理解および生成タスクをカバーする、事前トレーニング済みのベース AnyGPT の基本機能を評価しました。評価の目的は、事前トレーニング中に異なるモダリティ間の一貫性をテストすることであり、具体的には、各モダリティのテキストから X へのタスクと X からテキストへのタスクをテストします。ここで、X はそれぞれ画像、音楽、音声です。

現実世界のシナリオをシミュレートするために、すべての評価はゼロショット モードで実行されます。つまり、AnyGPT は評価中に下流のトレーニング サンプルを微調整したり事前トレーニングしたりしません。この困難な評価設定では、モデルを未知のテスト分布に一般化する必要があります。

評価結果によると、AnyGPT は一般的なマルチモーダル言語モデルとして、さまざまなマルチモーダル理解および生成タスクで優れたパフォーマンスを発揮します。

画像

この研究では、画像説明タスクにおけるAnyGPTの画像理解能力を評価し、その結果を表2に示します。

テキストから画像への生成タスクの結果を表3に示します。

この研究では、LibriSpeechデータセットのテストサブセットで単語誤り率(WER)を計算し、Wav2vec 2.0とWhisper Large V2をベースラインとして使用して、自動音声認識(ASR)タスクにおけるAnyGPTのパフォーマンスを評価します。評価結果を表5に示します。

音楽

この研究では、生成された音楽とテキストの説明の類似性を測定する客観的な指標としてCLAP_scoreスコアを使用し、MusicCapsベンチマークでの音楽理解および生成タスクにおけるAnyGPTのパフォーマンスを評価しました。評価結果を表6に示します。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<: 

>>:  興奮はテレビシリーズに匹敵、マスク氏とウルトラマン、そしてOpenAIとの「愛憎関係」

ブログ    
ブログ    

推薦する

IoTとAIを活用した依存症治療

IoT および AI ベースのデバイスは、私たちの中毒的な習慣をきめ細かなレベルで監視できるため、ユ...

...

これはGPT-4が愚かである理由についての新たな説明である

かつては世界で最も強力だと考えられていたGPT-4も、リリース以来、いくつかの「信頼の危機」を経験し...

高度な数学に希望があります!ニューラルネットワークは1秒未満で偏微分方程式を解く

タスクの数が増えるにつれて、現在の計算方法を使用して汎用の日常的なロボットを構築するコストは法外なも...

人工知能とビッグデータの隠れた危険性とは何でしょうか?

データの不足から現在では大量のデータが存在するまで、近年では利用可能なデータの量が飛躍的に増加し、ビ...

2021年の世界トップ10の画期的テクノロジー:TikTokアルゴリズムと北斗ナビゲーションがリストに

[[384967]]最近、アメリカの「MITテクノロジーレビュー」は、2021年の世界のトップ10の...

李開復氏:反復労働の代替として、農村地域はAIロボットの着陸に最適な場所

人工知能技術は農業にどのような力を与えるのでしょうか?将来、農業に変化をもたらす最も重要な技術は何で...

2022年、PyTorchはトップAIカンファレンスの80%を占める

2012 年にディープラーニングが再び注目されて以来、初期の学術フレームワークである Caffe ...

ByteDanceは、ロボットの成功率と操作効果を高めたVi-PRoMビジュアル事前トレーニングソリューションを提案した。

近年、大規模な実世界データを使用した視覚事前トレーニングは大きな進歩を遂げており、ピクセル観察に基づ...

Meitu Xiuxiuが最新の自社開発大型モデルを発売し、さまざまなAIGCゲームプレイを直接体験できる

Meituが自社開発したビッグモデル3.0が正式リリース!そしてそれはMeituのイメージングおよび...

写真をビデオに変換するには、指 1 本だけが必要です。 Gen-2スポーツブラシが無料で利用可能になりました。ネットユーザー:史上最高のアップデート

「ポイント」すると動きます。Gen-2の新機能「マジックブラシ 馬亮」が正式にリリースされました。無...

GraphAlign: グラフマッチングによるマルチモーダル 3D オブジェクト検出のための正確な特徴アライメント

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

[ディープラーニングシリーズ] PaddlePaddle と Tensorflow を使用したクラシック CNN ネットワーク GoogLeNet の実装

以前、LeNet、AlexNet、Vgg についてお話しましたが、今週は GoogLeNet につい...

完全なマーケティング効果評価におけるベイズ構造モデルの応用

著者についてCtrip のデータアナリストである Yiwen 氏は、ユーザー増加、因果推論、データサ...