復旦大学などがAnyGPTをリリース:画像、音楽、テキスト、音声をサポートする任意のモーダル入出力

復旦大学などがAnyGPTをリリース:画像、音楽、テキスト、音声をサポートする任意のモーダル入出力

最近、OpenAIのビデオ生成モデルSoraが人気を集めており、生成AIモデルのマルチモーダル機能が再び広く注目を集めています。

現実世界は本質的にマルチモーダルであり、生物は視覚、言語、音、触覚などのさまざまなチャネルを通じて情報を認識および交換します。マルチモーダル システムを開発するための有望な方向性は、LLM のマルチモーダル認識機能を強化することです。これには主に、マルチモーダル エンコーダーと言語モデルの統合が含まれ、さまざまなモダリティにわたって情報を処理し、LLM のテキスト処理機能を活用して一貫した応答を生成できるようにします。

ただし、この戦略はテキスト生成に限定されており、マルチモーダル出力は含まれていません。いくつかの先駆的な研究は、言語モデルにおけるマルチモーダルな理解と生成を可能にすることで大きな進歩を遂げてきましたが、これらのモデルには、画像や音声などの単一の非テキスト モダリティしか含まれていません。

上記の問題を解決するために、復旦大学のQiu Xipeng氏のチームは、Multimodal Art Projection(MAP)および上海人工知能研究所の研究者と共同で、さまざまなモダリティのコンテンツを任意の組み合わせで理解および推論できるAnyGPTと呼ばれるマルチモーダル言語モデルを提案しました。具体的には、AnyGPT は、テキスト、音声、画像、音楽などの複数のモダリティが絡み合った指示を理解し、適切なマルチモーダルの組み合わせを巧みに選択して応答することができます。

たとえば、音声プロンプトが与えられた場合、AnyGPT は音声、画像、音楽の形式で包括的な応答を生成できます。

テキスト + 画像の形式でプロンプトが与えられると、AnyGPT はプロンプトの要件に従って音楽を生成できます。


  • 論文アドレス: https://arxiv.org/pdf/2402.12226.pdf
  • プロジェクトのホームページ: https://junzhan2000.github.io/AnyGPT.github.io/

方法の紹介

AnyGPT は離散表現を利用して、音声、テキスト、画像、音楽などのさまざまなモダリティを均一に処理します。

あらゆるモダリティからあらゆるモダリティへの画像生成タスクを完了するために、本研究では統一された方法でトレーニングできる包括的なフレームワークを提案しました。下の図 1 に示すように、フレームワークは次の 3 つの主要コンポーネントで構成されています。

  • マルチモーダルトークナイザー
  • バックボーンネットワークとしてのマルチモーダル言語モデル
  • マルチモーダルデトークン化

その中で、トークナイザーは連続した非テキスト モダリティを個別のトークンに変換し、それをマルチモーダル インターリーブ シーケンスに配置します。次に、次のトークン予測トレーニング目標を使用して言語モデルをトレーニングします。推論中、マルチモーダル トークンは、関連付けられたデトークナイザーによって元の表現にデコードされます。生成の品質を高めるために、音声クローン作成や画像の超解像度などのアプリケーションを含む、生成された結果を後処理するマルチモーダル拡張モジュールを導入できます。

AnyGPT は、現在の Large Language Model (LLM) アーキテクチャやトレーニング パラダイムを変更することなく、安定してトレーニングできます。代わりに、データ レベルの前処理に完全に依存しているため、新しい言語を追加するのと同様に、新しいモダリティを LLM にシームレスに統合できます。

この研究の主な課題は、マルチモーダルインターリーブ命令トレースデータが不足していることです。マルチモーダル アライメントの事前トレーニングを完了するために、研究チームは生成モデルを使用して、初の大規模な「any-to-any」マルチモーダル指示データセットである AnyInstruct-108k を合成しました。これは、さまざまなモダリティを複雑に織り交ぜた 108,000 のマルチターン ダイアログ サンプルで構成されており、モデルがマルチモーダル入力と出力の任意の組み合わせを処理できるようにします。

このデータを正確に表現するには通常、多数のビットが必要であり、結果として長いシーケンスが生成されます。シーケンスの長さに応じて計算の複雑さが指数関数的に増加するため、言語モデルにとっては特に厳しいものとなります。この問題に対処するために、本研究では、意味情報モデリングと知覚情報モデリングを含む 2 段階の高忠実度生成フレームワークを採用しました。まず、言語モデルのタスクは、意味レベルで融合され、整列されたコンテンツを生成することです。次に、非自己回帰モデルが、マルチモーダル セマンティック トークンを知覚レベルで高忠実度のマルチモーダル コンテンツに変換し、パフォーマンスと効率のバランスを実現します。

実験

実験結果によると、AnyGPT はあらゆるモダリティ間の対話タスクを完了しながら、すべてのモダリティで専用モデルと同等のパフォーマンスを達成できることが示されており、離散表現によって言語モデル内の複数のモダリティを効果的かつ便利に統合できることが実証されています。

この研究では、すべてのモダリティにわたるマルチモーダル理解および生成タスクをカバーする、事前トレーニング済みのベース AnyGPT の基本機能を評価しました。評価の目的は、事前トレーニング中に異なるモダリティ間の一貫性をテストすることであり、具体的には、各モダリティのテキストから X へのタスクと X からテキストへのタスクをテストします。ここで、X はそれぞれ画像、音楽、音声です。

現実世界のシナリオをシミュレートするために、すべての評価はゼロショット モードで実行されます。つまり、AnyGPT は評価中に下流のトレーニング サンプルを微調整したり事前トレーニングしたりしません。この困難な評価設定では、モデルを未知のテスト分布に一般化する必要があります。

評価結果によると、AnyGPT は一般的なマルチモーダル言語モデルとして、さまざまなマルチモーダル理解および生成タスクで優れたパフォーマンスを発揮します。

画像

この研究では、画像説明タスクにおけるAnyGPTの画像理解能力を評価し、その結果を表2に示します。

テキストから画像への生成タスクの結果を表3に示します。

この研究では、LibriSpeechデータセットのテストサブセットで単語誤り率(WER)を計算し、Wav2vec 2.0とWhisper Large V2をベースラインとして使用して、自動音声認識(ASR)タスクにおけるAnyGPTのパフォーマンスを評価します。評価結果を表5に示します。

音楽

この研究では、生成された音楽とテキストの説明の類似性を測定する客観的な指標としてCLAP_scoreスコアを使用し、MusicCapsベンチマークでの音楽理解および生成タスクにおけるAnyGPTのパフォーマンスを評価しました。評価結果を表6に示します。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<: 

>>:  興奮はテレビシリーズに匹敵、マスク氏とウルトラマン、そしてOpenAIとの「愛憎関係」

ブログ    
ブログ    

推薦する

Amazon AIツールQが「打撃」を受けた:精度不足、プライバシー侵害、幻覚、データ漏洩

少し前にAmazonはAIツール「Amazon Q」をリリースしましたが、その競合はMicrosof...

2億IoTエコシステム、人民教育新聞とAI教育で協力、天猫精霊プラットフォームレイアウトが収穫期に入る

9月25日、アリババ人工知能研究所は雲啓カンファレンスで、Tmall Genieは現在660以上のI...

検討する価値がある: 197 億ドル、2021 年のマイクロソフトの AI 変革の道筋

モバイル インターネットと人工知能の時代、新しい波が古い波を浜辺で打ちのめし続ける中、マイクロソフト...

Nvidia は 5 億ドル相当の巨額注文を獲得しました。インドのデータセンターが H100/GH200 を一気に 16,000 台購入

Nvidia は大きな注文を受けるのでしょうか? 1 回のトランザクションには 16,000 個の ...

物流業界における人工知能の応用と発展の動向の概要

北京科技大学機械工学部物流工学科羅磊、趙寧人工知能(AI)は、人間の知能をシミュレート、拡張、拡大す...

...

...

TensorFlow を使用して機械学習モデルを構築する方法

[[432744]] TensorFlow は、Google が開発し、2015 年にオープンソース...

Python か Java か? 2020年、優秀なプログラマーが習得すべき7つのプログラミング言語

どのプログラミング言語が最適ですか?この質問には答えがないかもしれません。人によって好みは異なります...

...

人工知能に関する6つの誤解を解く

「人工知能はすべての仕事を自動化し、人間を失業させるだろう。」 「人工知能は単なる架空の技術だ。」 ...

Jupyter のアップグレード: さまざまな大規模モデルを接続し、コードを生成し、チャットを通じてエラーを修正できます

これで、大規模言語モデル (LLM) が Jupyter に接続されました。これは主に、Projec...

すぐに理解できます: 電流制限におけるリーキーバケットとトークンバケットアルゴリズム

[[346652]]この記事は、陳建宇氏が執筆したWeChatパブリックアカウント「私の脳は揚げ魚で...

コードで機械の心を構築するまで、どれくらい時間がかかるのでしょうか?

[[242009]]この記事の著者は、Microsoft Internet Engineering...

機械学習の成功事例5つ

IT リーダーが、人工知能と機械学習を使用してビジネス上の洞察を得る方法を共有します。組織が顧客の好...