最近、OpenAIのビデオ生成モデルSoraが人気を集めており、生成AIモデルのマルチモーダル機能が再び広く注目を集めています。 現実世界は本質的にマルチモーダルであり、生物は視覚、言語、音、触覚などのさまざまなチャネルを通じて情報を認識および交換します。マルチモーダル システムを開発するための有望な方向性は、LLM のマルチモーダル認識機能を強化することです。これには主に、マルチモーダル エンコーダーと言語モデルの統合が含まれ、さまざまなモダリティにわたって情報を処理し、LLM のテキスト処理機能を活用して一貫した応答を生成できるようにします。 ただし、この戦略はテキスト生成に限定されており、マルチモーダル出力は含まれていません。いくつかの先駆的な研究は、言語モデルにおけるマルチモーダルな理解と生成を可能にすることで大きな進歩を遂げてきましたが、これらのモデルには、画像や音声などの単一の非テキスト モダリティしか含まれていません。 上記の問題を解決するために、復旦大学のQiu Xipeng氏のチームは、Multimodal Art Projection(MAP)および上海人工知能研究所の研究者と共同で、さまざまなモダリティのコンテンツを任意の組み合わせで理解および推論できるAnyGPTと呼ばれるマルチモーダル言語モデルを提案しました。具体的には、AnyGPT は、テキスト、音声、画像、音楽などの複数のモダリティが絡み合った指示を理解し、適切なマルチモーダルの組み合わせを巧みに選択して応答することができます。 たとえば、音声プロンプトが与えられた場合、AnyGPT は音声、画像、音楽の形式で包括的な応答を生成できます。 テキスト + 画像の形式でプロンプトが与えられると、AnyGPT はプロンプトの要件に従って音楽を生成できます。
方法の紹介AnyGPT は離散表現を利用して、音声、テキスト、画像、音楽などのさまざまなモダリティを均一に処理します。 あらゆるモダリティからあらゆるモダリティへの画像生成タスクを完了するために、本研究では統一された方法でトレーニングできる包括的なフレームワークを提案しました。下の図 1 に示すように、フレームワークは次の 3 つの主要コンポーネントで構成されています。
その中で、トークナイザーは連続した非テキスト モダリティを個別のトークンに変換し、それをマルチモーダル インターリーブ シーケンスに配置します。次に、次のトークン予測トレーニング目標を使用して言語モデルをトレーニングします。推論中、マルチモーダル トークンは、関連付けられたデトークナイザーによって元の表現にデコードされます。生成の品質を高めるために、音声クローン作成や画像の超解像度などのアプリケーションを含む、生成された結果を後処理するマルチモーダル拡張モジュールを導入できます。 AnyGPT は、現在の Large Language Model (LLM) アーキテクチャやトレーニング パラダイムを変更することなく、安定してトレーニングできます。代わりに、データ レベルの前処理に完全に依存しているため、新しい言語を追加するのと同様に、新しいモダリティを LLM にシームレスに統合できます。 この研究の主な課題は、マルチモーダルインターリーブ命令トレースデータが不足していることです。マルチモーダル アライメントの事前トレーニングを完了するために、研究チームは生成モデルを使用して、初の大規模な「any-to-any」マルチモーダル指示データセットである AnyInstruct-108k を合成しました。これは、さまざまなモダリティを複雑に織り交ぜた 108,000 のマルチターン ダイアログ サンプルで構成されており、モデルがマルチモーダル入力と出力の任意の組み合わせを処理できるようにします。 このデータを正確に表現するには通常、多数のビットが必要であり、結果として長いシーケンスが生成されます。シーケンスの長さに応じて計算の複雑さが指数関数的に増加するため、言語モデルにとっては特に厳しいものとなります。この問題に対処するために、本研究では、意味情報モデリングと知覚情報モデリングを含む 2 段階の高忠実度生成フレームワークを採用しました。まず、言語モデルのタスクは、意味レベルで融合され、整列されたコンテンツを生成することです。次に、非自己回帰モデルが、マルチモーダル セマンティック トークンを知覚レベルで高忠実度のマルチモーダル コンテンツに変換し、パフォーマンスと効率のバランスを実現します。 実験実験結果によると、AnyGPT はあらゆるモダリティ間の対話タスクを完了しながら、すべてのモダリティで専用モデルと同等のパフォーマンスを達成できることが示されており、離散表現によって言語モデル内の複数のモダリティを効果的かつ便利に統合できることが実証されています。 この研究では、すべてのモダリティにわたるマルチモーダル理解および生成タスクをカバーする、事前トレーニング済みのベース AnyGPT の基本機能を評価しました。評価の目的は、事前トレーニング中に異なるモダリティ間の一貫性をテストすることであり、具体的には、各モダリティのテキストから X へのタスクと X からテキストへのタスクをテストします。ここで、X はそれぞれ画像、音楽、音声です。 現実世界のシナリオをシミュレートするために、すべての評価はゼロショット モードで実行されます。つまり、AnyGPT は評価中に下流のトレーニング サンプルを微調整したり事前トレーニングしたりしません。この困難な評価設定では、モデルを未知のテスト分布に一般化する必要があります。 評価結果によると、AnyGPT は一般的なマルチモーダル言語モデルとして、さまざまなマルチモーダル理解および生成タスクで優れたパフォーマンスを発揮します。 画像 この研究では、画像説明タスクにおけるAnyGPTの画像理解能力を評価し、その結果を表2に示します。 テキストから画像への生成タスクの結果を表3に示します。 声 この研究では、LibriSpeechデータセットのテストサブセットで単語誤り率(WER)を計算し、Wav2vec 2.0とWhisper Large V2をベースラインとして使用して、自動音声認識(ASR)タスクにおけるAnyGPTのパフォーマンスを評価します。評価結果を表5に示します。 音楽 この研究では、生成された音楽とテキストの説明の類似性を測定する客観的な指標としてCLAP_scoreスコアを使用し、MusicCapsベンチマークでの音楽理解および生成タスクにおけるAnyGPTのパフォーマンスを評価しました。評価結果を表6に示します。 興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。 |
>>: 興奮はテレビシリーズに匹敵、マスク氏とウルトラマン、そしてOpenAIとの「愛憎関係」
モバイル デバイスの計算能力が向上し、センサー データのリアルタイム分析の需要が高まるにつれて、モバ...
世界各国がインダストリー4.0の時代を迎える中、多くの業界団体がプロセス自動化の重要性を認識し始め、...
2022年も、疫病やサプライチェーン危機などの悪影響は続くとみられ、AIに対する消費者の信頼獲得や気...
私たちは、顧客サービス、仮想アシスタント、コンテンツ作成、プログラミング支援などのさまざまなアプリケ...
人工知能業界は急速に発展しており、医療、輸送、家具、電子機器などの業界で関連する応用事例が見つかりま...
米国のコンピューターサイエンス分野の博士課程学生の 64% 以上と修士課程学生の 70% 近くが留学...
機械学習では、製品やソリューションを構築する方法が多数あり、それぞれが異なることを前提としています。...
9月10日、ファーウェイHarmonyOSテクノロジーコミュニティの年間優秀共同構築パートナー選定結...
[[219941]] AI と機械学習が、人材管理の問題解決に役立っているというのは、皮肉なことです...
ロイターが入手した情報筋や文書によると、ソフトバンクグループは世界的なロボット事業で人員削減を行い、...
2017 年、人工知能とビッグデータの開発では次の 10 の成長痛が発生しました。 [[216307...
[[201203]] 1. Keras を使用する理由ディープラーニングが大人気の昨今、サードパーテ...
1. サイバーセキュリティにおける人工知能の応用1. 応用人工知能は、ネットワーク セキュリティにお...
最近、SNS上で「ZAO」と呼ばれるAI顔変換ソフトが話題になっている。人気が出る一方で、多くの疑問...