汎用聴覚AIのロックを解除します！清華大学電子工学部とVolcano Voiceが共同で新しい認知指向の聴覚言語モデルをオープンソース化

最近、清華大学電子工学部と Volcano Voice チームが協力して、認知指向のオープンソース聴覚大規模言語モデル SALMONN (Speech Audio Language Music Open Neural Network) を立ち上げました。

大規模言語モデルSALMONN

音声入力または非音声オーディオ入力のみをサポートする他の大規模モデルと比較して、SALMONN は、音声、オーディオイベント、音楽など、さまざまな種類のオーディオ入力を認識して理解する機能を備えています。これは、大規模言語モデルに「耳を追加する」ことに相当し、多言語およびクロスモーダル推論などの高度な機能を生み出します。

(注: この記事では、創発的機能とは、モデルのトレーニング中に学習されなかったクロスモーダル機能を指します。)

具体的には、Whisper Encoder に基づくユニバーサルオーディオエンコーダーを Vicuna 13B 大規模言語モデルに追加し、融合ユニットを使用してオーディオとテキストのモダリティを調整することで、SALMONN モデルはオーディオモダリティを直接認識できるようになり、「容器の中の脳」ではなくなりました。

まずAPIを使用して「ToolFormer」を呼び出し、音声または非音声のオーディオ入力をテキストに変換し、そのテキストを大規模な言語モデルに入力するというAPIルートと比較して、SALMONNは物理世界から直接知識を獲得し、いくつかの複雑なオーディオシーンを完全に理解することができます。

さらに、音声認識や音声字幕生成などの従来の音声およびオーディオ処理タスクと比較して、SALMONN は、大規模なテキストから大規模言語モデルが学習した常識と認知能力を活用して認知指向のオーディオ認識を実現し、モデルの汎用性とタスクの豊富さを大幅に向上させます。さらに、SALMONN は、ユーザーのテキスト指示、さらには音声指示にもより正確に従うことができます。

モデルはテキスト指示に基づくトレーニングデータのみを使用したため、音声指示に従うこともクロスモーダルの創発機能です。

Githubリポジトリ: https://github.com/bytedance/SALMONN/

デモリンク: https://bytedance.github.io/SALMONN/

一般的に、SALMONNは現在、英語の音声認識、英語から中国語への音声翻訳、感情認識、オーディオ字幕生成、音楽の説明など、重要な音声およびオーディオタスクを実行できます。同時に、モデルトレーニングで具体的に学習されていないさまざまな多言語およびクロスモーダル機能も登場しており、英語以外の音声認識、英語から中国語以外の言語への音声翻訳、音声コンテンツの要約とキーワード抽出、オーディオベースのストーリー生成、オーディオによる質疑応答、音声とオーディオの共同推論などのタスクをカバーしています。

これを受けて研究チームは、上記のタスクを難易度に応じて 3 つのカテゴリに分類し、それらを 1 つずつ実演するデモを提案しました。これらは次のとおりです。

- モデルのトレーニング中に学習したタスク

- モデルのトレーニング中に学習されなかったが、大規模な言語モデルがテキスト入力に基づいて完了できるタスク

- モデルのトレーニング中に学習されていないタスクで、音声とビデオを直接認識できる大規模なマルチモーダルモデルを必要とする

カテゴリー1: モデルのトレーニング中に学習したタスク

自動音声認識

上記の音声の英語の文章: しかし、私はこれらのことから目をそらすことができなかったため、つまずいていました。

オーディオキャプション

SALMONN 出力の中国語訳は次のとおりです: 効果音には、銃声、爆発、叫び声が含まれます。サウンドエフェクトは高品質で適切にミックスされており、リアルで臨場感あふれるオーディオ体験を生み出します。会話は明瞭で分かりやすく、激しい戦闘シーンでは登場人物が互いに呼びかけたりコミュニケーションをとったりします。音楽も流れていますが、効果音ほど目立たず、シーン全体の雰囲気を盛り上げています。

音楽の説明

SALMONN の作品の中国語訳は次の通りです: この音楽は、安定したリズムを持った、軽快で楽しい曲調です。ピアノで演奏され、シンプルで耳に残るメロディーです。

感情認識

SALMONN による中国語翻訳出力は次のようになります: 話者の感情は失望です。

カテゴリー2: モデルのトレーニング中に学習されなかったが、テキスト入力に基づく大規模言語モデルによって完了できるタスク

英語から他の言語への音声翻訳は、複数の言語で出現する機能です

音声による英語の文章: しかし、私はこれらのことから目をそらすことができなかったため、つまずいていました。

SALMONN のドイツ語出力: Ich stolperte auch, weil ich nicht aus den Dingen heraussehen konnte. (中国語訳: 私もよく見えないのでつまずきます。)

音声キーワード抽出は新たな機能である

音声による英語の文章: クリスマスやローストビーフが迫るこのお祭りシーズンには、食べることやその結果から得られる比喩表現が最も容易に心に浮かぶと彼は言います。

SALMONN が出力したキーワード: 祝祭シーズン、クリスマス、ローストビーフ

音声Q&Aは新たな機能である

音声による英語の文章: ロケットエンジンはどのように機能しますか? (中国語訳: ロケットエンジンはどのように機能しますか?)

SALMONN の出力の中国語訳は次のとおりです: ロケットエンジンの動作原理は、燃焼室で水素や灯油などの燃料を燃焼させ、高温のガスをノズルから噴出させることです。ノズルの形状によりガスが特定の方向に導かれ、ロケットを前進させる推力が生まれます。

燃料は通常、液体酸素などの酸化剤と混合され、化学反応を引き起こし、熱と圧力の形で大量のエネルギーを放出します。燃焼過程の熱によって燃料が気化し、圧力が生じてガスがエンジンから押し出されます。

燃焼プロセス中に生成された高温ガスは、円錐形をしたノズルに送られます。ノズルの機能は、ガスを膨張させることでガスの速度を上げ、高速ガスジェットを形成して推力を発生させることです。

ロケットエンジンによって生成された推力によってロケットは前方に押し出され、地球の重力から逃れて宇宙を飛行できるようになります。使用される燃料、ノズルの形状、エンジンのサイズなどのロケットエンジンの特定の設計によって、生成される推力の量とロケットの飛行の特定の特性が決まります。

カテゴリー3: モデルトレーニングでは学習されていないが、音声とビデオを直接認識する大規模なマルチモーダルモデルを必要とするタスク

音声ベースのストーリー生成

音声による説明: カサカサという音がして、アヒルがクワクワと鳴き、水しぶきが上がり、続いて成鳥のメスとオスが話し、アヒルの鳴き声が聞こえます。

SALMONN が出力した物語の中国語訳は次のとおりです。太陽は輝き、鳥は歌い、花は香ります。一群の子供たちが森の中を歩いています。彼らは宝探しをしており、リストにあるアイテムをできるだけ多く見つけようと決意しています。

彼らが歩いていると、近くの池から奇妙な音が聞こえてきました。それはアヒルの鳴き声に似ていましたが、もっと大きくて、もっと持続的な音でした。子どもたちは調査するために池へ急いで行きました。

池に近づくと、彼らは今まで見たことのないものを目にしました。大きなアヒルが池のそばに座って、大きな声でクワクワと鳴いていました。このアヒルは車ほどの大きさで、何マイルも離れたところからでも聞こえるほど大きな鳴き声を出す。

子供たちは巨大なアヒルを見てびっくりしました。彼らはこれまでそのようなものを見たことがなかった。彼らはアヒルを邪魔しないようにしながらゆっくりと近づきました。

彼らが近づくと、アヒルは振り返って彼らに話しかけました。「こんにちは、子供たち」と深く響き渡る声で言った。「私の池に来た理由は何ですか？」

音声コマンドによるオーディオ推論

音声での英語の文章: 私が今どこにいるかわかりますか? (中国語訳: 私が今どこにいるかわかりますか?)

SALMONN が出力した回答の中国語訳: もちろん、あなたが今どこにいるかは推測できます。背景の銃声から判断すると、戦場か危険地帯にいるようです。銃声はAK-47やM-16などの自動小銃の音と一致します。さらに、背景で爆発が起きている場合は、爆弾やその他の爆発装置が使用されている場所にいる可能性があることを示しています。

詳しい情報がなければ、より具体的に言うのは難しいですが、銃声や爆発音から判断すると、戦場か戦争で荒廃した国にいる可能性があります。あるいは、犯罪や暴力が多発している地域である可能性もあります。

これがお役に立てば幸いです。さらにご質問がある場合や、追加のサポートが必要な場合はお知らせください。

全体的に、SALMONN は難易度の異なる 3 つのタスクで優れたパフォーマンスを発揮し、驚くべき音声理解および推論能力を示しました。音声とテキストモダリティをうまく接続し、まずは一定レベルの一般的な聴覚人工知能を実証しました。研究チームは、近い将来にSALMONN v1.0モデルと関連コードをオープンソース化し、今後もSALMONNを継続的にアップデートして、大規模モデルがマルチモーダルな物理世界をよりよく認識できるようにし、オープンソースの汎用人工知能の構築に貢献していきます。皆様、引き続きご注目ください！

チームについて

清華大学電子工学部のマルチメディア信号およびインテリジェント情報処理研究室は、医療と工学の交差点および音声処理の分野で豊富な研究経験を持っています。張超氏の研究室の研究グループは2022年に設立され、マルチモーダル音声言語処理と計算認知神経科学の研究に重点を置いています。

Volcano Voice チームは、ByteDance 内のさまざまな事業ラインに高品質の音声 AI 技術機能とフルスタックの音声製品ソリューションを提供し、Volcano Engine を通じて外部サービスも提供しています。当チームは2017年の設立以来、業界をリードするAIインテリジェント音声技術の開発に注力し、AIとビジネスシナリオの効率的な組み合わせを継続的に模索して、より大きなユーザー価値の実現に取り組んでいます。

<<:

>>: