国内の音声対話モデルはこちら:Kai-Fu LeeとZero One Everythingが参加、中国語と英語のバイリンガルマルチモーダル、オープンソースで市販されている

国内の音声対話モデルはこちら:Kai-Fu LeeとZero One Everythingが参加、中国語と英語のバイリンガルマルチモーダル、オープンソースで市販されている

中国語と英語のバイリンガル音声対話の最初のオープンソース モデルが登場しました。

最近、arXivに音声・テキストマルチモーダルビッグモデルに関する論文が掲載され、署名企業の中に李開復氏のビッグモデル企業01.aiの名前が登場した。

写真

この論文では、録音とテキスト入力の両方をサポートし、「混合ダブル」も問題にならない市販の中国語-英語バイリンガル対話モデル LLaSM を提案しています。

写真

この論文では、単なるテキスト入力よりも「音声チャット」の方が AI が人間と対話するためのより便利で自然な方法であると考えている。

この大型モデルを利用して、一部のネットユーザーはすでに「寝転がって話をしながらコードを書く」というシーンを想像している。

写真

この研究は、LinkSoul.AI、北京大学、Zero One Everything によるものです。現在はオープンソース化されており、HugFace で直接試すことができます。

写真

それがどれだけうまく機能するか見てみましょう。

テキストと音声入力をサポートし、携帯電話でも再生できます

研究者によると、LLaSM は中国語と英語のバイリンガル音声テキストマルチモーダル会話をサポートする、初のオープンソースの市販会話モデルです。

それでは、音声テキスト入力と中国語と英語のバイリンガル機能を見てみましょう。

まず、中国とイギリスの文化衝突を起こし、英語で李白を評価してもらいましょう。

写真

悪くない、李白の王朝を正確に述べている。英語が分からない場合は、中国語に翻訳してください。

写真

次に、中国語の「揚げ物」を混ぜた中国語と英語の混合質問を試してみましょう。モデルの出力も良好です。

写真

モデルをもう一度テストして、李白と杜甫のどちらが優れているか評価してみましょう。

モデルはしばらく考えた後、非常に中立的な評価を与え、また、大型モデル(手動犬頭)の基本的な「水分バランスの常識」を持っていることがわかります

写真

もちろんパソコンだけでなく携帯電話でもプレイ可能です。

音声入力を使って「レシピをおすすめして」と言ってみましょう。

モデルが「ナスとチーズ」のレシピを正確に出力していることはわかりますが、それがおいしいかどうかはわかりません。

しかし、試してみると、このモデルにはバグがあることもわかりました。

たとえば、人間の言語をうまく理解できないことがあります。

中国語と英語を混ぜて出力するように指示すると、理解できないふりをして英語を出力します。

写真

英語と中国語の混合クエリを使用して「Taylor Swift の Red」を聴いたところ、モデルに大きなバグがあり、同じ文を繰り返し出力し、停止することさえできませんでした...

写真

一般的に、中国語と英語が混在する質問やリクエストに直面した場合、モデルの出力機能はまだ十分ではありません。

しかし、分けて考えれば、中国語と英語での表現力は依然として優れています。

では、このようなモデルはどのように実装されるのでしょうか?

どんな新しいモデルを作りましたか?

試用プレイから、LLaSM には 2 つの主な特徴があります。1 つは中国語と英語の入力をサポートしていること、もう 1 つは音声とテキストのデュアル入力です。

これら 2 つのポイントを達成するには、アーキテクチャとトレーニング データにそれぞれいくつかの調整を加える必要があります。

アーキテクチャの面では、LLaSM は現在の音声認識モデルと大規模言語モデルを統合します。

LLaSM は、自動音声認識モデル Whisper、モダリティ アダプター、大規模モデル LLaMA の 3 つの部分で構成されています。

これらのうち、Whisper は生の音声入力を受信し、音声特徴のベクトル表現を出力する役割を担い、モダリティ アダプターは音声とテキストの埋め込みを揃える役割を担い、LLaMA は音声とテキスト入力の指示を理解して応答を生成する役割を担います。

写真

モデルのトレーニングは 2 つの段階に分かれています。第 1 段階では、モーダル アダプターをトレーニングし、エンコーダーと大規模モデルをフリーズして、音声とテキストの配置を学習できるようにします。第 2 段階では、エンコーダーをフリーズして、モーダル アダプターと大規模モデルをトレーニングし、マルチモーダル会話機能を学習します。

トレーニングデータに関しては、研究者らは、199,000件の会話と508,000件の音声テキストサンプルを含むLLaSM-Audio-Instructionsと呼ばれるデータセットをまとめました。

508,000 個の音声テキスト サンプルの中には、中国語の音声サンプルが 80,000 個、英語の音声サンプルが 428,000 個含まれています。

研究者らは主にWizardLM、ShareGPT、GPT-4-LLMなどのデータセットを使用し、無効な会話を除外しながら、テキスト読み上げ技術を使用してこれらのデータセットの音声パッケージを生成しました。

写真

これは現時点で最大の中国語と英語の音声テキスト指示追従データセットでもありますが、まだ整理中です。研究者によると、整理が終わったらオープンソース化される予定です。

しかし、この論文では、その出力を他の音声モデルやテキストモデルとまだ比較していません。

著者について

この論文は、LinkSoul.AI、北京大学、Zero One Everythingから提供されたものです。

共同筆頭著者のYu Shu氏とSiwei Dong氏はともにLinkSoul.AIに所属し、以前は北京智源人工知能研究所に勤務していた。

LinkSoul.AI は、以前に最初のオープンソース Llama 2 中国語言語モデルをリリースした AI スタートアップです。

写真

李開復氏の傘下にある大手モデル会社であるゼロワンエブリシングもこの研究に貢献した。著者のWenhao Huang氏のHugging Faceのホームページには、彼が復旦大学を卒業したことが記載されています。

写真

論文の宛先:
https://arxiv.org/abs/2308.15930

デモアドレス:
https://huggingface.co/LinkSoul/LLaSM-Cllama2

<<:  Google の覇権は崩壊するのか?支配から疑惑へ:20年間インターネットのトレンドを形作ってきたGoogle検索は謎に包まれている

>>: 

ブログ    
ブログ    

推薦する

自然言語処理(NLP)はソーシャルエンジニアリング攻撃の解決に役立ちます

新しいツールは、件名や URL に基づいてソーシャル エンジニアリング攻撃を検出するのではなく、テキ...

DNAを使って画像を直接保存する「生きた細胞カメラ」は96ピクセルの解像度を持つ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

敵対的機械学習の初心者向けガイド

敵対的機械学習とは、主に、攻撃者の能力と攻撃の結果の調査と理解に基づいて、セキュリティ上の課題 (攻...

デジタル変革の本質、道筋、段階、課題を1つの記事で解説

01エンタープライズデジタルトランスフォーメーションの本質デジタル化により、人間が暮らす現実世界と仮...

いくつかの名門大学とAdobeは、このオープンソースアルゴリズムを使用して、300年以上前の手紙を「透視」しました。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Google VideoPoet の責任者 Jiang Lu が TikTok に参入しました! AIビデオモデル戦争が迫る

OpenAIを去った技術の第一人者、カルパシー氏はついにオンラインで2時間のAI講座を開始した。 —...

...

...

...

...

MITの最新の成果:AIが人間の脳が言語を処理する仕組みを解明

最新世代の予測言語モデルは、言語の根底にある意味の一部も学習したようです。驚くべきことに、これらのモ...

基本的なアルゴリズムの学習ルートとランダムな考え

勉強計画(いつも顔を叩かれるような気分です)煙台での仕事を辞めて北京に来ました。アルゴリズムが苦手だ...

Pythonを全く知らなかった私がAIエンジニアになるまでに2年かかりました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

ハンズフリーロボットがゴミ分別の問題解決に役立つ

地球は私たちの共通の家であり、地球環境を保護するために私たちは協力しなければなりません。したがって、...