国内の音声対話モデルはこちら:Kai-Fu LeeとZero One Everythingが参加、中国語と英語のバイリンガルマルチモーダル、オープンソースで市販されている

国内の音声対話モデルはこちら:Kai-Fu LeeとZero One Everythingが参加、中国語と英語のバイリンガルマルチモーダル、オープンソースで市販されている

中国語と英語のバイリンガル音声対話の最初のオープンソース モデルが登場しました。

最近、arXivに音声・テキストマルチモーダルビッグモデルに関する論文が掲載され、署名企業の中に李開復氏のビッグモデル企業01.aiの名前が登場した。

写真

この論文では、録音とテキスト入力の両方をサポートし、「混合ダブル」も問題にならない市販の中国語-英語バイリンガル対話モデル LLaSM を提案しています。

写真

この論文では、単なるテキスト入力よりも「音声チャット」の方が AI が人間と対話するためのより便利で自然な方法であると考えている。

この大型モデルを利用して、一部のネットユーザーはすでに「寝転がって話をしながらコードを書く」というシーンを想像している。

写真

この研究は、LinkSoul.AI、北京大学、Zero One Everything によるものです。現在はオープンソース化されており、HugFace で直接試すことができます。

写真

それがどれだけうまく機能するか見てみましょう。

テキストと音声入力をサポートし、携帯電話でも再生できます

研究者によると、LLaSM は中国語と英語のバイリンガル音声テキストマルチモーダル会話をサポートする、初のオープンソースの市販会話モデルです。

それでは、音声テキスト入力と中国語と英語のバイリンガル機能を見てみましょう。

まず、中国とイギリスの文化衝突を起こし、英語で李白を評価してもらいましょう。

写真

悪くない、李白の王朝を正確に述べている。英語が分からない場合は、中国語に翻訳してください。

写真

次に、中国語の「揚げ物」を混ぜた中国語と英語の混合質問を試してみましょう。モデルの出力も良好です。

写真

モデルをもう一度テストして、李白と杜甫のどちらが優れているか評価してみましょう。

モデルはしばらく考えた後、非常に中立的な評価を与え、また、大型モデル(手動犬頭)の基本的な「水分バランスの常識」を持っていることがわかります

写真

もちろんパソコンだけでなく携帯電話でもプレイ可能です。

音声入力を使って「レシピをおすすめして」と言ってみましょう。

モデルが「ナスとチーズ」のレシピを正確に出力していることはわかりますが、それがおいしいかどうかはわかりません。

しかし、試してみると、このモデルにはバグがあることもわかりました。

たとえば、人間の言語をうまく理解できないことがあります。

中国語と英語を混ぜて出力するように指示すると、理解できないふりをして英語を出力します。

写真

英語と中国語の混合クエリを使用して「Taylor Swift の Red」を聴いたところ、モデルに大きなバグがあり、同じ文を繰り返し出力し、停止することさえできませんでした...

写真

一般的に、中国語と英語が混在する質問やリクエストに直面した場合、モデルの出力機能はまだ十分ではありません。

しかし、分けて考えれば、中国語と英語での表現力は依然として優れています。

では、このようなモデルはどのように実装されるのでしょうか?

どんな新しいモデルを作りましたか?

試用プレイから、LLaSM には 2 つの主な特徴があります。1 つは中国語と英語の入力をサポートしていること、もう 1 つは音声とテキストのデュアル入力です。

これら 2 つのポイントを達成するには、アーキテクチャとトレーニング データにそれぞれいくつかの調整を加える必要があります。

アーキテクチャの面では、LLaSM は現在の音声認識モデルと大規模言語モデルを統合します。

LLaSM は、自動音声認識モデル Whisper、モダリティ アダプター、大規模モデル LLaMA の 3 つの部分で構成されています。

これらのうち、Whisper は生の音声入力を受信し、音声特徴のベクトル表現を出力する役割を担い、モダリティ アダプターは音声とテキストの埋め込みを揃える役割を担い、LLaMA は音声とテキスト入力の指示を理解して応答を生成する役割を担います。

写真

モデルのトレーニングは 2 つの段階に分かれています。第 1 段階では、モーダル アダプターをトレーニングし、エンコーダーと大規模モデルをフリーズして、音声とテキストの配置を学習できるようにします。第 2 段階では、エンコーダーをフリーズして、モーダル アダプターと大規模モデルをトレーニングし、マルチモーダル会話機能を学習します。

トレーニングデータに関しては、研究者らは、199,000件の会話と508,000件の音声テキストサンプルを含むLLaSM-Audio-Instructionsと呼ばれるデータセットをまとめました。

508,000 個の音声テキスト サンプルの中には、中国語の音声サンプルが 80,000 個、英語の音声サンプルが 428,000 個含まれています。

研究者らは主にWizardLM、ShareGPT、GPT-4-LLMなどのデータセットを使用し、無効な会話を除外しながら、テキスト読み上げ技術を使用してこれらのデータセットの音声パッケージを生成しました。

写真

これは現時点で最大の中国語と英語の音声テキスト指示追従データセットでもありますが、まだ整理中です。研究者によると、整理が終わったらオープンソース化される予定です。

しかし、この論文では、その出力を他の音声モデルやテキストモデルとまだ比較していません。

著者について

この論文は、LinkSoul.AI、北京大学、Zero One Everythingから提供されたものです。

共同筆頭著者のYu Shu氏とSiwei Dong氏はともにLinkSoul.AIに所属し、以前は北京智源人工知能研究所に勤務していた。

LinkSoul.AI は、以前に最初のオープンソース Llama 2 中国語言語モデルをリリースした AI スタートアップです。

写真

李開復氏の傘下にある大手モデル会社であるゼロワンエブリシングもこの研究に貢献した。著者のWenhao Huang氏のHugging Faceのホームページには、彼が復旦大学を卒業したことが記載されています。

写真

論文の宛先:
https://arxiv.org/abs/2308.15930

デモアドレス:
https://huggingface.co/LinkSoul/LLaSM-Cllama2

<<:  Google の覇権は崩壊するのか?支配から疑惑へ:20年間インターネットのトレンドを形作ってきたGoogle検索は謎に包まれている

>>: 

ブログ    
ブログ    

推薦する

...

機械学習を使用して、GPU と TPU で高速化できる O(N) 複雑度のソート アルゴリズムを構築します。

[[238409]]ソートは、コンピュータ サイエンスにおいて常に最も基本的なアルゴリズムの 1 ...

研究者たちは、スマートデバイスがAIを使って声の発信元を判断できるようにする準備を進めている。

このアイデアはプライバシー擁護者を怖がらせているが、スマートスピーカーの開発者は、ユーザーのウェイク...

Lingzhi Unuo CTO Xu Ke: AI技術が従来の保険販売モデルのジレンマを打破

[51CTO.comより] 徐克氏は百度で検索とスマートレコメンデーションの分野で長年勤務。2015...

1 つの記事でニューラル ネットワークを理解する

[51CTO.com からのオリジナル記事]人工知能は近年非常に人気の高い技術です。99 歳から歩け...

メタバース+AIとデータの未来は明るい

私たちは現在、拡張現実 (AR) と仮想現実 (VR) によって実現される新しい体験によって勢いを増...

PaddlePaddleがAIの旗印を掲げ、国産のディープラーニングフレームワークが人気

[51CTO.com オリジナル記事] Baidu は 2019 年第 2 四半期の財務報告を発表し...

無人運転車が道路上でテストされる予定でしょうか?あなたの人生はひっくり返るでしょう

無人運転車はいつ公道を走るようになるのでしょうか?この時期は私たちが考えていたよりも少し早いかもしれ...

【必見】機械学習分野の世界トップ16企業

[[227073]] [51CTO.com クイック翻訳] 機械学習は多くの企業が興味を持っている新...

知識経済は死んだ! AIが生み出す「直感経済」の新時代!

AI をめぐっては興奮と恐怖が同時に存在しているのは否定できない現実です。一方では、マイクロソフト...

...

2023 年のエンタープライズ AI の現状: AI は仕事にどのような影響を与えるでしょうか?

11月8日、英国アバディーン大学の研究機関がAIがもたらす変化について詳細な調査を実施し、最新の研...

歯科サービスを変える人工知能の6つのトレンド

ロボット歯科医はすでに存在するのでしょうか?まだ……。しかし、歯科医院では、日常的なケアに新しい技術...

機械翻訳と人工知能が融合すると、信頼性は高まるでしょうか?

機械翻訳というと、多くの人が戸惑うでしょう。10年以上も前には、英語の文章をKingsoft Pow...