Llama 2 の中国語版はオープンソースであり、言語モデルとマルチモーダルモデルの両方を備えているため、完全に商用利用可能です。

Llama 2 の中国語版はオープンソースであり、言語モデルとマルチモーダルモデルの両方を備えているため、完全に商用利用可能です。

7月19日、Metaはついに無料の商用版Llama 2をリリースし、オープンソースの大規模モデルの状況に大きな変化をもたらしました。

Llama 2 モデル ファミリには、70 億、130 億、700 億の 3 つのパラメータ バリアントが含まれています。前世代よりも 40% 多いトレーニング データがあり、推論、エンコード、熟練度、知識テストなど、多くの外部ベンチマークで優れたパフォーマンスが実証されており、複数の言語をサポートしています。

唯一の欠点は、Llama 2 コーパスでは依然として英語 (89.7%) が大部分を占めており、中国語はわずか 0.13% しか占めていないことです。このため、Llama 2 では流暢かつ詳細な中国語の会話を完了することが困難になります。

Llama2オープンソース大規模モデルの中国語版はコミュニティで初となる

良いニュースとしては、Meta Al が Llama 2 モデルをオープンソース化した翌日、ダウンロードして実行できる最初のオープンソースの中国製 LLaMA2 モデルがオープンソース コミュニティに登場したことです。このモデルは「Chinese Llama 2 7B」と呼ばれ、国内のAIスタートアップLinkSoul.Alによって発売された

わずか 2 週間で、このプロジェクトは Hugging Face で 10,000 回以上ダウンロードされ、GitHub で 1,200 個のスターを獲得しました。

プロジェクトの紹介によると、Chinese-Llama-2-7b のオープンソース コンテンツには、完全に商業的に実行可能な Llama2 モデルの中国語バージョンと、中国語および英語の SFT データ セットが含まれています。入力形式は llama-2-chat 形式に厳密に従っており、元の llama-2-chat モデルのすべての最適化と互換性があります。

プロジェクトアドレス: https://github.com/LinkSoul-AI/Chinese-Llama-2-7b

現在、一般ユーザーはオンラインで「Chinese Llama-2 7B Chat」を体験できます。

トライアルアドレス: https://huggingface.co/spaces/LinkSoul/Chinese-Llama-2-7b

たとえば、英語で質問して中国語で回答してもらうこともできます。

または、中国語で直接話すこともできます。中国語で正確かつ流暢な回答を得ることもできます。

主な特徴は、中国語と英語を柔軟に切り替えることができることです。

誰かがそれを試して、うまく機能したと言っています:

画像出典: https://twitter.com/roya10x7/status/1682781475458957315?s=20

言語モデルに加えて、2つの大規模な中国語マルチモーダルモデルをオープンソース化していきます。

LinkSoul.AIチームは、初のオープンソースLlama2中国語モデルを発表した後、まだ開発の初期段階にあるグローバルマルチモーダル音声テキストモデルと画像テキストモデルに注目し、再び関連モデルのオープンソース化を主導し、国内の開発者に無料ダウンロードと無料の商用利用を提供しました。

オープンソースの中国語マルチモーダル モデルには次の 2 つが含まれます。

  • LinkSoul.Al チームが主導し、中国語と英語の両方と音声テキスト変換をサポートする初のマルチモーダル オープンソース会話モデル (LLaSM) が、北京知源人工知能研究所、北京大学、Zero One Everything などの国内トップクラスの人工知能チームによって共同開発されました。
  • 中国語と英語のバイリンガル ビジョン ツー テキスト (Chinese-LLaVA) をサポートする初の Llama 2 ベースのマルチモーダル モデル

どちらのモデルも Apache-2.0 プロトコルに基づくオープン ソースであり、完全に商用利用可能です。

LinkSoul.Al開発チームのリーダーであるShi Yemin氏は、「世界を見渡しても、『モデルが世界に耳を傾け、世界を見る』ための信頼できるオープンソースモデルはまだありません。中国のビッグモデルエコシステムを国際的なトップ標準に近づけるために全力を尽くしたいと考えています」と語った。

音声テキスト変換マルチモーダル オープンソース会話モデル (LLaSM)

LinkSoul.AI は、市販されている中国語 - 英語バイリンガル音声言語アシスタント LLaSM と中国語 - 英語音声 SFT データセット LLaSM-Audio-Instructions をオープンソース化しました。 LLaSM は、中国語と英語の音声テキスト マルチモーダル会話をサポートする最初のオープン ソースの商用会話モデルです。

従来のソリューションと比較して、LLaSM は、便利な音声入力インタラクションを通じて、テキストを入力として使用していた大規模モデルのユーザー エクスペリエンスを大幅に向上させると同時に、ASR ベースのソリューションの面倒なプロセスや起こり得るエラーを効果的に回避できます。

  • プロジェクトアドレス: https://github.com/LinkSoul-AI/LLaSM
  • データセット: https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions

以下は、LLaSM からの音声テキスト会話の例です。

LLaSM には対応する文献紹介もあります。

モデル、コード、データアドレス: https://huggingface.co/spaces/LinkSoul/LLaSM

画像からテキストへのマルチモーダル オープンソース会話モデル (中国語 LLaVA)

LinkSoul.AI は、中国語と英語の視覚テキストによるマルチモーダル対話のためのオープンソースの商用対話モデルをサポートする、市販の中国語と英語のバイリンガル視覚言語アシスタント Chinese-LLaVA と中国語と英語の視覚 SFT データセット Chinese-LLaVA-Vision-Instructions をオープンソース化しました。

  • プロジェクトアドレス: https://github.com/LinkSoul-AI/Chinese-LLaVA
  • データセット: https://huggingface.co/datasets/LinkSoul/Chinese-LLaVA-Vision-Instructions

以下は中国語 LLaVA のビジュアルテキストダイアログの例です。

写真

モデル、コード、データアドレス: https://huggingface.co/spaces/LinkSoul/Chinese-LLaVa

マルチモーダルモデルの統一アーキテクチャの解釈

大規模言語モデルは多くの面で強力な能力を発揮し、ある程度、汎用人工知能 (AGI) の実現への希望を与えてきました。マルチモーダル モデルは、異なるモダリティ間の情報相互作用のためのチャネルを提供し、視覚情報、音声情報などがテキストの意味情報を補完できるようにし、大規模な言語モデルが世界を聞いて見ることができるようにすることで、GI に向けて新たな一歩を踏み出します。

したがって、マルチモーダル モデルのトレーニングの焦点は、異なるモダリティ間で情報を統合および補完し、既存の大規模言語モデルの機能を最大限に活用する方法にあります。 LinkSoul.AI のオープンソース音声言語マルチモーダルモデルと視覚言語マルチモーダルモデルは、以下の図に示すフレームワークを統一的に採用しています

まず、異なるモダリティのデータの特徴がモダリティ エンコーダーを介してエンコードされ、次に、マルチモーダル特徴アライメントの事前トレーニング段階でモダリティ アダプターが学習され、異なるモダリティの入力特徴が大規模言語モデルとアライメントされます。

次に、エンドツーエンドの教師あり微調整 (SFT) 段階で、さまざまなモダリティの指示データセットを使用して、モダリティ アダプターと大規模言語モデルを微調整します。教師あり微調整段階では、クロスモーダル指示データとテキストのみの指示データの両方がマルチタスクトレーニングに使用されます。 LinkSoul.AI チームは、マルチタスク トレーニングによって、モデル内のモーダル依存性とバイアスを回避し、1 つのモデルで複数のモダリティを自然に実装できると考えています。

LinkSoul.AI チームの次の仕事は、音声、視覚、テキストをさらに統合して、大規模な言語モデルが音声と視覚の両方のモダリティをサポートできるようにすることです。

事前トレーニング段階

事前トレーニング段階では、モーダル エンコーダーと大規模言語モデルのパラメーターが固定され、クロスモーダル音声/視覚テキスト ペアを使用してアダプターがトレーニングされます。最適化の目標は、入力指示に対応する応答を生成することです。

具体的には、音声モダリティに対しては、特徴エンコーダとしてWhisperを使用し、Whisper[5]を固定して音声入力の特徴を抽出する。我々は公開されている中国語と英語の自動音声認識(ASR)データセットであるAishell [1]、LibriSpeech [2]、Magicdata [3]、Primewords [4]を使用します。

各データサンプル(音声、テキストラベル)について、対応する言語に従って事前トレーニング済みの音声コマンドテーブル(セクション3のデータ部分を参照)からコマンドがランダムに選択され、(音声、指示、テキストラベル)形式のデータが形成され、トレーニングプロセス中にテキストラベルが予測されます。

視覚モダリティについては、画像特徴抽出器としてCLIP [6]を使用し、mBART [8]を使用してLLaVA [7]オープンソースの視覚事前トレーニングデータを中国語に翻訳し、中国語の画像とテキストのペアを生成します。事前トレーニング段階では、中国語と英語のデータが同時にトレーニングに使用されるため、モデルは中国語をより適切にサポートできます。

監督下での微調整

事前トレーニング段階では、さまざまなモダリティの特徴が大規模言語モデルに合わせて調整されます。教師あり微調整段階では、モダリティ エンコーダーの重みのみが固定され、モダリティ アダプターと大規模言語モデルのパラメーターがオンになり、クロスモーダル指示データを使用して微調整が行われます。

現在、公開されている音声マルチモーダル指示データがほとんどないという問題に対処するために、公開データセットWizardLM [9]、ShareGPT [10]、GPT-4-LLM [11]に基づいて、音声テキストマルチモーダル指示データセットLLaSM-Audio-Instructionsが構築されました。音声入力をコマンドとして受け取り、対応するテキスト出力を予測します。

視覚モダリティについては、まずLLaVA [7]オープンソースの視覚コマンドデータセットをmBART [8]を使用して中国語に翻訳し、中国語の視覚コマンドデータセットを生成し、同様の方法でトレーニングしました。

データセット

モダリティ変換事前トレーニングデータセット

まずはオーディオを見てみましょう。音声マルチモーダル事前トレーニングデータセットでは、公開されている中国語と英語の自動音声認識(ASR)データセットであるAishell [1]、LibriSpeech [2]、Magicdata [3]、Primewords [4]を使用します。

同時に、次の命令セットが構築されます。各 (audio, text_label) サンプルに対して、対応する言語に応じて命令がランダムに選択され、データ サンプル (instruction, audio, text_label) が構築されます。

表1: 英語の簡単な命令セット

表2: 中国語の簡単な命令セット

それからビジョンがあります。視覚モダリティについては、LLaVA [7]のオープンソースの視覚事前トレーニングデータを使用し、mBART [8]翻訳を通じてローカライズして中国語の画像とテキストのペアを生成し、モデルの中国語機能を向上させます。

命令微調整データセット

まずはオーディオを見てみましょう。音声データセットを構築するプロセスでは、まず、コード、記号、URL、その他の判読できないテキストなど、発声に適さない会話を削除して、すべての会話データを慎重にフィルタリングします。次に、データの品質を確保するために、会話の各ラウンドにおけるチャットボットの回答が再度フィルタリングされ、価値のある情報が含まれていないものは破棄されます。最後に、Microsoft Azure [12]音声合成APIを使用して音声データを生成します。

それからビジョンがあります。視覚モダリティについては、LLaVA [7]オープンソースの視覚コマンドデータセットを使用し、これをmBART [8]を使用して中国語に翻訳して中国語のマルチモーダルコマンドデータを生成し、モデルが中国語の視覚コマンドを実行できるようにしました。

オープンソース コミュニティがマルチモーダル大規模モデルの機能を迅速に体験し、マルチモーダル大規模モデルの研究の進歩を共同で促進できるように、トレーニングに使用されるデータはプロジェクト内でオープンソース化され、Hugging Face リポジトリからダウンロードできるように提供されています。

LinkSoul.AI チームにとって、これら 2 つのオープンソースで市販されているマルチモーダル ビッグ モデルは、ビッグ モデル エコシステムに音声および視覚のマルチモーダル機能をもたらすだけでなく、ビッグ モデルの多言語の側面にも貢献します。

さらに、商業シナリオでは、チームが立ち上げたモデルは商業目的で完全に無料で使用することが許可されており、これは国内の個人開発者やスタートアップにとっても非常に価値があります。

<<:  ChatGPTに6つの新機能が追加され、GPT-4がデフォルトモデルとなり、ショートカットキーを使用してファイルのアップロードがサポートされるようになりました。

>>:  ガートナー: データサイエンスと機械学習の未来に影響を与える 5 つのトレンド

ブログ    
ブログ    

推薦する

デジタルヒューマンのための大規模モデル

ビッグモデルはソフトウェア業界全体を変えるでしょう。その代表的な製品の一つがデジタルヒューマンです。...

Aurora の 1 億ドルの買収の背後にあるもの: RISC-V の創始者が「中国製チップ」を開発するという野望

2月27日、米国の著名な自動運転企業であるAuroraは、ライダーチップ企業OURSを1億ドルで買収...

住宅価格予測のための機械学習

序文Python は機械学習において当然の利点を持っているので、今日から機械学習技術に取り組んでみま...

Nature: AI はなぜいつも差別的なのか?

[[241142]]ビッグデータダイジェスト制作編集者: Hu Jia、Wang Yiding、X...

困難な選択のターミネーター: さまざまな問題に対する機械学習アルゴリズム

データサイエンスを学び始めた頃、特定の問題に対してどのアルゴリズムを選択すればよいのかという疑問によ...

...

AIと機械学習が交通をどのように変えているのか

人工知能 (AI) と機械学習が現代生活を改善すると期待される多くの方法の中でも、公共交通機関に影響...

蘇寧における知識抽出分野におけるディープラーニングの試みと実践

[[257470]] 【51CTO.comオリジナル記事】背景近年、膨大なデータの蓄積、計算能力の向...

潜在能力を解き放つ: 人工知能がパーソナライズされた学習に与える影響

急速に進化する今日の教育環境では、テクノロジーの統合がかつてないほど普及しています。さまざまな技術の...

教師なし学習のための最も強力な戦略

[[279087]] MLKはMachine Learning Knowledgeの略で、機械学習の...

...

2022年スタンフォードAIインデックス発表:中国がAIジャーナルの出版と引用で1位、TFオープンソースライブラリが最も人気

人工知能の分野では、スタンフォード大学が開始したAIインデックスは、AIの動向と進歩を追跡する非営利...

Baidu Brain CVサービスでは、100~1000元のクーポンを提供しています。

覚えていますか? 「小都」はかつて「The Brain」の舞台でエネルギー溢れる出場者たちと競い合い...

ニューラルコンピュータAIモデルのブレークスルー!トレーニング時間は1秒あたり120万フレームに達し、新記録を樹立

[[326502]]今週、IBMは、同社のニューラル・コンピュータ・システムが1秒あたり120万フレ...

データサイエンティストにとって最も重要なアルゴリズムと統計モデル

数年間この業界に携わってきたデータ サイエンティストとして、私は LinkedIn や QuoLa ...