Tongyi Qianwenが再びオープンソース化、Qwen1.5は6つのボリュームモデルを導入、そのパフォーマンスはGPT3.5を上回る

Tongyi Qianwenが再びオープンソース化、Qwen1.5は6つのボリュームモデルを導入、そのパフォーマンスはGPT3.5を上回る

春節の直前に、同義千文モデル(Qwen)バージョン1.5がリリースされました。今朝、新バージョンのニュースが AI コミュニティの注目を集めました。

大規模モデルの新バージョンには、0.5B、1.8B、4B、7B、14B、72B の 6 つのモデル サイズが含まれています。最も強力なバージョンは、GPT 3.5 および Mistral-Medium よりも優れたパフォーマンスを発揮します。ベース モデルとチャット モデルが含まれており、複数の言語をサポートしています。

アリババ同義千文チームによると、関連技術は同義千文公式サイトと同義千文アプリでも公開されているという。

さらに、本日リリースされた Qwen 1.5 には、次のようなハイライトもあります。

  • 32K のコンテキスト長をサポートします。
  • Base + Chat モデルのチェックポイントをオープンしました。
  • Transformers を使用してネイティブに実行できます。
  • GPTQ Int-4 / Int8、AWQ、GGUF の重みもリリースされました。

Tongyi Qianwen チームは、より高度な大規模モデルを審査員として活用し、広く使用されている 2 つのベンチマーク、MT-Bench と Alpaca-Eval で Qwen1.5 の予備評価を実施しました。評価結果は次のとおりです。

GPT-4-Turbo には遅れをとっていますが、Qwen1.5 の最大バージョンモデル Qwen1.5-72B-Chat は、MT-Bench と Alpaca-Eval v2 の両方で素晴らしい結果を示し、Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct、TULU 2 DPO 70B を上回り、最近人気の新しいモデル Mistral Medium に匹敵します。

さらに、Tongyi Qianwenチームは、大規模モデルによって判断されたスコアは回答の長さに関係しているように見えるものの、人間による観察結果では、Qwen1.5では回答が長すぎることがスコアに影響を与えないことが示されていると述べています。 AlpacaEval 2.0 上の Qwen1.5-Chat の平均長は 1618 で、これは GPT-4 の長さと一致し、GPT-4-Turbo よりも短くなっています。

Tongyi Qianwenの開発者は、ここ数か月間、真に「優れた」モデルを構築する方法の探求と、その過程で開発者の体験を継続的に向上させることに注力してきたと語った。

以前のバージョンと比較して、このアップデートでは、チャット モデルと人間の好みの整合を改善することに重点が置かれており、モデルの多言語処理機能が大幅に強化されています。シーケンスの長さに関しては、すべてのスケール モデルが 32768 トークンのコンテキスト長の範囲を達成しました。同時に、事前トレーニング済みのベースモデルの品質も最適化されており、微調整プロセス中にユーザーに優れたエクスペリエンスをもたらすことが期待されます。

基本能力

モデルの基本機能の評価に関しては、Tongyi Qianwen チームは、MMLU (5 ショット)、C-Eval、Humaneval、GS8K、BBH などのベンチマーク データセットで Qwen1.5 を評価しました。

Qwen1.5 は、さまざまなモデル サイズの評価ベンチマークで優れたパフォーマンスを示し、72B バージョンはすべてのベンチマークで Llama2-70B を上回り、言語理解、推論、数学における能力を実証しました。

最近、小型モデルの構築は業界で話題になっています。Tongyi Qianwen チームは、モデルパラメータが 70 億未満の Qwen1.5 モデルとコミュニティ内の重要な小型モデルを比較しました。

Qwen1.5 は、パラメータ サイズ範囲が 70 億未満である業界をリードする小型モデルと非常に競争力があります。

多言語対応

Tongyi Qianwen チームは、ヨーロッパ、東アジア、東南アジアの 12 の異なる言語で Base モデルの多言語機能を評価しました。 Alibaba の研究者は、オープンソース コミュニティの公開データセットから、試験、理解、翻訳、数学の 4 つの異なる側面をカバーする、次の表に示す評価セットを構築しました。次の表には、テスト構成、評価メトリック、関連する特定の言語など、各テスト セットの詳細情報が記載されています。

詳細な結果は次のとおりです。

上記の結果は、Qwen1.5 ベース モデルが 12 の異なる言語での多言語能力において優れたパフォーマンスを発揮し、主題知識、言語理解、翻訳、数学などのさまざまな側面の評価で良好な結果を示していることを示しています。さらに、チャット モデルの多言語機能に関しては、次の結果が見られます。

長いシーケンス

長いシーケンスの理解に対する需要が高まり続ける中、アリババは新バージョンでQianwenモデルの対応機能を改善しました。Qwen1.5モデルの全シリーズは32Kトークンのコンテキストをサポートしています。 Tongyi Qianwen チームは、長いコンテキストに基づいて応答を生成するモデルの能力を測定する L-Eval ベンチマークで Qwen1.5 モデルのパフォーマンスを評価しました。結果は次のとおりです。

結果から判断すると、Qwen1.5-7B-Chat のような小規模モデルでも GPT-3.5 と同等のパフォーマンスを発揮できますが、最大モデルの Qwen1.5-72B-Chat は GPT4-32k にわずかに遅れをとっています。

上記の結果は、32K トークン長での Qwen 1.5 の効果のみを示していることに注意してください。これは、モデルが最大長 32K のみをサポートできることを意味するものではありません。開発者は、config.json で max_position_embedding をより大きな値に変更して、モデルがより長いコンテキスト理解シナリオで満足のいく結果を達成できるかどうかを観察することができます。

外部システムへのリンク

今日、一般言語モデルの大きな魅力の 1 つは、外部システムとインターフェースできる可能性です。コミュニティ内で急速に台頭しているタスクである RAG は、幻覚、リアルタイム更新やプライベート データの取得が不可能なことなど、大規模言語モデルが直面するいくつかの典型的な課題に効果的に対処します。さらに、言語モデルは、API の使用や、指示や例に基づいたコードの記述において強力な機能を発揮します。大規模なモデルでは、コード インタープリターを使用したり、AI エージェントとして機能したりして、より幅広い価値をもたらすことができます。

Tongyi Qianwen チームは、RAG タスクにおける Qwen1.5 シリーズ チャット モデルのエンドツーエンドのパフォーマンスを評価しました。評価は、中国語と英語の RAG 評価に使用されるセットである RGB テスト セットに基づいています。

その後、Tongyi Qianwen チームは、T-Eval ベンチマークで Qwen1.5 が汎用エージェントとして実行される能力を評価しました。すべての Qwen1.5 モデルはベンチマーク用に特別に最適化されているわけではありません。

ツール呼び出し機能をテストするために、Alibaba は独自のオープンソース評価ベンチマークを使用して、ツールを正しく選択して呼び出すモデルの機能をテストしました。結果は次のとおりです。

最後に、Python コード インタープリタが高度な LLM にとってますます強力なツールになっているため、Tongyi Qianwen チームは、以前はオープンソースだった評価ベンチマークでこのツールを活用する新しいモデルの能力も評価しました。

結果は、大規模な Qwen1.5-Chat モデルが一般に小規模なモデルよりも優れており、Qwen1.5-72B-Chat が GPT-4 のツール使用パフォーマンスに近づいていることを示しています。しかし、数学の問題解決や視覚化などのコードインタープリタータスクでは、最大のQwen1.5-72B-Chatモデルでさえ、エンコード能力のせいでGPT-4に大幅に遅れをとっています。アリババは、将来のバージョンでは事前トレーニングとアライメント中のすべてのQwenモデルのエンコード機能を改善すると述べた。

Qwen1.5 は HuggingFace トランスフォーマーのコードベースと統合されています。バージョン 4.37.0 以降、開発者はカスタム コードをロードせずに、トランスフォーマー ライブラリのネイティブ コードを使用して Qwen1.5 を直接使用できます (trust_remote_code オプションを指定)。

オープンソース エコシステムでは、Alibaba は vLLM、SGLang (デプロイメント用)、AutoAWQ、AutoGPTQ (量子化用)、Axolotl、LLaMA-Factory (微調整用)、llama.cpp (ローカル LLM 推論用) などのフレームワークと協力し、現在ではこれらすべてが Qwen1.5 をサポートしています。 Qwen1.5 シリーズは、Ollama や LMStudio などのプラットフォームでも使用できます。

<<: 

>>:  素手でネジを動かす、ボストンダイナミクスのアトラスが再び進化:兄弟たち、工場に入る準備をしよう

ブログ    
ブログ    
ブログ    

推薦する

デジタル変革の本質、道筋、段階、課題を1つの記事で解説

01エンタープライズデジタルトランスフォーメーションの本質デジタル化により、人間が暮らす現実世界と仮...

EU AI法が規則を承認

欧州連合の人工知能法(AI法)は、政策立案者が画期的な規制のルールをうまく策定したことで、法律化に向...

人工知能に関する6つの大きな懸念

2017年、人工知能は最高熱に達し、最高情報責任者、コンサルタント、学者らは、この技術によってビジネ...

Baidu Smart Cloud Qianfan AppBuilder を解体し、次世代の大規模モデル アプリケーションを予測する

ゲスト|百度インテリジェントクラウド技術委員会委員長 孫克氏執筆者 | Yun Zhao 2023年...

sklearn 機械学習の使い方を 5 分で解説します (パート 1)

[[205998]]皆さんのお役に立てれば幸いですので、この投稿を書くのは大変でした。機械学習とデ...

...

人工知能に適したプログラミング言語はどれですか? ——人工知能におけるPythonの役割

Google の AI が囲碁の名人に勝利したことは、人工知能の突然かつ急速な進歩を測る手段であり、...

IIoTとAIは大きな課題に直面している

AI は IIoT から生成される膨大な量のデータを管理できるため、その基盤となるアーキテクチャはセ...

ソフトウェア開発者ガイド: 独自のデータで ChatGPT をトレーニングする

翻訳者 | 李睿レビュー | Chonglou制作:51CTO テクノロジースタック(WeChat ...

ディープラーニングの問題を無視してはいけない。ゲイリー・マーカスはそれに冷水を浴びせる義務がある

ニューヨーク大学の心理学教授であるゲイリー・マーカス氏は、かつてウーバーの人工知能研究所の所長を務め...

...

ロボティックプロセスオートメーションが人々の働き方をどのように変えているのか

[[422319]] RPA は人々の働き方をどのように変えるのでしょうか?今日、さまざまな業界の組...

...

LIMEを使用してさまざまな機械学習モデルのコード例を説明する

機械学習モデルはますます洗練され、正確になってきていますが、その不透明性は依然として大きな課題となっ...

...