Alibaba Cloud が Tongyi Qianwen 2.0 をリリース、パフォーマンスが加速して GPT-4 に追いつく

Alibaba Cloud が Tongyi Qianwen 2.0 をリリース、パフォーマンスが加速して GPT-4 に追いつく

2023年杭州雲奇大会において、アリババクラウド最高技術責任者の周景仁氏は、数千億のパラメータを持つ大規模モデル「Tongyi Qianwen 2.0」を発表した。 10 件の権威ある評価において、Tongyi Qianwen 2.0 の総合的なパフォーマンスは GPT-3.5 を上回り、GPT-4 に追いつくまでに加速しています。

過去6か月間で、Tongyi Qianwen 2.0のパフォーマンスは飛躍的に向上したと報告されています。4月にリリースされたバージョン1.0と比較して、Tongyi Qianwen 2.0は、複雑な指示の理解、文学の創作、一般的な数学、知識の記憶、幻覚への耐性などの機能が大幅に向上しました。現在、Tongyi Qianwenの総合性能はGPT-3.5を超え、GPT-4に追いつくべく加速しています。

MMLU、C-Eval、GSM8K、HumanEval、MATHを含む10の主要なベンチマーク評価セットにおいて、Tongyi Qianwen 2.0の総合スコアはMetaのLlama-2-70Bを上回りました。OpenAIのChat-3.5と比較すると9勝1敗、GPT-4と比較すると4勝6敗となり、GPT-4との差がさらに縮まりました。

中国語と英語を理解する能力は、大規模言語モデルの基本スキルです。英語タスクに関しては、Tongyi Qianwen 2.0はMMLUベンチマークで82.5点を獲得し、GPT-4に次ぐ成績を収めました。パラメータ数を大幅に増やすことで、Tongyi Qianwen 2.0は複雑な言語構造と概念をよりよく理解し、処理することができます。中国語タスクに関しては、Tongyi Qianwen 2.0はC-Evalベンチマークで最高得点を獲得し、明らかな優位性を発揮しました。これは、モデルがトレーニング中により多くの中国語コーパスを学習し、中国語の理解力と表現力がさらに向上したためです。

数学的推論やコード理解などの分野では、Tongyi Qianwen 2.0 は大きな進歩を遂げました。推論ベンチマークテスト GSM8K では、Tongyi Qianwen は強力なコンピューティングおよび論理的推論能力を発揮して 2 位にランクされました。HumanEval テストでは、Tongyi Qianwen は GPT-4 および GPT-3.5 に僅差で続きました。このテストは主に、大規模モデルがコード スニペットを理解して実行する能力を測定します。これは、プログラミング支援や自動コード修復などのシナリオに大規模モデルを適用するための基礎となります。

<<: 

>>:  ロボティック・プロセス・オートメーションは大きな問題でしょうか?

ブログ    
ブログ    
ブログ    

推薦する

ハーバード大学の科学者がシャコの「バネ仕掛けの拳」機構を模倣したマイクロロボットを開発

海外メディアの報道によると、シャコは世界で最も速い動物種の一つだが、シャコがどのようにしてこのような...

ChatGPTでユーザーは何をするのでしょうか?プログラミングは30%を占めています。数千万人のユーザーを分析すると答えが見つかります

生成 AI、特に ChatGPT は、技術系プレス、主流メディア、そしてほぼすべての分野の専門家の間...

成熟したAIは独自のコードを書くべきだ。IBMは55の言語で5億行のコードデータセットを公開

[[400902]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

...

...

グラフニューラルネットワークは CV の未来でしょうか?中国科学院ソフトウェア研究所は、ViTを上回る新しいCVモデルViGをリリースした。

コンピュータービジョンのネットワーク構造は新たな革命を迎えようとしているのでしょうか?畳み込みニュー...

AIはサプライチェーンの脆弱性をある程度軽減できる

今日の緊迫したサプライチェーンにおいて、最も脆弱なのはスキル不足である可能性があり、景気後退により短...

2020年の世界産業用ロボット業界の現在の市場状況と競争環境の分析

2020年の世界産業用ロボット産業の現状と競争環境の分析:アジア太平洋地域が世界最大の市場に1. 世...

GPT時代の学習アルゴリズム、線形モデルを実装するPytorchフレームワーク

今日は線形回帰モデルの実装を続けます。ただし、今回はすべての関数を自分で実装するのではなく、Pyto...

大手モデルは「チャートをブラッシュアップ」するために近道をとっているのでしょうか?データ汚染問題は注目に値する

生成 AI の初年度で、すべての人の仕事のペースが大幅に加速しました。特に、今年は誰もが大型モデルの...

不均衡なデータを処理する Python ライブラリ トップ 10

データの不均衡は機械学習における一般的な課題であり、あるクラスの数が他のクラスを大幅に上回り、偏った...

...

人工知能バーチャル試着室:小売業者向けの新たな主流マーケティングツール

COVID-19 は世界中の人々の日常生活のあり方を変えましたが、実店舗ほどその影響を痛切に感じてい...

世界の自動運転「M&A」を4大勢力が攻勢

偉大な将軍の名声の裏には、数え切れないほどの兵士たちの援助がある。この声明は自動運転の分野にも当ては...

機械学習における特徴選択の3つの代替手法

ソレダッド・ガリ翻訳者:趙青棠企画丨孫淑娇、梁策インターネットで「特徴選択」を検索してみると、特徴選...