Alibaba Cloud が Tongyi Qianwen 2.0 をリリース、パフォーマンスが加速して GPT-4 に追いつく

Alibaba Cloud が Tongyi Qianwen 2.0 をリリース、パフォーマンスが加速して GPT-4 に追いつく

2023年杭州雲奇大会において、アリババクラウド最高技術責任者の周景仁氏は、数千億のパラメータを持つ大規模モデル「Tongyi Qianwen 2.0」を発表した。 10 件の権威ある評価において、Tongyi Qianwen 2.0 の総合的なパフォーマンスは GPT-3.5 を上回り、GPT-4 に追いつくまでに加速しています。

過去6か月間で、Tongyi Qianwen 2.0のパフォーマンスは飛躍的に向上したと報告されています。4月にリリースされたバージョン1.0と比較して、Tongyi Qianwen 2.0は、複雑な指示の理解、文学の創作、一般的な数学、知識の記憶、幻覚への耐性などの機能が大幅に向上しました。現在、Tongyi Qianwenの総合性能はGPT-3.5を超え、GPT-4に追いつくべく加速しています。

MMLU、C-Eval、GSM8K、HumanEval、MATHを含む10の主要なベンチマーク評価セットにおいて、Tongyi Qianwen 2.0の総合スコアはMetaのLlama-2-70Bを上回りました。OpenAIのChat-3.5と比較すると9勝1敗、GPT-4と比較すると4勝6敗となり、GPT-4との差がさらに縮まりました。

中国語と英語を理解する能力は、大規模言語モデルの基本スキルです。英語タスクに関しては、Tongyi Qianwen 2.0はMMLUベンチマークで82.5点を獲得し、GPT-4に次ぐ成績を収めました。パラメータ数を大幅に増やすことで、Tongyi Qianwen 2.0は複雑な言語構造と概念をよりよく理解し、処理することができます。中国語タスクに関しては、Tongyi Qianwen 2.0はC-Evalベンチマークで最高得点を獲得し、明らかな優位性を発揮しました。これは、モデルがトレーニング中により多くの中国語コーパスを学習し、中国語の理解力と表現力がさらに向上したためです。

数学的推論やコード理解などの分野では、Tongyi Qianwen 2.0 は大きな進歩を遂げました。推論ベンチマークテスト GSM8K では、Tongyi Qianwen は強力なコンピューティングおよび論理的推論能力を発揮して 2 位にランクされました。HumanEval テストでは、Tongyi Qianwen は GPT-4 および GPT-3.5 に僅差で続きました。このテストは主に、大規模モデルがコード スニペットを理解して実行する能力を測定します。これは、プログラミング支援や自動コード修復などのシナリオに大規模モデルを適用するための基礎となります。

<<: 

>>:  ロボティック・プロセス・オートメーションは大きな問題でしょうか?

ブログ    

推薦する

ドローンによる食品配達が到来、こうした問題が注目を集めている

無人運転車による配達に続き、ドローンによる食品配達も現実化に向かって加速している。先日終了した202...

GitHub のスター数は 10 万近くに達しています。インド人男性がすべての AI アルゴリズムを Python と Java で実装しました。

[[326676]]今日、アルゴリズムを実装した 2 つのプロジェクトが GitHub のホット ...

マイクロソフトがOpenAIの理事に就任、アルトマン氏が初めてQ*に回答:残念なリーク

OpenAI の最初のシーズンは本当に終わりました。 ChatGPTがちょうど1周年を迎えようとして...

インペリアル・カレッジ:専門医の80%が懸念する心臓リズムデバイスインプラント手術問題をAIで解決する方法

インペリアル・カレッジ・ロンドンの研究者らは、ペースメーカーや除細動器のメーカーとモデルを識別するた...

起業180日で評価額20億ドルを達成! OpenAIの欧州版は人気があり、Llamaの開発者は独自の会社を設立し、Nvidiaが投資している

「欧州版OpenAI」の最新評価額は20億ドルに近づいています!パリを拠点とする大手モデルスタートア...

Aiti Tribe Clinic 第 6 回: 機械学習は緊急事態をどのように判断するのか?

[51CTO.com からのオリジナル記事]活動の説明: Aiti Tribe は、コア開発者に詳...

臨床研究における人工知能と機械学習の活用の機会をいかに捉えるか

製薬業界の専門家は、人工知能(AI)が2021年に業界で最も破壊的な技術になると考えています。臨床開...

古代のLRから始まる初心者でもわかるレコメンデーションアルゴリズム入門

[[386397]]みなさんこんにちは。私は、気づかないうちに長い間、推薦システムに取り組んできまし...

快手が1兆ドル規模のパラメータ推奨ランキングモデルを発表

正確な推奨システム モデルは、多くのインターネット製品の中核的な競争力です。パーソナライズされた推奨...

研究室から生活まで、人工知能はどこまで進化しているのでしょうか?

[[212805]]人工知能の概念は1956年に初めて提唱されました。60年間の浮き沈みを経て、人...

...

...

...