クロード 3 のアリーナ ランクがついに登場: わずか 3 日間で 20,000 票が集まり、リストのトラフィックが前例のないレベルに達しました。 最終的に、Claude 3 の最強の「Big Cup」モデル Opus が 1233 点を獲得し、GPT-4-Turbo と競争できる最初のプレーヤーになりました。 「中」の Sonnet も、GPT-4 の 2 つの古いバージョンと同等で、かなり優れています。 写真 しかし、全体的には、GPT-4 シリーズが依然として優位に立っています。 クロード3号のパフォーマンスは宣伝されていたものとは少し違っていました。ネットユーザーは次のようにまとめている。 GPT-4 は依然として大規模モデルの王様です! しかし、無料の「中」の Claude 3 (Sonnet) はさらにコストパフォーマンスに優れていました。 写真 アリーナの大型模型が公開、「新王者」は3位にClaude 3 がリリースされたとき、公式の宣伝では、あらゆる面で GPT-4 を上回っているとされていましたが、それが GPT-4 のどのバージョンであるかについては言及されていませんでした。 写真 アリーナ リーダーボード (LMSYS チャットボット アリーナ リーダーボード) の最新アップデートにより、そのことが分かります。 詳細を見てみましょう。 1位は、昨年11月にOpenAIがリリースしたGPT-4 Turboです。 GPT-4-1106-プレビュー。 より強力かつ安価で、128,000 のコンテキストがあり、トレーニング データは 2021 年 9 月から 2023 年 4 月まで更新されます。 1位は今年1月にリリースされたGPT-4 Turboの最新バージョンです。 GPT-4-0125-プレビュー。 トレーニングデータはより広範囲にわたり、2023 年 12 月まで延長されます。 両者とも1251点を獲得しました。 次はクロード3号(トレーニングデータは2023年8月まで)です。 最も強力なバージョンである Opus のスコアは 1233 で、GPT-4 Turbo より 18 ポイント低い結果となりました。 写真 このギャップは比較するとそれほど大きくありません。結局のところ、下を見てください。 これは、GPT-4 の 2 つのバージョン (0314 と 0613) よりもそれぞれ 48 ポイントと 72 ポイント高い値です。 中程度のパフォーマンスの Claude 3 Sonnet は、GPT-4 の 2 つのバージョンの間で 6 位にランクされています。 しかし、0314版より5ポイント低いだけであり、一気に追い抜く可能性は大きい。 写真 したがって、一般的に、公式の宣伝には何ら問題はありません。すべての面で GPT-4 の旧バージョンを上回っていますが、GPT-4 Turbo からはまだ少し離れていますが、それほど遠くはありません。 ——このリストの評価メカニズムなどから判断すると、その結果は業界でかなり認知されているようですね。 これは「Vicuna」の著者チームによって開始されました。 しかし、審査員は「ラマ」や GPT-4 ではなく、人間の好みに基づいています。 詳細には、2 つの匿名モデルにランダムに任意の質問をし、それぞれの回答を評価して、より良い回答に投票します。 写真 1 ラウンドで投票できない場合は、質問を続けることもできます。チャット中にモデルが誤って自分の身元を明らかにした場合、投票は無効になります。 特に、スコアリング ルールでは公平性を確保するために Elo メカニズムが使用されます (King of Glory をプレイしている友人はこれをよく知っています)。 たとえば、モデルが負けた場合、そのモデル自体が弱いため、スコアが必ずしも低くなるわけではありません。これは予想どおりです。 これまでのところ、このリストは非常に人気があり、世界中から73人のモデルがチャレンジに参加し、ネットユーザーから37万票以上を獲得しています。 同義千文がトップ10入りクロード3号に加えて、好成績を収めた他の選手も見てみましょう。 まず最初に言及すべきは、Gemini Pro をベースにした Bard で、GPT-4Turbo と Claude 3 に次いで 4 位にランクされています。 写真 ちょっと意外とも言えるかもしれません。 ネットユーザーは冗談を言った。 Google は文字通りランキングに穴を開けてしまいました。 彼はすぐにジェフ・ディーンとディープマインドのトップをタグ付けした。「おい、もっと頑張れよ(王仔)」 写真 次に、Alitong Yi Qianwen(バージョン 1.5、先月リリース)についてお話しします。 このランキングではトップ10入りし、9位タイとなり、国内プレーヤーの中では最高の成績を収めました。 写真 他の国内プレーヤーに加え、Claude 2、Gemini Pro、GPT-3.5なども残しています。 完全なリスト: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard |
<<: AR/VRが製造業の自動化とロボット工学の発展を促進する方法
>>: アルトマンの巨大な AI 帝国を深く探ります。核融合プラントから不死技術センターまで、その規模は驚異的です。
AI を活用して財務管理や投資を行いたいと考えていますか? [[351941]]好むと好まざるとにか...
[[282454]]シャプレー値について初めて聞いたのは、モデルの解釈可能性を勉強していたときでし...
Nvidia が Arm を 400 億ドルで買収する計画だというニュースを覚えていますか?この記事...
GPT4 などの現在の大規模言語モデル (LLM) は、画像が与えられた場合にオープンエンドの指示...
9月10日のニュース、2023年は人工知能の年です。チャットボットChatGPTから、グラミー賞に参...
[[333118]]再帰は、プログラミングの本で説明するのが最も難しい部分である魔法のアルゴリズムで...
移動ロボットは、人間が設計したタスクを完了するために、現実世界の環境を効果的にナビゲートし、周囲の人...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
2021年、情熱的な若者のグループが、AI4Science(AI for Science)を機械学習...
心臓ペースメーカーの正確なメカニズムはわかっていませんが、この物理的プロセスを再現する「心臓」を私た...
AI がビジネスの世界に導入されたとき、AI は顧客体験に革命をもたらすなど、顧客のニーズをよりよ...
国内企業の大物たちが次々と退職し、大学へ移ったり、起業したりしている。違うのは、量子コンピューティン...
他の情報技術と同様に、人工知能もさまざまなセキュリティ問題や、プライバシー、差別、不公平などの新たな...