Google が名誉挽回を果たし、新しいバードが GPT-4 を打ち負かし、LLM ランキングで 2 位にランクインしました。ジェフ・ディーンは「我々は戻ってきた」と叫ぶ

一夜にして、Bard は GPT-4 を追い抜き、そのパフォーマンスは最強の GPT-4 Turbo に近づきました。

これは夢のような話のように聞こえますが、実際に起こったことです。

ちょうど昨日、Google CEO のジェフ・ディーン氏が、Google の最新モデルである Gemini Pro-scale の早期プレビューをツイートしました。

その結果、Bard は 3 月のデビューに比べてパフォーマンスが大幅に向上しただけでなく、機能も充実しました。

最新のGemini Proスケールのサポートにより、Bardはランキングで2位に直接ジャンプしたことがわかります。

これまでの2つのGPT-4モデルを一気に打ち負かし、1位のGPT-4 Turboとの差も非常に小さくなりました。

ジェフ・ディーン氏は「スケール」の意味について詳しく述べなかったが、名前から判断すると、第1世代のGemini Proよりも大型のバージョンになる可能性が高い。

以前外国メディアによって漏洩された内部メールによると、Gemini Ultra を搭載した Bard Advanced は Google の従業員に試用のために完全に公開されているとのことです。

言い換えれば、Google の最も強力なモデルの発売はそう遠くないということです。

Google の Gemini Pro のパフォーマンスはアップデート後も大幅に向上し続けており、完成した Gemini Ultra の機能に対する期待は高まっています。

しかし、新しく発売されたBardは今のところ約3,000件の評価しか受けていないのに対し、GPT-4は30,000件の評価を受けています。したがって、この結果は将来変わる可能性があります。

いずれにせよ、これは Google にとって注目すべき成果であり、Gemini Pro-Scale の性能を上回ると予想される最も強力な AI モデルである Gemini Ultra の今後のリリースにも期待が寄せられています。

Google BardがGPT-4を上回り2位に

簡単に紹介すると、このチャットボットアリーナ「Chatbot Arena」は、カリフォルニア大学バークレー校が主導し、CMUやUCSDなどのトップ大学が共同で作成したもので、学術界では非常に権威のある大規模な対話能力ランキングです。

このリストは、MOBA ゲームと同様の「予選マッチ」メカニズムを使用しており、各大規模モデルが PvP を通じてパフォーマンスをランク付けできます。

この間、ユーザーは（特定のモデルを知らなくても）モデルと対話し、好みの回答を選択します。これらの投票によって、リーダーボード上のモデルの順位が決まります。

この方法は、多くの PvE ベンチマークテストで発生する可能性のある「ブラッシング質問」によるスコア向上の問題を効果的に回避でき、業界では比較的客観的な大規模モデルの能力ランキングであると見なされています。

簡単に区別できるように、LMSYS Org は、現在市場には Gemini Pro の 3 つのバージョンが存在することを指摘しました。

- Gemini Pro API : ユーザーはGoogle CloudのVertex AI APIを通じてアクセスできます

- Gemini Pro (dev) API: Google AI Studio からアクセスできる開発者 API

- バード（1月4日に更新されたGemini Pro）：現在、1月24日に更新されたGemini Proにアクセスする唯一の方法

同時に、GoogleのBardプロジェクトのシニアディレクターであるサドフスキー氏は、リーダーボード上のBardとGemini Pro（API）は微調整レベルでは2つの異なるモデルであり、Bardはインターネット上の情報を取得できることも明らかにした。

ChatBot Arenaでは、1月24日にアップデートされたBardがインターネット検索をサポートし、以前リリースされたGemini Pro(API)に比べてリアルタイムの情報質問への応答性が大幅に向上しました。

Google からのこの一連のアップデートから、Gemini Pro の潜在能力が十分に発揮されるには程遠いことがわかります。Google が努力を続け、OpenAI の独占に挑戦してくれることを期待します。

以下は、1 月 14 日時点の Bard の ChatBot Arena の結果の内訳です。

すべての非同点対戦におけるモデルAとモデルBの勝利の割合

異なるモデルの組み合わせ間の決闘回数の統計（引き分けを除く）

1000回のランダムサンプリングを使用したEloレーティングのブートストラップ推定

等確率サンプリングと同点なしを前提とした他のすべてのモデルと比較した平均勝率

Elo レーティングシステム

Elo レーティングシステムは、プレイヤーの相対的なスキルレベルを計算する方法であり、競技ゲームやさまざまなスポーツで広く使用されています。その中で、Elo スコアが高いほど、優れたプレーヤーであると言えます。

たとえば、League of Legends、Dota 2、PlayerUnknown's Battlegrounds などでは、システムはこのメカニズムに基づいてプレイヤーをランク付けします。

たとえば、League of Legends でランク付けされたゲームを何度もプレイすると、非表示のスコアが表示されます。この隠されたスコアは、あなたのランクを決定するだけでなく、ランク付けされた試合で遭遇する対戦相手が基本的に同じレベルであることを決定します。

さらに、この Elo レーティングの値は絶対的です。つまり、将来新しいチャットボットが追加されても、Elo レーティングを通じてどのチャットボットがより強力であるかを直接判断することができます。

具体的には、プレイヤー A の評価が Ra で、プレイヤー B の評価が Rb の場合、プレイヤー A の勝利確率の正確な式 (10 進ロジスティック曲線を使用) は次のようになります。

プレイヤーの評価は、試合ごとに直線的に更新されます。

プレイヤー A (レーティング Ra) が Ea を獲得すると予想したが、実際には Sa を獲得したとします。プレーヤーの評価を更新するための式は次のとおりです。

ネットユーザーの間で熱い議論

これに対してネットユーザーからは「現在アクセスできる吟遊詩人は2位の吟遊詩人なのか？」という質問が寄せられた。

Google は公式にその旨を回答しており、現在アクセスしている Bard はランキング上の Bard よりもマップ拡張機能などのアプリケーションをより多くサポートできます。

しかし、一部のネットユーザーは、BardがPvPランキングで良い成績を収めているにもかかわらず、ユーザーのニーズを理解し、実用的な問題を解決する能力の点で、BardとGPT-4の間にはまだ大きなギャップがあると不満を述べています。

また、ネットユーザーの中には、インターネットに接続できるBardを使って、オフラインのGPT-4と競争するのは不公平だと考える人もいる。それにしてもまだ戦ってないのに…

最も興味深いのは、ネットユーザーがランキングで発見した「ハイライト」です。GPT-4の最大のライバルとして知られるClaudeは、アップデートのたびに弱体化しています。

この点に関して、これまでの分析では、Anthropic が精力的に開発してきた人間の配置がモデルのパフォーマンスに重大な影響を及ぼすことが示唆されています。

GPT-4 Turbo 超ロングコンテキスト A/B テスト

興味深いことに、ジェフ・ディーン氏も個人的に関与したこの「ランキング操作」は、OpenAIが5つの新しいモデルを連続してリリースした翌日に発生しました。

OpenAIによると、GPT-4 Turboの新バージョンであるgpt-4-0125-previewでは、モデルの「怠惰さ」が大幅に改善されるだけでなく、コード生成能力も大幅に向上します。

しかし、バードに関して誰もが疑っているように、今回GPT-4がさらに強力になったかどうかはまだ検証されていない。

これを受けて、AI企業Smolの創設者であるShawn Wang氏は、10万語を超える超長文コンテキストでの新旧GPT4-Turboの要約能力を比較しました。

ワン氏は、2つのテストでは全く同じプロンプト語と基本的に同じコーパスが使用されたと述べた。

厳密には厳密ではありませんが、各モデルは 300 回以上の API 呼び出しを行ったため、この結果は要約タスクにとって依然として一定の参考値となります。

結果によると、2024 年 1 月の GPT4-Turbo では 20,265 語を生成するのに 19 分かかったのに対し、2023 年 11 月の GPT4-Turbo では 18,884 語を生成するのに 16 分かかりました。

つまり、新しいモデルの生成速度は平均で約 18% 遅くなり、生成されるテキストの長さは平均で約 7% 長くなります。

品質：

- 2024年1月のモデルでは被験者の選択が若干改善されましたが、まだ問題があります

- 2023年11月モデルではエラーメッセージが増える

- 2024年1月のモデルでは、要約にサブ見出しを追加する機能が若干改善されました

- 2024年1月モデルには重大なフォーマットエラーがあったが、これは以前は極めて稀だった。

- 2023年11月のモデルテキストはより詳細です

全体的に、GPT4-Turbo の新しいバージョンでは、このアプリケーションシナリオの要約が後退しています。

左: 2023 年 11 月、右: 2024 年 1 月 (すべて表示するには左または右にスワイプしてください)

OpenAI の最後の「オープンソース遺産」の 2 周年

AI分野の発展は非常に急速で、人々に時間の速さについての錯覚さえ与えるほどだと言わざるを得ません。

本日、NVIDIA のシニアサイエンティストである Jim Fan 氏が、InstructGPT のリリース 2 周年を記念してツイートしました。

ここで、OpenAI は標準プロセスを定義しています: 事前トレーニング -> 教師あり微調整 -> RLHF。これは、今日でも誰もが従う基本的な戦略です (ただし、DPO などのいくつかのバリエーションはあります)。

これは、大規模言語モデルが学術的な探究 (GPT-3) から実際の影響力のある製品 (ChatGPT) へと移行する重要な転換点であるだけでなく、最先端のモデルをトレーニングする方法を詳述した最後の OpenAI 論文でもあります。

論文アドレス: https://arxiv.org/abs/2203.02155

- InstructGPT は 2022 年の NeurIPS カンファレンスでデビューしましたが、RLHF の発明者ではありません。実際、関連ブログでは、OpenAI チームが 2017 年に完了したオリジナルの RLHF 研究を読者に紹介しています。

この研究はもともと、シミュレーションロボットの分野で明確に定義するのが難しいタスクを解決するために設計されました。RLHF は、人間の注釈者によって提供された 900 のバイナリ設定を使用して、単純な「ジャンプ」ロボットがシミュレーション環境でバックフリップを行うことを学習できるようにしました。

論文アドレス: https://arxiv.org/abs/1706.03741v4

- このモデルには、1.3B、6B、175Bの3つのサイズがあります。注釈者は、複雑なプロンプト設計を必要とする古い GPT-3-175B よりも Instruct-1.3B を大幅に好みました。 Microsoft の最も有名な「小型モデル」である Phi-1 も 1.3B です。

- InstructGPT は、研究結果を美しく提示する方法を示します。 3段階の図は明確で分かりやすく、AI分野で最も象徴的なイメージの1つとなっています。序文はわかりやすく、8 つの重要なポイントが太字で強調されています。限界と偏見についての議論は、事実に基づいて、率直かつ直接的に行われます。

<<: モノのインターネットにおける人工知能と機械学習の役割は何ですか?

>>: LLM ウィザード、コードの事前トレーニングは魔法の杖です! UIUC中国チームがコードデータの3つの利点を明らかに

ブログ

GPT-4 は愚かになる!新しい質問に答えるパフォーマンスが低すぎます。レベルを維持したい場合は、新しいモデルをトレーニングし続けるしかありません。