「ビッグモデル予選コンペティション」チャットボット アリーナの公式リストが更新されました: Google Bard は GPT-4 を上回り、GPT-4 Turbo に次ぐ 2 位にランクされました。 しかし、多くのネットユーザーはこれに対して「不満」や「不公平」といった意見を表明した。 Google AIの責任者であるジェフ・ディーン氏は、Bardに新しい大型モデルであるGemini Proスケールが搭載されたことにより、そのパフォーマンスが大幅に向上したことを明らかにした。 これは、「予選ゲーム」でプレイするバードがインターネットに接続できることを意味します。 ネットユーザーの疑問は、次の点に集中している。
ハギング・フェイスの「チーフ・アルパカ・オフィサー」オマール・サンセビエロ氏も次のように語った。
さまざまな疑問に直面して、Imsys は公式に回答し、次のように指摘しました。
ネットユーザーが最も懸念している、バードに抜かれたGPT-4が非インターネット版であるという点について、イムシスは「リアルタイムデータへのアクセスがユーザー体験を向上させることができるなら、ランキングはそれを反映するだろう」と述べた。 彼はまた、OpenAI、Bing、Microsoft の幹部である Mikhail Parakhin に直接 @ を送り、GPT-4 のネットワーク バージョンや Bing Copilot の分野で喜んで参加すると述べました。 最新ニュースとしては、OpenAI の最新モデル gpt-4-0125-preview が現在アリーナに登場しており、ユーザーの投票を待っているところです。 Bard はどのようにして GPT-4 を上回ったのでしょうか?Chatbot Arena は、カリフォルニア大学バークレー校の研究者が率いる Imsys (Large Model Systems Organization) によって作成された大規模モデルの権威あるリストです。 このランキングは匿名の 1V1battle 投票ルールを採用しており、Elo レーティング システムに基づいてランク付けされます。 具体的には、投票ページは以下のようになります。モデルAとモデルBはどちらも匿名です。ユーザーは複数の質問をした後、モデルの回答を評価します。選択肢は全部で4つあります。Aの方が良い、Bの方が良い、AとBは同じくらい良い、AもBも良くない、です。 なお、質疑応答の過程でモデルの身元が漏洩した場合、投票は無効となります。 現在のリストによると、アリーナには 56 個の大型モデルがあります。 これまで、GPT-4 は「はるかにリードする」スコアで長い間ランキングを独占していました。しかし、Bard の新バージョンがリリースされた後、GPT-4 の 2 つのバージョンを直接上回り、1 位の GPT-4 Turbo にわずか 34 ポイント差で 2 位に躍り出ました。 さらに詳しく言うと、同点のないモデル A 対 B のすべての対戦では、モデル A の勝利の割合は次のようになります。 各モデルのペアのヘッズアップマッチ(同点なし)の数は次のとおりです。 さらに、Chatbot Arena リーダーボードでは、ブートストラップ法を使用して、Elo レーティング推定値のランダム サンプルを 1,000 個実行し、信頼区間などを評価します。 単一モデルと他のすべてのモデルとの比較における平均勝率は次のとおりです。 ただし、アリーナのランキングはリアルタイムであることは注目に値します。バードは現在2位ですが、合計投票数は3,000票強しかありません。 それに比べて、GPT-4 Turbo は 30,000 票以上を獲得しており、上回った 2 つのバージョンは Bard よりも数倍多くの票を獲得しています。 GPT-4の最新バージョンが市場に投入されたので(ランキングはまだ更新されていませんが)、フォローアップの結果を待つ必要があります〜 参考リンク: https://twitter.com/lmsysorg/status/1752035632489300239. |
<<: AIGC教育産業パノラマレポート:AIティーチングアシスタントと家庭教師が現実のものとなり、学習マシンが新たな機会をもたらす
最近、ChatGPT を使用しているときに小さな問題に遭遇しました。特殊な状況のため、syslog ...
2018 年には、機械学習と人工知能に基づくプラットフォーム、ツール、アプリケーションの劇的な成長が...
ニューラル ネットワークを「騙す」ために使用される敵対的サンプルは、コンピューター ビジョンと機械学...
スポーツにロボットを導入することは、器用な移動、リアルタイムのモーション制御、経路計画などの最新ロボ...
人工知能について言えば、ほとんどの人がまだ混乱していると思います。それは何なのか?何に使われるのか?...
強化学習 (RL) とディープラーニングの組み合わせは、一連の印象的な結果をもたらし、(ディープ) ...
ちょうど昨日、第 1 回 CPAL ミニマリスト アカデミック カンファレンスで、ライジング スター...
過去1年を振り返ると、人工知能の発展は繁栄し、多彩なものであったと言えます。人工知能が3回連続で政府...
人工知能は1956年以来40年以上の発展を遂げてきました。現在、AI の目標はコンピューターを人間の...
今日の社会では、ロボットはますます人間とつながるようになっています。産業用ロボットが組立ラインで忙し...
ディープラーニングは、機械学習の最も重要な分野の 1 つとして、近年急速に発展しています。膨大なデー...
2011年、Google DeepMindの共同創設者であるシェーン・レッグは、2028年までにAI...