ChatGPTを超える最初のオープンソースモデルが登場？ネットユーザーはそれを信じない

大型モデルが人気となり、毎日さまざまな「ビッグ」ニュースを目にするようになりました。

写真

今日、もう一つ大きなニュースがあります。新しくオープンソースになった大規模モデルが ChatGPT を上回りました。

それは正確には何ですか?

OpenLLM は、極めて小規模で多様性に富んだ高品質のマルチターン会話データセットに基づいて微調整されたオープンソース言語モデルのファミリーです。

過去 2 日間で、著者らはこの一連のモデルを更新し、OpenChat モデルが AlpacaEval で 80.9% の勝率を達成し、Vicuna GPT-4 評価ではパフォーマンスが ChatGPT の 105% に達したことを発表しました。

写真

つまり、上記の Twitter スクリーンショットでは、2 人のブロガーが主張するオープンソースモデルが ChatGPT/GPT-3.5 を上回っています。

OpenLLM は、LLaMA オープンソースモデルに基づくモデルを備えており、わずか 6,000 個の GPT4 ダイアログのデータセットで微調整され、非常に優れた結果が得られています。

更新されたモデルとレビュー結果は次のとおりです。

OpenChat: LLaMA-13B に基づくと、コンテキストの長さは 2048 です。
Vicuna GPT-4評価でChatGPTスコアの105.7%を達成。
AlpacaEvalで勝率80.9%を達成しました。
OpenChat-8192: LLaMA-13B に基づいており、コンテキストの長さが 8192 に拡張されています。
Vicuna GPT-4評価でChatGPTスコアの106.6%を達成。
AlpacaEvalで勝率79.5%を達成しました。

つまり、どちらのモデルも Vicuna GPT-4 評価リストで ChatGPT を上回りました。

しかし、このレビュー＋宣伝という手法は、すべての人に認知されているわけではないようです。

ネットユーザー：誇張

Twitterでの議論では、一部のネットユーザーがこれは誇張だと指摘した。

写真

この「ビッグ」ニュースが発表されると、ビクーニャの関係者もすぐに反応した。

実際、Vicuna ベンチマークは廃止され、より高度な MT-bench ベンチマークが採用されています。このベンチマークは、より困難なタスクでテストされ、gpt4 評価のバイアスと制限に対処します。

MT-benchでは、OpenChatのパフォーマンスはwizardlm-13bと同様です。つまり、オープンソースモデルと GPT-3.5 の間にはまだ一定のギャップが存在します。これはまさに MT-bench が強調していることです。オープンソースモデルは完璧ではありませんが、これによりチャットボットの評価が向上します。

写真

先日、Machine Heart さんが「アルパカたちはどこまで来たのか？」というコンテンツを報告しました。研究によれば、最高のものは GPT-4 のパフォーマンスの 68% を達成できる」とされており、オープンソースモデルのパフォーマンスも評価しています。

また、この評価では、どの評価においても、最良モデルの平均パフォーマンスは ChatGPT の 83%、GPT-4 の 68% に達することが示されており、このギャップを縮めるには、より優れたベースモデルと命令チューニングデータをさらに構築する必要があることを示しています。

興味のある読者は原文を確認してください。

<<: 大規模言語モデルと知識グラフに関する共同研究のレビュー：2つの相補的な技術的利点

>>: 大きな言語モデルに目を向けると、その画像認識性能は CLIP を超えています。スタンフォードのような新しい方法では、マルチモーダル事前トレーニングは不要である

ニューラルネットワークのトレーニングではCPUはGPUより10倍以上高速。インテル：行列演算はもう使わない

ブログ

ChatGPTを超える最初のオープンソースモデルが登場？ネットユーザーはそれを信じない

ネットユーザー：誇張

ニューラルネットワークのトレーニングではCPUはGPUより10倍以上高速。インテル：行列演算はもう使わない

EUはAI法に加えて、GPT-4などの高機能モデルにも追加の規則と制約を追加する予定である。

Googleの最新の「効率的なトランスフォーマー」では、トランスフォーマーの効率を向上させる方法を説明しています

先日の清明節にはドローンが頻繁に登場しました！

科学者らが病気の早期発見と治療のための埋め込み型人工知能システムを開発

中国の 700 万人のプログラマーが足りない場合はどうすればいいでしょうか?北京大学のソフトウェア自動化の専門家、謝涛氏に聞いた。

顔認識に関する国家基準が策定中：顔のスキャンは許可されず、検証後にデータは削除される必要がある

推薦する

具現化された知能の新時代！ VLAは、UIナビゲーションとロボット操作を備えた最強の基本モデルMagmaを歓迎します

ロボットと自動化技術は、パンデミックの新たな常態の中でどのように新しい雇用を生み出すのでしょうか?

プログラマーがマスターになるためのプログラミングアルゴリズムトップ10

口を動かしてゴッホの傑作を生き生きと表現しましょう！朱俊燕チームの最新AIモデル、テキストで川の方向を制御でき、映画の繊細な質感が十分に表現されている

ナレッジグラフの過去と現在: ナレッジグラフがなぜ人気なのか?

レノボグループが従業員の払い戻しの内部監査を実施できるようRPAロボットを導入

GPT-4Vに匹敵し、120万データと8つのA100のみを使用し、トレーニングは1日で完了し、LLaVA-1.5は11のベンチマークSOTAを更新しました。

「ディープラーニング」市場の動向を多面的に分析

Shopee多言語商品知識グラフ技術構築方法と応用

マスク氏は人気検索に頻繁に登場、テスラは「過大評価されている」

マスク着用で顔認証での支払いは難しいですが、手渡しでの支払いは可能ですか？