ChatGPTを超える最初のオープンソースモデルが登場?ネットユーザーはそれを信じない

ChatGPTを超える最初のオープンソースモデルが登場?ネットユーザーはそれを信じない

大型モデルが人気となり、毎日さまざまな「ビッグ」ニュースを目にするようになりました。

写真

今日、もう一つ大きなニュースがあります。新しくオープンソースになった大規模モデルが ChatGPT を上回りました。

それは正確には何ですか?

OpenLLM は、極めて小規模で多様性に富んだ高品質のマルチターン会話データセットに基づいて微調整されたオープンソース言語モデルのファミリーです。

過去 2 日間で、著者らはこの一連のモデルを更新し、OpenChat モデルが AlpacaEval で 80.9% の勝率を達成し、Vicuna GPT-4 評価ではパフォーマンスが ChatGPT の 105% に達したことを発表しました。

写真

つまり、上記の Twitter スクリーンショットでは、2 人のブロガーが主張するオープンソース モデルが ChatGPT/GPT-3.5 を上回っています。

OpenLLM は、LLaMA オープンソース モデルに基づくモデルを備えており、わずか 6,000 個の GPT4 ダイアログのデータセットで微調整され、非常に優れた結果が得られています。

更新されたモデルとレビュー結果は次のとおりです。

  • OpenChat: LLaMA-13B に基づくと、コンテキストの長さは 2048 です。
  • Vicuna GPT-4評価でChatGPTスコアの105.7%を達成。
  • AlpacaEvalで勝率80.9%を達成しました。
  • OpenChat-8192: LLaMA-13B に基づいており、コンテキストの長さが 8192 に拡張されています。
  • Vicuna GPT-4評価でChatGPTスコアの106.6%を達成。
  • AlpacaEvalで勝率79.5%を達成しました。

つまり、どちらのモデルも Vicuna GPT-4 評価リストで ChatGPT を上回りました。

しかし、このレビュー+宣伝という手法は、すべての人に認知されているわけではないようです。

ネットユーザー:誇張

Twitterでの議論では、一部のネットユーザーがこれは誇張だと指摘した。

写真

この「ビッグ」ニュースが発表されると、ビクーニャの関係者もすぐに反応した。

実際、Vicuna ベンチマークは廃止され、より高度な MT-bench ベンチマークが採用されています。このベンチマークは、より困難なタスクでテストされ、gpt4 評価のバイアスと制限に対処します。

MT-benchでは、OpenChatのパフォーマンスはwizardlm-13bと同様です。つまり、オープンソース モデルと GPT-3.5 の間にはまだ一定のギャップが存在します。これはまさに MT-bench が強調していることです。オープンソース モデルは完璧ではありませんが、これによりチャットボットの評価が向上します。

写真

写真

先日、Machine Heart さんが「アルパカたちはどこまで来たのか?」というコンテンツを報告しました。研究によれば、最高のものは GPT-4 のパフォーマンスの 68% を達成できる」とされており、オープンソース モデルのパフォーマンスも評価しています。

また、この評価では、どの評価においても、最良モデルの平均パフォーマンスは ChatGPT の 83%、GPT-4 の 68% に達することが示されており、このギャップを縮めるには、より優れたベースモデルと命令チューニング データをさらに構築する必要があることを示しています。

興味のある読者は原文を確認してください。

<<:  大規模言語モデルと知識グラフに関する共同研究のレビュー:2つの相補的な技術的利点

>>:  大きな言語モデルに目を向けると、その画像認識性能は CLIP を超えています。スタンフォードのよ​​うな新しい方法では、マルチモーダル事前トレーニングは不要である

ブログ    

推薦する

テスラが自社開発したスーパーコンピュータDojo!日本の「富岳」に代わる世界初の

[[406953]]自動車メーカー、自動運転企業、バッテリーおよびエネルギー貯蔵企業として、テスラは...

AIと人間: 人工知能は常に進歩し、人間は常に進化している

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

人工知能に対して、人間がかけがえのない存在となるような利点は何でしょうか?

人工知能に関して言えば、かつて映画「マトリックス」で描かれたSFシーンが世界に衝撃を与え、トレンドを...

会話型 AI は FMCG 業界でどのように導入されていますか?

今日、ますます多くの消費財 (CPG) 企業が、日用消費財 (FMCG) 事業に AI テクノロジー...

...

人工知能の将来の動向

人工知能 (AI) が普及し、人生を変えるような意思決定に組み込まれるようになるにつれて、透明性の必...

アナーキストとの対話: ノーム・チョムスキーが語るディープラーニングの未来

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

必ず読むべき28の古典的なプログラミングアルゴリズム

最初の 10 個は、聖書からのトップ 10 アルゴリズムです。発起者からの説明: Proofs fr...

JetBrainsが2023年の調査レポートを発表:Rustの人気はますます高まり、開発者の77%がChatGPTを使用

JetBrains は 11 月 21 日に、世界中の 26,348 人の開発者からの調査結果をまと...

2020 年にチャットボットはどこに向かうのでしょうか?

チャットボットはかつて大々的に宣伝された期待に応えようとしており、Intercom が委託した新しい...

DeSRAは欠陥を検出して除去し、実際のシーンの超解像におけるGANをより完璧にします

生成的敵対的ネットワーク (GAN) を使用した画像超解像 (SR) は、リアルな詳細を復元する上で...

Google と Facebook はなぜ Docker を使用しないのでしょうか?

[[397388]]画像はPexelsより私は2007年に卒業してすぐにGoogleで3年間働きま...

...

...