GPT-4 に匹敵するオープンソース モデルがリークされました。ミストラルのボスが確認: 正式版はさらに強力になる

GPT-4 に匹敵するオープンソース モデルがリークされました。ミストラルのボスが確認: 正式版はさらに強力になる

ミストラル・ミディアムが誤って漏洩した?以前は API 経由でのみ利用可能でしたが、そのパフォーマンスは GPT-4 に近いです。

CEO の最新の声明: これは真実であり、初期のクライアントの従業員によって漏洩されたものです。しかし、引き続き注目してください。

写真

つまり、このバージョンはまだ古く、実際のバージョンの方がパフォーマンスが優れています。

この2日間、「Miqu」という謎のモデルが大手モデルコミュニティで話題を呼んでおり、多くの人がこれがLIamaの微調整版ではないかと疑っています。

写真

また、Mistral CEOは、早期の顧客にできるだけ早くGPT-4のパフォーマンスに近いAPIを提供する必要があったため、Mistral MediumをLlama 2をベースに再トレーニングしたと説明。事前トレーニングはMistral 7Bがリリースされた日に完了したとのこと。

真実が明らかになった今、CEOは依然として秘密にしており、多くのネットユーザーが期待を込めて期待している。

写真

写真

ミストラル・ミディアムが誤って漏洩

もう一度事件全体を振り返ってみましょう。 1月28日、Miqu Devという謎のユーザーがHuggingFaceに「miqu-1-70b」というファイルセットを投稿した。

写真

ドキュメントには、新しい LLM の「プロンプト形式」とユーザー対話方法は Mistral と同じであると記載されています。

同日、4chan の匿名ユーザーが miqu-1-70b ファイルへのリンクを投稿しました。

そこで、一部のネットユーザーがこの不思議なモデルに気づき、ベンチマークテストを始めました。

結果は驚くべきもので、EQ-Bench(ローカル評価)で83.5ポイントを獲得し、 GPT-4を除く世界中の他のすべての大規模モデルを上回りました

ネットユーザーたちは一時期、この大物モデルをランキングに加え、その背後にいる本当のモデルを見つけ出すよう強く求めていた。

疑わしい点は主に 3 つあります。

  • Mistral-Mediumと同じモデルです

一部のネットユーザーは比較結果を投稿した。標準的な答えを知っているのは合理的だが、ロシア語の文言でさえミストラル・ミディアムとまったく同じであるということはあり得ない。

写真

  • Miqu は LIama 2 の微調整されたバージョンになるはずです。

しかし、他のネットユーザーは、それがMoEモデルではなく、LIama 2と同じアーキテクチャ、パラメータ、レイヤー数を持っていることを発見しました。

写真

しかし、他のネットユーザーからは、ミストラル7bもラマ7Bと同じパラメータとレイヤー数を持っているのではないかとすぐに疑問視されました。

むしろ、これはミストラルの初期の非 MoE バージョン モデルに似ています。

写真

しかし、多くの議論を経て、多くの人々の心の中でこれがすでに GPT-4 に最も近いモデルであることは否定できません。

写真

現在、ミストラルの共同創設者兼CEOのアーサー・メンシュ氏は、この漏洩は同社の初期の顧客の熱心すぎる従業員が、彼らがトレーニングして公開した古いモデルの量子化バージョンを漏洩したことによって引き起こされたと認めている。

Perplexity に関しては、CEO は Mistral Medium の重量を入手したことがないことも明らかにしました。

写真

ネットユーザーたちはこのバージョンが削除されるのではないかと心配している。

写真

興味深いことに、メンシュ氏はHuggingFaceの投稿を削除するよう求めなかった。

写真

代わりに、私は「帰属の問題を検討するかもしれない」というコメントを残しました。

参考リンク:
[1] https://www.reddit.com/r/LocalLLaMA/comments/1af4fbg/llm_comparisontest_miqu170b/

[2] https://twitter.com/teortaxesTex/status/1752427812466593975
[3] https://twitter.com/N8Programs/status/1752441060133892503
[4] https://twitter.com/AravSrinivas/status/1752803571035504858

<<:  ChatGPTへのチップは本当に効果があります! 10元や10万元は大きな効果がありますが、1セントでは増えるどころか減るだけです。

>>:  アリババ北京交通大学インターンの論文が人気に! MobileAgent は、人間が携帯電話を使用する様子をシミュレートできます。ネットユーザーの皆さん、ショッピングをスピードアップして、泥を食べましょう!

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

...

人工知能は視覚障害者にさらなる利便性をもたらす

人工知能は私たちの旅行や生活を変えただけでなく、いくつかの専門分野にも影響を与えました。例えば、次に...

GPT-4Vに匹敵し、120万データと8つのA100のみを使用し、トレーニングは1日で完了し、LLaVA-1.5は11のベンチマークSOTAを更新しました。

マルチモーダル大型モデル着陸の風がようやく吹いた。 12日前、OpenAIはChatGPTに画像認識...

デザイナーのための人工知能ガイド: 基本概念

Google が開発した AlphaGo が囲碁の名人に勝利したとき、シンシナティ大学の Psibe...

AIと機械学習でデータセンターを強化

AIと機械学習はデータセンターをよりスマートにする上でますます重要な役割を果たしている今日の企業では...

10分で多言語チャットボットを作成する方法

[51CTO.com クイック翻訳]チャットボットは、人間との会話を自動的に行い、組織と顧客間のビジ...

...

...

...

Google DeepMindは、新しいAIモデルGeminiを開発中であることを明らかにし、「GPT-4よりも強力」であると主張している。

6月28日、先月のGoogle I/O開発者会議で、Googleは開発中の大規模言語モデル「Gem...

LeCun は AGI を予測します: 大規模モデルと強化学習はどちらもランプです!私の「世界モデル」は新しい道です

現代の AI 界で最も有名な巨匠の一人であり、Meta の AI 研究所の魂である Yann LeC...

ディープラーニングのためのヘテロジニアスアクセラレーション技術(I):AIにはどれくらい大きな「心」が必要か?

1. 概要: 一般的 = 非効率的汎用プロセッサであるCPU(中央処理装置)は、コンピュータに欠か...

ボストン・ダイナミクスの最新倉庫ロボットは1時間あたり800個のレンガを移動できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...