ミストラル・ミディアムが誤って漏洩？このリストのトップにランクインした謎のモデルは、AIコミュニティで多くの議論を巻き起こしました

「私は今、Miqu が Perplexity Labs の Mistral-Medium と同じモデルであることを 100% 確信しています。」

最近、「ミストラル・ミディアムモデルのリーク」に関するニュースが注目を集めています。

リークされた噂は、「Miqu」と呼ばれる新しいモデルに関連しています。言語モデルの感情知能を評価するベンチマークEQ-Bench（EQ-BenchはMMLUと約0.97、Arena Eloと約0.94の相関関係があります）では、MiquはGPT-4を除くすべての主要モデルを直接上回り、そのスコアはMistral-Mediumに非常に近いです。

画像ソース: https://x.com/N8Programs/status/1752441060133892503?s=20

オープンソースアドレス: https://huggingface.co/miqudev/miqu-1-70b

非常に強力なモデルですが、このプロジェクトの発行者は謎の人物です。

「誰があなたを作ったのか」と聞かれると、ミクは直接自己紹介しました。「私はミストラル・アル・チームによって作られました。」

誰かが両方のモデルに同じテスト問題を送信しましたが、受け取った回答は両方ともロシア語で表現されていました。テスターの疑惑はさらに深まった。「標準的なパズルはわかっているようだが、いたずらならロシア語で答えられるように調整できるはずがない」

翻訳の過程で、表現はほぼ同じになります。

Miqu はどこから来たのですか?それは本当にミストラルミディアムですか？

2 日間にわたる白熱した議論の中で、多くの開発者が 2 つのモデルを比較し、その結果、次の可能性が示されました。

1. Miqu は Mistral-Medium です。

2. Miqu は確かに MistralAI のモデルですが、これは初期の MoE 実験バージョンか何かです。

3. Miqu は Llama2 の微調整されたバージョンです。

先ほど、最初の可能性を支持する開発者が挙げた理由を紹介しました。事件が進展するにつれ、より多くの開発者が暗号解読のような操作に参加し、2つのモデルに対してより詳細なテストを実施しました。システムをテストするために夜更かしした Reddit ユーザーが実施したテストでは、Miqu は MistralAI モデルの初期バージョンに近いことが示されました。

開発者は、このモデルをドイツ語の 4 つの専門的なオンラインデータ保護トレーニング/試験に適用しました。テストデータ、質問、およびすべての指示はドイツ語で、キャラクターカードは英語でした。翻訳スキルと言語間の理解力をテストします。

具体的な試験方法は以下の通りです。

情報を提供する前に、モデルにドイツ語で指示します。「いくつかの情報をお伝えしますので、この情報に注意してください。ただし、回答するときは、理解したことを確認するために「OK」だけを使用し、他には何も言わないでください。」これは、モデルが指示を理解して実行する能力をテストするためです。
トピックに関する情報をすべて提供した後、モデルにテストの質問をします。これは、最初の質問と最後の質問は同じですが、オプションの順序と文字 (X/Y/Z) が変更された複数選択の質問 (A/B/C) です。各テストは 4 ～ 6 問の質問で構成され、合計 18 問の複数選択問題があります。
モデルは、正解数に基づいてランク付けされ、まずコースに関する情報を提供された後に出された回答、次に事前情報なしで盲目的に出された回答が考慮され、同点の状況が考慮されました。すべてのテストは独立したユニットであり、各テスト間でコンテキストはクリアされ、セッション間でメモリや状態は保持されません。

詳細なテストレポートは次のとおりです。

miqudev/miqu-1-70b GGUF Q5_K_M、32K コンテキスト、Mistral 形式: 4+4+4+5=17/18 の複数選択問題のみが正しく回答されました。事前情報なしで質問に答え、正しい答えを出します: 4+3+1+5=13/18。データ入力は指示どおりに「OK」で確認されませんでした。

テスト中、開発者は、Miqu が Mixtral と多くの類似点を持っていることを発見しました。優れたバイリンガルのドイツ語のスペルと文法、返信への翻訳の追加、返信へのメモやコメントの追加などです。

ただし、開発者のテストでは、Miqu のパフォーマンスは Mixtral-8x7B-Instruct-v0.1 (4 ビット) よりも劣っていましたが、Mistral Small および Medium よりも優れていました。しかし、Mixtral 8x7B Instruct よりはるかに優れているわけではありません。開発者は、Miqu は漏洩した MistralAI モデル、おそらくは古い概念実証モデルである可能性があると推測しています。

これは、2 番目の主張を裏付けるために私たちが見た中で最も詳細なテストです。

しかし、一部の開発者は、Miqu は MistralAI とは何の関係もなく、むしろ Llama 70B に似ていると考えています。その理由は、Miqu のアーキテクチャが Llama 70B と「まったく同じ」であり、「専門家による混合モデルではない」からです。

同様に、テストの結果、Miqu は確かに Llama に似ていることに気づいた人もいます。

しかし、スコアの差から判断すると、Miqu と Llama 70B は明らかに同じモデルではありません。

そのため、一部の人々は、Miqu は Llama の微調整されたバージョンか、Mistral-Medium の初期バージョンのいずれかであると結論付けました。

前者が真実であれば、Miqu は Mistral-Medium データセットで微調整された Llama 70B である可能性があります。

後者が真実であれば、Miqu は Mistral API の単なる抽出であり、「米国が月面着陸を偽造した」レベルの茶番劇である可能性があります。

最後の質問は、誰がそれを漏らしたのか？

多くのXプラットフォームユーザーから提供された手がかりによると、流出したと疑われるモデルはもともと4chanというウェブサイトに投稿されていた。このウェブサイトは完全に匿名のリアルタイムメッセージングフォーラムであり、ユーザーは登録せずにテキストやグラフィックのコメントを投稿できます。

もちろん、これらの結論は主観的なものです。すべての AI 研究者にとって、このドラマを終わらせるには「真実」が必要です。

<<: テレンス・タオが新プロジェクトを立ち上げ：リーンで素数定理を証明、研究計画は完成

>>: Microsoft OpenAI はヒューマノイドロボットに 1 億ドルを投資する予定です。ネットユーザーはマスク氏に叫んだ