オープンソースモデルの新記録:Mixtral 8x7B Instructを超えるモデルが登場

オープンソースモデルの新記録:Mixtral 8x7B Instructを超えるモデルが登場

Llama、Llama 2 から Mixtral 8x7B まで、オープンソース モデルのパフォーマンス記録は継続的に更新されています。 Mistral 8x7B はほとんどのベンチマークで Llama 2 70B や GPT-3.5 よりも優れているため、「GPT-4 に非常に近い」オープンソース オプションとも考えられています。

少し前の論文で、このモデルの開発元である Mistral AI 社は、Mixtral 8x7B の技術的な詳細を発表し、Mixtral 8x7B – Instruct チャット モデルをリリースしました。このモデルのパフォーマンスは、人間による評価ベンチマークにおいて、GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B チャット モデルを大幅に上回ります。 Mixtral-Instruct は、BBQ や BOLD などのベンチマークでも偏りが少ないことが示されています。

しかし、最近ではMixtral Instructも追い抜かれてしまいました。 Nous Research という会社は、Mixtral 8x7B に基づいてトレーニングされた新しいモデル、Nous-Hermes-2 Mixtral 8x7B が、多くのベンチマークで Mixtral Instruct を上回り、SOTA パフォーマンスを達成したと発表しました。

「私の知る限り、これは Mixtral Instruct に勝る最初の Mixtral ベースのモデルであり、私の個人的なテストでは、最高のオープンソース LLM モデルかもしれません!」と、同社の共同設立者であり X プラットフォーム ユーザーでもある @Teknium (e/λ) は述べています。

モデル プロファイル カードには、モデルが 100 万を超えるエントリ (主に GPT-4 によって生成されたデータ) と、AI 分野全体のオープン データセットからのその他の高品質データでトレーニングされたことが示されています。モデルは、その後の微調整方法に応じて 2 つのバージョンに分割されます。

  • Nous Hermes 2 Mixtral 8x7B SFT は SFT メソッドのみを使用して微調整されています。リンク: https://huggingface.co/NousResearch/Nous-Hermes-2-Mixtral-8x7B-SFT
  • Nous Hermes 2 Mixtral 8x7B DPO は、SFT+DPO 方式を使用して微調整されています。リンク: https://huggingface.co/NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO. Mixtral Nous-Hermes 2 DPO アダプター リンク: https://huggingface.co/NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO-adapter

2 つのバージョンがリリースされた理由については、@Teknium (e/λ) が次のように説明しています。

モデルからの出力の例を次に示します。

1. データ可視化のためのコードを書く

2. サイバーパンクサイケデリック詩を書く

3. 入力テキストに基づいてプロンプトを作成する

パフォーマンス数値は次のとおりです。

1. GPT4オール

2. AGI評価

3. BigBench推論テスト

このモデルがリリースされてすぐに、生成 AI のスタートアップ企業 Together AI が、自社の API でこのモデルをサポートすることを発表しました。 Together AIは昨年11月に1億ドルを超えるラウンドA資金調達を完了したばかりだ。 Together AI は、Nous Research が Nous Hermes 2 Mixtral 8x7B モデルをトレーニングおよび微調整する間、コンピューティング能力のサポートを提供しました。

画像出典: https://twitter.com/togethercompute/status/1746994443482538141

Nous Researchはボランティアプロジェクトとして始まりました。同社は最近、Distributed GlobalとOSS Capitalが共同で主導し、Together AIの創設者兼CEOであるVipul Ved Reddy氏を含む数名の著名な投資家の参加を集めた520万ドルのシードラウンドを成功裏に完了しました。 Nousは2024年にNous-Forgeと呼ばれるAIオーケストレーションツールをリリースする予定です。

公式サイトの紹介から、同社の製品の位置付けは、プログラムを接続して実行し、顧客の文書を取得して分析し、生産に使用するための合成データを生成することができるということがわかります。これらの独自のシステムは、ビジネスの分野に関係なく、クライアントのニーズに合わせて微調整できます。これらの斬新なアルゴリズムを通じて、彼らはデジタルアテンションエコシステム内のこれまで構造化されていなかったテーマ別データを集約・分析し、隠れた市場動向情報を顧客に提供したいと考えています。

<<:  Microsoft TaskWeaver オープンソース フレームワーク: データ分析と業界のカスタマイズを組み合わせてトップ エージェント ソリューションを作成

>>:  ヤン・ルカンは、テンセントのポートレート写真生成が自由にできることを明かした。

ブログ    
ブログ    

推薦する

工業情報化省がロボット産業の「第14次5カ年計画」を発表:2035年までに指定規模以上の製造業でデジタル化が普及する

12月28日、工業情報化部など各部門は「第14次5カ年計画:インテリジェント製造業発展計画」(以下、...

Googleが新しい検索方法を正式に発表:円を描く

ChatGPTが登場して以来、長い間息をひそめていたGoogleも、モバイル検索に力を入れ始めていま...

古典へのオマージュ!ボストンダイナミクスのロボットが40年前のローリングストーンズのダンスを正確に再現

ボストン・ダイナミクスが「バンドで演奏」します!今回のターゲットは有名な「ローリング・ストーンズ」。...

機械の魂: 未来の工場における AI の応用について

未来の工場はどのようなものになるでしょうか? AI を主要な原動力として、工場はより機敏かつカスタマ...

機械学習に関する9つのよくある誤解

[51CTO.com からのオリジナル記事] 現在、機械学習テクノロジーをめぐっては多くの誇大宣伝が...

「人工知能+教育」は教育の矛盾を解決するために、より包括的な方向に向かっている

「教育はデジタル化とネットワーク化からインテリジェンスへと変化しています。現在、人工知能はよりインテ...

自然特集:バイオニック群ロボットの登場、工学上の大きな進歩

ネイチャー誌の表紙には、工学上の大きな進歩、つまり生物の細胞コロニーを模倣するロボットの登場が発表さ...

2022 年に予測されるロボティック プロセス オートメーションのトップ 10 トレンド

ロボティック プロセス オートメーション (RPA) を導入する企業の主な目標は、時間のかかる反復的...

...

LLaVA-1.6は非常に強力で、Gemini Proを上回り、推論機能とOCR機能が向上しています。

昨年 4 月、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が共同...

トイレに座ってアルゴリズムを読む: わずか5行のフロイドの最短経路アルゴリズム

[[110550]]夏休みの間、シャオ・ヘンはいくつかの都市を旅行する予定です。下の図に示すように、...

GNN の推奨システムとアプリケーション

1. GNN推奨システムの基礎となる計算能力の進化過去 20 年間にわたり、コンピューティングは進化...

人工知能は人材紹介業界に狙いを定めています。仕事を見つけるにはロボットに頼らなければならないのでしょうか?

実装プロセスにおいて、AI 採用は本当にスローガン通りの結果を達成できるのでしょうか?求職者は3時間...