最近、「小さな言語モデル」がにわかに話題になっています。 今週月曜日、4億1500万ドルの資金調達を完了したばかりのフランスのAIスタートアップ企業Mistralが、Mixtral 8x7Bモデルをリリースした。 このオープンソース モデルは、100 GB 以上のメモリを搭載したコンピューターで実行できるほど小さいサイズであるにもかかわらず、いくつかのベンチマークで GPT-3.5 に匹敵し、開発者の間ですぐに賞賛されました。 特定のタスクを処理するようにトレーニングされたさまざまな小型モデルを組み合わせて効率を高めるため、Mixtral 8x7B と呼ばれています。 この「専門家の希薄混合」モデルは実装が容易ではない。OpenAIは今年初め、MoEモデルを適切に動作させることができなかったため、モデルの開発を断念しなければならなかったと言われている。 そして、その翌日、マイクロソフトは Phi-2 モデルの新バージョンをリリースしました。 ミストラルの 70 億のパラメータと比較すると、Phi-2 はわずか 27 億のパラメータで、携帯電話で実行できるほど小さいです。比較すると、GPT-4 には 1 兆個のパラメータがあります。 Phi-2 は、計算能力が限られている携帯電話でもモデルが正確な結果を生成できるように、十分に高品質の慎重に選択されたデータセットでトレーニングされました。 マイクロソフトや他のソフトウェアメーカーが小規模モデルをどのように使用するかは不明ですが、最も明らかな利点は、大規模な AI アプリケーションの実行コストが削減され、生成 AI テクノロジの適用範囲が大幅に広がることです。 これは大問題だ。 Mistral-mediumコード生成はGPT-4を上回る最近、Mistral-medium が内部テスト用に公開されました。 あるブロガーがオープンソースの Mistral-medium と GPT-4 のコード生成機能を比較しました。その結果、Mistral-medium は GPT-4 よりも強力なコード機能を備えているものの、コストは GPT-4 のわずか 30% であることが示されました。 合計金額は: 1) ミストラルは必ず仕事を完了し、完了率は非常に高いです。 2) 長い説明出力にトークンが無駄に消費されない。 3) 提供されるアドバイスは非常に具体的です。 最初の質問は、「フィボナッチ素数を生成する PyTorch データセット用に cuda に最適化されたコードを記述してください。」です。 Mistral-Medium によって生成されたコードは本格的かつ完全です。 GPT-4 によって生成されたコードは満足できるものではありません。 多くのトークンが無駄になりますが、有用な情報は出力されません。 すると、GPT-4 は具体的な関連コードなしでスケルトン コードのみを出力しました。 質問 2: 「約 10 億の大規模な Apache HTTP アクセス ファイルを SqlLite データベースに取り込み、それを使用して sales.html と product.html へのアクセスのヒストグラムを生成する効率的な Python コードを記述してください。」 Mistral の出力は素晴らしく、ログは CSV 形式ではありませんが、簡単に変更できます。 GPT-4 のパフォーマンスは依然として低いです。 これまで、ブロガーは複数のコード生成モデルをテストしてきましたが、GPT-4 は常に 1 位にランクされていました。 そして今、強力なライバルであるミストラル・ミディアムがついに登場し、その座を奪おうとしている。 公開された例は 2 つだけですが、ブロガーは複数の問題をテストし、結果は同様でした。 彼は次のように提案しました。「Mistral-medium はコード生成の品質において優れた実績があるため、あらゆる場所のコード コパイロットに統合される必要があります。」 誰かが 1,000 トークンあたりの入力コストと出力コストを計算し、Mistral-medium は GPT-4 と比較してコストを 70% 直接削減することを発見しました。 確かに、トークン手数料を 70% 節約するのは決して小さなことではありません。長い出力を記述する必要がないため、さらにコストを節約することもできます。 |
<<: この論文は最初のICLRで却下され、コードは最適化されすぎていた。word2vecの作者であるTomas Mikolov氏がその裏話を語った。
[[333817]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
2017年、人工知能は最高熱に達し、最高情報責任者、コンサルタント、学者らは、この技術によってビジネ...
ビッグデータダイジェスト制作最近、AI規制に関する意見は「新たな高み」に達し、AI専門家のグループが...
被験者が特定の行動をとったとき、その脳はそれに対応する安定した脳神経パターンのマッピングを生成するで...
IT Homeは1月13日、海外メディアThe Interceptが現地時間12日に報じたところに...
[[402913]]オブジェクトの明るさが色やビューに大きく依存する多くの没入型 VR/AR アプリ...
21 金融ニュースは、日刊金融ニュース (ncjs111)、網易科技、創業報 (ichuangye...
[[420938]]現在、人工知能や5Gなどの技術の助けを借りて、我が国のドローン開発は急速な成長の...
[[423982]]バイナリ ツリーが与えられた場合、そのノード値のボトムアップ レベルのトラバーサ...
360は12月20日、Water Dropライブストリーミングプラットフォームを積極的に永久に閉鎖...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...