初のオープンソースMoE大型モデル公開! 7Bx8の専門家、GPT-4に最も近いエピソード

初のオープンソースMoE大型モデル公開! 7Bx8の専門家、GPT-4に最も近いエピソード

「今夜の予定は全部キャンセル!」多くのAI開発者は寝ないことを決意しました。

最初のオープンソース MoE 大規模モデルが Mistral AI によってリリースされたばかりだからです。

MoEアーキテクチャの正式名称はMixture-of-Expertsで、GPT-4が採用すると噂されているソリューションです。オープンソースの大規模モデルの中でGPT-4に最も近いエピソードと言えるでしょう。

記者会見やプロモーションビデオはなく、ただ磁力のリンクだけがセンセーショナルな効果を生み出した。

特定のパラメータは、構成ファイルをダウンロードしてスクリーンショットを撮った後、高速インターネットを使用しているユーザーによって引き続き送信されます。

7B パラメータ x 8 人のエキスパート、各トークンに対して、処理する最初の 2 人の最も関連性の高いエキスパートを選択します。

OpenAI の創設メンバーである Karpathy 氏が不満を漏らすほどです。何かが欠けているのでしょうか?

何度もリハーサルを重ね、AI 変革について語るプロフェッショナルなビデオが存在しないのはなぜでしょうか?

誰に対して文句を言われているのか、分かる人には分かるでしょう。

彼はまた、AI コミュニティが最近非常に活発である理由についても説明しました。最大のディープラーニング カンファレンス NeurIPS が来週に始まるからです。

MoE、オープンソースのビッグモデルの新たな舞台?

このオープンソースの MoE モデルがなぜ人気があるのでしょうか?

前身のMistral-7Bはオープンソースの基本モデルの中で最も強力であるため、13Bや34Bに対抗できる場合が多い。

さらに、Mistral-7B は、Apache-2.0 オープン ソース プロトコルの下でリリースされており、商用利用は無料です。この新しいモデルもこのプロトコルに従うと思われます。

多くの評価ランキングでは、ミストラル7Bをベースに微調整を加えたゼファー7Bベータが唯一の最前列の7Bモデルであり、その前後にはそれよりもはるかに大きなモデルが並んでいます。

LLMSYS Chatbot Arena では、Zephry-7B-beta は現在 12 位にランクされています。

AlpacaEvalでも15位にランクされました。

現在、この新しい MoE モデルには正式な名前すらなく、コミュニティでは一般的に Mistral-7Bx8 MoE と呼ばれています。

しかし、誰もが期待しているように、新しい MoE モデルが単一の Mistral-7B に対して改善されるのは、GPT-4 が GPT-3.5 に対して改善されるのと同じようなものになるはずです。

しかし、MoEはメモリを多く消費するため、ローカル操作にはあまり適していないことを誰かが指摘しているので注意してください。

ただし、クラウドに展開して複数のデバイスで専門家が並行して実行し、同時要求を処理する際に企業がコスト面で優位に立つようにする方が適しています。

より速く動いたのは、元 PyTorch メンバーによって設立された fireworks.ai という会社でした。

最初は最適化なしで試してください。80GB のメモリを搭載したカードが 2 枚必要です。最適化バージョンは近日中にリリースされます。

Replicate には試用版もあります。簡単に試してみたところ、中国語のレベルもかなり良いと感じました。

実際、Mistral AI は、スタンフォード大学が昨年リリースした軽量 MoE ライブラリ Megablocks を使用して、すべての人向けの公式サポート コードも用意しています。

創設者:小型モデルはより興味深いアプリケーションをサポートします

Mistral AI は、元 DeepMind および Meta の科学者によって設立されました。

同社は4億8,700万ドルの新たな資金調達ラウンドを完了したばかりで、最新の評価額は20億ドル近くに達し、ユニコーン企業となった。

3人の共同創業者のうち、CEOのアーサー・メンシュ氏は以前パリのDeepMindで働いていた。

CTO の Timothée Lacroix 氏と主任科学者の Guillaume Lample 氏は、Meta での Llama シリーズの開発に共同で参加しており、Lample 氏は責任著者の 1 人です。

アーサー・メンシュ氏はかつてインタビューで、モデルを小型化することがエージェントの開発をサポートする方法の 1 つであると述べました。

コンピューティングコストを 100 倍削減できれば、より興味深いアプリケーションを構築できます。

Mistral AIは今年5月に設立され、シードラウンドの資金調達で1億1,300万ドルを調達した。

9月末、Mistral AIはマグネットリンクの形で初のオープンソースモデルであるMistral-7Bをリリースしました。当時、多くの開発者はLlama-2を試してみて、それほど良くないと感じていました。

12月初旬、Mistral AIは再びオープンソースのMoEモデルマグネットリンクをリリースし、再び熱狂の波を引き起こしました。

これらは同社の公式アカウントから出された数少ない声明である。

多くの人がこれを、Google の最近の過剰な宣伝と比較しました。

最新のミーム: マグネット リンクは新しい arXiv です。

参考リンク:
[1]https://x.com/MistralAI/status/1733150512395038967?s=20.
[2] https://github.com/mistralai/megablocks-public.
[3] https://replicate.com/nateraw/mixtral-8x7b-32kseqlen.

<<:  Meta、調整可能な照明とリアルな髪を備えたリアルタイム3Dアバター合成方式を発表

>>:  OpenAIはGPT-4が怠惰になったことを認める:当面修正することはできない

ブログ    
ブログ    
ブログ    

推薦する

人工知能技術には明るい未来がある

1990年代初頭、中国の著名な学者である周海中氏は、人工知能技術がさまざまな分野で広く使用され、予想...

アルゴリズム問題の分析プロセス

[[384555]]トピックを理解する最近アルゴリズムの問​​題をたくさん見ていますが、小さな問題を...

マシンビジョン: 2D ビジョンと 3D ビジョンのどちらを選択するか?

マシンビジョンは、人工知能の重要な分野として、今日最も注目されているテクノロジーの 1 つとなってい...

メタは自社の弁護士の警告を無視し、海賊版書籍を使用してAIモデルを訓練したと報じられている。

ロイター通信は12月13日、著作権侵害訴訟の新たな文書によると、メタ・プラットフォームズは何千冊もの...

なぜアルゴリズムを犬のように飼いならすのか

[[114872]]進化人類学者の間では、子犬などのペットが野生動物から進化したのは、社会的な知性を...

AI聴覚技術は国際紛争に関与したことがあるか?

AI視覚技術がさまざまな業界で応用されるのはもはや目新しいことではなく、現在ではAI聴覚技術も戦場...

...

【文字列処理アルゴリズム】文字列包含アルゴリズムの設計とCコード実装

1. 要件の説明長い文字列と短い文字列が与えられた場合、短い文字列のすべての文字が長い文字列に含まれ...

...

清華大学の朱俊氏のチームは、拡散モデルを打ち破り、シュレーディンガー橋に基づく新しい音声合成システムを開発した。

最近、清華大学コンピュータサイエンス学部の朱軍教授の研究グループが発表したシュレーディンガー橋[1]...

OpenAI が ChatGPT にマルチモーダル入力機能を追加しました。ご存知ですか?

OpenAIのCEO、サム・アルトマン氏は昨夜Twitterで、ChatGPTに音声と画像の機能が...

...

...

...