磁気リンクがAIサークルを席巻、87GBシードが直接オープンソースの8x7B MoEモデル

磁気リンクがAIサークルを席巻、87GBシードが直接オープンソースの8x7B MoEモデル

「ハイエンド」オープンソースでは、最も単純なリリース方法が採用されることが多いです。

昨日、Mistral AI は X プラットフォームにマグネット リンクを公開し、新しいオープン ソース アクションを発表しました。

長い公式ブログや意図的に加速されたデモがないこの会社は、現在の大型モデル分野における「新風」と言えるでしょう。

開けてみると、シードが約 87 GB ありました。

パラメータ設定とは何ですか?多くの人が週末を犠牲にして、できるだけ早くダウンロードして実行しました。

Mistral 8x7B は GPT-4 と非常によく似たアーキテクチャを使用しているようですが、その「縮小版」です。

  • 合計 16 名ではなく 8 名の専門家 (半分に削減)
  • エキスパートあたりのパラメータが 166B から 7B に減少 (24 倍削減)
  • 合計パラメータ数 42B(推定) 1.8T ではなく(42 倍少ない)
  • オリジナルのGPT-4と同じ32Kコンテキスト

リリースから24時間以内に、開発者がオンライン体験ウェブサイトをすでに作成していました: https://replicate.com/nateraw/mixtral-8x7b-32kseqlen

ある研究者は「クローズドソースのビッグモデルは終焉を迎えた」と語った。

今週すでに嘲笑されてきた Google は、再びヒントを得た。

専門家の混合 (MoE) は、LLM の効率性と精度を向上させるためによく使用される手法です。このアプローチは、複雑なタスクをより小さく管理しやすいサブタスクに分割し、各サブタスクを専門のミニモデルまたは「エキスパート」が処理することによって機能します。

具体的には、「エキスパート レイヤー」は、特定の分野で高度なスキルを持つようにトレーニングされた、より小さなニューラル ネットワークです。各エキスパートは同じ入力を処理しますが、その方法はそれぞれの専門知識と一致しています。「ゲーティング ネットワーク」は、MoE アーキテクチャの意思決定者であり、特定の入力データにどのエキスパートが最適かを評価できます。ネットワークは、入力と各専門家の間の互換性スコアを計算し、これらのスコアを使用して各専門家のタスクへの関与レベルを決定します。

OpenAI チームが GPT-4 のパラメータ数とトレーニングの詳細については口を閉ざしていることは周知の事実です。以前、GPT-4 は 8 つのエキスパート モデルで構成される統合システムを使用していることが明らかになりました。その後、ChatGPT は数百億 (約 200 億程度) のパラメータを持つモデルにすぎないという噂が流れました。

噂は証明されていないが、Mistral 8x7B は「GPT-4 に非常に近い」オープンソース オプションを提供する可能性がある。モデル メタデータから、Mistral 8x7B はトークンごとに推論に 2 人のエキスパートのみを使用していることがわかります。

さらに興味深いのは、これが同社の公式アカウントが開設以来公開した3番目のコンテンツだということだ。この2つの重要なリリースにはテキストによる説明はなく、写真なども一切ない。

9 月下旬のリンクでは、Mistral 7B が公開されました。これは、現在でも「最高の 7B モデル」として知られており、あらゆるベンチマークで Llama-2 を 13B、コード、数学、推論で LLaMA-1 を 34B 上回っています。

2023 年 5 月に設立された Mistral AI は、フランスの人工知能スタートアップ企業であり、ヨーロッパの大規模モデル オープンソース分野における数少ないスター チームの 1 つです。

Mistral AI は、6 月にわずか 7 ページの PPT で、記録的な 1 億 1,800 万ドルのシードラウンド資金調達を獲得しました。これは、ヨーロッパ史上最大のシードラウンド資金調達と言われています。

Mistral AI チームのメンバー。

同社の創設者の一人、アーサー・メンシュ氏は10月にフィナンシャル・タイムズ紙に対し、ミストラルAIの技術は米国の強力な競合企業が開発した技術よりも効率的で安価であると語った。

同社の優れた技術力は投資家からも継続的に注目を集めている。

最近、ファイナンシャル・タイムズはミストラルAIの新たな資金調達ラウンドについて報じた。新たな資金調達ラウンドは約4億ユーロで、主に株式で構成されており、来週正式に発表される可能性がある。現在、同社の最新の評価額は約20億ユーロとなっている。

事情に詳しい関係者によると、新たな資金調達ラウンドはシリコンバレーの著名なベンチャーキャピタル企業であるアンドリーセン・ホロウィッツが主導し、他の参加者にはNvidia、Salesforce、General Catalyst、BNPパリバなどが含まれていたという。

ミストラルAIの他の投資家には、元グーグルCEOのエリック・シュミット氏、フランステレコムの億万長者ザビエ・ニエル氏、フランス政府系投資銀行Bpifranceなどがいる。

報道によると、アーサー・メンシュ氏は「同社はまだ利益を上げていないが、顧客が同社の人工知能モデルにアクセスできる新しいプラットフォームを準備しており、年末までに状況が変わると予想している」と述べたという。

参考リンク: https://www.ft.com/content/ea29ddf8-91cb-45e8-86a0-f501ab7ad9bb

<<:  テレンス・タオが AI を使って形式化した証明とは、いったい何でしょうか? PFR予想の歴史の簡単な紹介

>>: 

ブログ    
ブログ    
ブログ    

推薦する

バナナの皮をむくのに9つの手順が必要ですか?ロボットが果肉を傷つけないように、研究者たちは何百本ものバナナの皮をむくのに13時間を費やした。

ビッグデータダイジェスト制作著者: カレブボストン・ダイナミクスを例に挙げると、ロボットはますます多...

機械学習の神話を暴く - 機械学習に関する一般的な神話はどこから来たのか?

機械学習について多くの誤解を持っていると、その人のキャリアや評判に悪影響を与える可能性があります。 ...

生成的ビデオ圧縮を有効にする: Google は GAN を使用して HEVC に匹敵するパフォーマンスを実現

[[416911]]一般的に、ビデオ圧縮の目的は、時間的および空間的な冗長性を活用して視覚コンテンツ...

データ サイエンティストが知っておくべき 5 つのグラフ アルゴリズム

導入グラフ分析はデータサイエンティストの未来だからです。データ サイエンティストとして、私たちは p...

COVID-19ヘルスケア市場はこれまでと異なる

[[355787]]画像ソース: https://pixabay.com/images/id-537...

量子超越性のマイルストーン! Googleの量子コンピュータは47年分の計算を6秒で完了し、世界初のスーパーコンピュータを上回る

Googleは再び「量子超越性」を達成したのか?最近、Google は、同社の量子コンピュータが、世...

複数の機会が生まれており、虹彩認識技術の将来の発展は有望である

[[424491]]近年、人工知能ブームの影響を受けて、生体認証技術は急速に進歩し、市場の発展も好調...

...

視覚的な「脳の読み取り」:脳の活動から見える世界を再構築する

人間の知覚は客観的な刺激だけでなく過去の経験によっても形成され、それらが組み合わさって脳内で複雑な活...

AIの「脳内いっぱい」写真は迫力満点!フェイフェイ・リーのチームの新作「ZeroNVS」は、単一ビューの360度フルシーン生成です。

最近では、3D 対応の拡散モデルを使用してモデルをトレーニングし、個々のオブジェクトに対して SDS...

Baidu Apollo がインテリジェント時代のモバイル空間「Apollo II」を正式に開始

2021年8月5日、百度アポロの新世代自動運転ミニバス「アポロII」が広州市黄埔で正式に公開されまし...

人工知能に必要な3つの条件

人工知能に必要な条件:ディープラーニングモデル、ビッグデータ、計算能力著者: マイケル・チャン201...

美団点評におけるディープラーニングの応用

序文近年、ディープラーニングは音声、画像、自然言語処理などの分野で優れた成果を上げており、最も注目さ...

マイクロソフトがOpenAIの理事に就任、アルトマン氏が初めてQ*に回答:残念なリーク

OpenAI の最初のシーズンは本当に終わりました。 ChatGPTがちょうど1周年を迎えようとして...

西側メディア:将来の兵士はロボットの「羊飼い」になる

Reference News Networkは1月4日、スペインの新聞Vanguardiaが2020...