大規模モデル向けの最速推論チップが一夜にして手に入りました。1秒あたり500トークンで、GPUを上回ります。 Google TPUチームがそれを構築し、ウルトラマンに叫ぶ: あなたは遅すぎる

速すぎる、速すぎる。

一晩で遅延なく大規模なモデルが生成されます...このスピードをぜひ体験してください。

、再生時間 00:06

目が回りそうですよね？生成速度は1秒あたり500トークン近くあります。

また、より直感的なリスト比較機能も備わっており、従来のクラウドプラットフォームベンダーよりも最大 18 倍高速化できます。

（ここにはおなじみの人物、レプトンも登場します）

ネットユーザーたちはこう言った。「このスピードは、飛行機を飛ばすのと歩くのとでまったく同じだ。」

これは大企業の進歩ではないことは言うまでもない——

もともと Google の TPU チームの一員だったスタートアップ企業 Groq は、独自のチップをベースにした推論加速ソリューションを立ち上げました。（これはマスク氏のGrokではないことに注意）

同社によれば、推論速度はNVIDIA GPUの10倍だが、コストは10分の1に削減されるという。

つまり、あらゆる大規模モデルを展開して実装できるということです。

現在、Mixtral 8x7B SMoE、Llama 2の7Bおよび70Bモデルをサポートしており、デモを直接体験できます。

彼らは公式サイトでもウルトラマンに呼びかけている。

君たちは物事を始めるのが本当に遅いね...

1秒あたり約500トークン

それなら、「史上最速の推論」として知られるGroqを体験してみましょう。

まず最初に、生成された品質は比較されないことを述べておきたいと思います。

自ら述べているように、コンテンツについては責任を負いません。

現在、デモインターフェイスでは 2 つのモデルから選択できます。

Mixtral 8x7B-32k と GPT-4 を比較してみましょう。

プロンプト: あなたは小学生で、冬休みの宿題をまだ終えていません。「インターステラー」についての500語のレビューを書いてください。

その結果、1 秒あたり 478 トークンの速度で、長い一連の読み取りメモがわずか 1.76 秒で生成されました。

ただし、内容は英語であり、読書ノートは360語強しかありません。しかし、私はすぐに、小学生がそんなにたくさん書けるはずがないと考えたからだと説明しました...

GPT-4 のパフォーマンスに関しては、当然ながらコンテンツの品質が向上し、思考プロセス全体も反映されます。しかし、完全に生成するまでに 30 秒以上かかりました。読書レビューのコンテンツを作成するだけで約 20 秒かかります。

デモに加えて、Groq は API アクセスをサポートし、完全な互換性を備えているため、OpenAI の API から直接簡単に切り替えることができます。

10日間無料でお試しいただけます。その期間中、100万トークンを無料で入手できます。

現在、Llama 2-70B と 7B がサポートされており、Groq は 4096 のコンテキスト長を実現でき、Mixtral 8x7B モデルもあります。もちろん、これらのモデルに限定されるわけではありません。Groq は特定のニーズに応じたカスタマイズをサポートします。

価格に関しては、市場の同価格よりも低くなることを保証します。

しかし、1 秒あたり 500 トークンは究極の速度ではないようです。達成可能な最速は 1 秒あたり 750 トークンです。

Google TPU チーム起業家プロジェクト

Groq は、ソフトウェアとハードウェアのサービスを統合した大規模モデル推論アクセラレーションソリューションです。2016 年に設立され、創設チームのメンバーの多くは Google TPU のオリジナルメンバーです。

同社の経営陣10人のうち5人はGoogleで勤務し、3人はIntelで勤務した経験がある。

創設者兼 CEO の Jonathan Ross 氏は、第 1 世代 TPU チップのコアコンポーネントを設計および実装し、TPU の研究開発作業の 20% を完了しました。

Groq は GPU ルートを採用せず、代わりに世界初の L (言語) PU ソリューションを作成しました。

LPU の核となる秘密は、コンピューティング密度とメモリ帯域幅という 2 つの LLM ボトルネックを克服することです。最終的な LLM 推論パフォーマンスは、他のクラウドプラットフォームベンダーの 18 倍高速です。

以前の紹介によると、Nvidia GPU は応答でトークンを生成するために約 10 ジュールから 30 ジュールを必要としますが、Groq 設定ではトークンごとに約 1 ジュールから 3 ジュールが必要です。

そのため、推論速度は10倍に向上し、コストは10分の1に削減され、コストパフォーマンスは100倍向上しました。

レイテンシに関しては、70B モデルを実行する場合、最初のトークンを出力する際の遅延はわずか 0.22 秒です。

Groq のパフォーマンスレベルに適応するために、第三者評価機関 Artificial Analysis はチャートの座標軸を特別に調整しました。

Groqのチップは14nmプロセスを採用し、メモリ帯域幅を確保するために230MBの大容量SRAMを搭載していると報じられている。オンチップメモリ帯域幅は80TB/sに達する。

計算能力の面では、Gorq チップは整数 (8 ビット) 計算速度が 750TOP、浮動小数点 (16 ビット) 計算速度が 188TFLOP です。

Groq は主に同社が独自に開発した TSP アーキテクチャに基づいており、そのメモリユニットはベクトルおよびマトリックスのディープラーニング機能ユニットとインターリーブされており、機械学習ワークロードの固有の並列性を活用して推論を高速化します。

各TSPは計算処理を実行すると同時に、ネットワーク交換機能も備えており、外部のネットワーク機器に頼ることなく、ネットワークを介して他のTSPと直接情報を交換できます。この設計により、システムの並列処理能力と効率が向上します。

新しく設計された Dragonfly ネットワークトポロジと組み合わせることで、ホップ数が削減され、通信遅延が低減され、伝送効率がさらに向上します。同時に、ソフトウェアスケジューリングネットワークにより、正確なフロー制御とパスプランニングが可能になり、システム全体のパフォーマンスが向上します。

Groq は、PyTorch や TensorFlow などの標準的な機械学習フレームワークによる推論をサポートしていますが、現在のところモデルのトレーニングはサポートしていません。

さらに、Groq はコンパイルプラットフォームとローカライズされたハードウェアソリューションも提供していますが、詳細は紹介されていません。詳細を知りたい場合は、チームに連絡する必要があります。

サードパーティのウェブサイトでは、Groqチップを搭載したアクセラレータカードの価格は2万ドル以上、つまり約15万人民元です。

有名な電子部品メーカーであるMolexの子会社であるBittWare社が製造しています。この工場ではIntelやAMDのアクセラレータカードも製造しています。

現在、Groqの公式サイトでは募集中です。

技術職の年間給与は10万ドルから50万ドル、非技術職の年間給与は9万ドルから47万ドルです。

「目標は3年以内にNvidiaを追い抜くことだ」

さらに、この会社では、あらゆる大物たちに挑戦し、呼びかけるという活動も日々行われています。

GPT ストアがオープンしたとき、グロクはウルトラマンに向かって「GPT を使うのは夜遅くに戦争と平和を読むのと同じくらい遅い」と叫びました... 彼はとても皮肉でした〜

マスク氏はまた、自身の名前を「盗用した」として同社から批判された。

最近の話し合いでは、新たな動きがあったようだ。

Groq のスタッフを名乗るユーザーは、ネットユーザーとのやり取りの中で、Groq の目標は最速の大規模モデルハードウェアを作成することだと述べ、次のように宣言しました。

3年以内にNvidiaを追い抜く。

今、黄院士の核兵器には新たな標的がある。

参考リンク:
[1] https://wow.groq.com/
[2] https://news.ycombinator.com/item?id=39428880

<<: 10,000台以上のカメラが他人の家に接続されています。ネットワーク障害により中断と再起動が発生し、公式の責任はサードパーティのキャッシュライブラリに帰せられました。

>>: 10x Nvidia GPU: Google TPUスタートアップチームによる、モデル固有の大型チップが一夜にして有名に

Python での機械学習アルゴリズムの実装: ニューラルネットワーク

ブログ

一枚の写真で「踊り続ける」ことができ、SHERFは人間の神経放射場を駆動できる新しい方法を一般化することができます

ブログ

大規模モデル向けの最速推論チップが一夜にして手に入りました。1秒あたり500トークンで、GPUを上回ります。 Google TPUチームがそれを構築し、ウルトラマンに叫ぶ: あなたは遅すぎる

1秒あたり約500トークン

Google TPU チーム起業家プロジェクト

「目標は3年以内にNvidiaを追い抜くことだ」

Python での機械学習アルゴリズムの実装: ニューラルネットワーク

一枚の写真で「踊り続ける」ことができ、SHERFは人間の神経放射場を駆動できる新しい方法を一般化することができます

「未来、人類、そして人工知能」についての白熱した議論です

コーディングが ChatGPT を圧倒します! UIUCと清華大学が共同で7BパラメータのMagicorderをリリース、コードデータの重みは完全にオープンソース

人工知能チュートリアル（II）：人工知能の歴史とマトリックスの再考

JS を使用して複数の画像類似性アルゴリズムを実装する

推薦する

機械学習、人工知能、ディープラーニングの関係は何ですか?ついに誰かが明らかにした

データサイエンティストになりたいですか?機械学習を最初のコースとして受講しないでください

人工知能の 10 大トレンドのうち、予想もしなかったものはどれですか?

マスク氏が選んだ天才少年：14歳でスペースXの最年少エンジニアとなり、年俸100万、2歳で学び始め、11歳で大学へ進学

AIキーストロークパターン検出によるパスワードの認識を防ぐ方法

日本では想像以上にAIが活用されている

次世代ビジネスインテリジェンスのトレンドと機会

研究者らは、その上に置かれた物を認識できるスマートテーブルクロス生地を開発している

16歳の高校生が13,000行以上のコードでC++機械学習ライブラリをゼロから作成した

モノのインターネットは単なるトレンドではなく、未来を形作る

ディープラーニング入門