推論性能はH100の10倍！ 21歳の中国人男性がハーバード大学を中退しAI加速チップ「Sohu」を開発、2人の会社の価値は3400万ドル

ピカのような神レベルの起業家物語が再び起こるでしょうか?

ハーバード大学を中退した2人の若者が、大規模言語モデルの高速化に特化したAIアクセラレータチップを開発したいと考えている。H100の10倍の推論性能を備え、2024年第3四半期に納品される予定。

今年6月、ギャビン・ウベルティ氏とクリス・チュー氏はEtched.aiを設立し、元eBay CEOのデビン・ウェニグ氏を含む複数のベンチャーキャピタル企業から536万ドルのシードラウンド投資を受けた。

同社の評価額は3,400万ドルにも上ります。

同社の公式サイトで公開されたデータによると、このチップはハードウェアレベルでTransformerアーキテクチャを統合し、NVIDIA H100と比較して推論速度を8〜10倍向上させるとのこと。

彼らは最初の LLM アクセラレーションチップを「Sohu」と名付け、数千語を数ミリ秒で処理できると主張しました。

このチップは、ツリー検索によるより優れたエンコードもサポートしており、数百の応答を並行して比較することができます。

また、リアルタイムで新しいコンテンツを生成できるマルチキャスト投機的デコードもサポートしています。

公式の詳細によると、このチップにはコアが 1 つしかありませんが、144GB の HBM3e ビデオメモリが搭載されています。

- 完全にオープンソースのソフトウェアスタック、100Tパラメータモデルまで拡張可能

- ビームサーチとMCTSデコードをサポート

- MoEとTransformerのさまざまなバリエーションをサポート

ハーバード大学中退者2人が半導体業界トップ企業に挑戦

2人は当初、ハーバード大学を1年間休学し、Apache TVMオープンソースコンパイラとマイクロカーネルを担当するチップ会社に就職する予定だった。

しかし、実際に仕事してみると、Arm の命令セットの一部の非効率的な設計によって作業効率が非常に悪くなることがわかりました。

この問題を体系的に解決する方法を考えたとき、彼らはこのアイデアを利用して、現在人気の AI 用の AI アクセラレーションチップを設計できることを発見しました。

創設者の一人である Uberti 氏の見解では、汎用設計では、同社が開発している独自のアクセラレーションチップがもたらすようなパフォーマンスの向上は達成できないとのことです。

「チップが AI タスクを処理できるようにするには、単一のアーキテクチャに多大な労力を費やす必要があります。目標が大きすぎます。より具体的なタスク向けにチップを設計する必要があります... Nvidia は最終的にこれを実行すると考えています。」

彼らの見解では、この市場機会は見逃せないほど大きい。

「4年前のGPT-2をMetaの最近のLlamaモデルと比較すると、違いはサイズと活性化関数の2つだけです。トレーニング方法に違いはありますが、それは推論にとって重要ではありません。」

Transformer の基本的なコンポーネントは固定されており、若干の違いはあるものの、短期的には Transformer に代わる新しいアーキテクチャが登場することを心配していないとのことです。

そこで彼らは、将来的に大規模モデル推論市場で NVIDIA などの一連のチップ大手と競争するために、Transformer アーキテクチャに基づく特定用途向け集積回路 (ASIC) を作ることを決定しました。

Etched.ai が発売する最初のチップは、H100 と比較して、単価あたりのスループット性能が 140 倍になると考えています。

まだ大学を卒業していない二人の学生が、チップ業界で最もホットな分野に挑戦できるのは、どのような背景があったからでしょうか。

創業者兼CEOのギャビン・ウベルティ氏は、2020年にハーバード大学に入学して以来、ハーバード大学以外でパートタイムで働いており、2022年末にEtched.aiを設立した。

大学入学前に、米国で最も有名な青少年科学技術イノベーションコンテストである FIRST Tech Challenge に参加し、彼のチームはトップ 10 賞を受賞しました。同チームが開発した自動運転ソフトウェアは、参加した600チームの中で第2位となった。

もう一人の創設者であるクリス・チュー氏もハーバード大学以外で多くのインターンシップを経験し、ハーバード大学を卒業する前には非常勤講師も務めていました。

AMD MI300X 対 NVIDIA H100

NvidiaとAMDに関しては、最近争いがさらに激しくなっており、公式関係者もブログを書いてこの問題について議論している。

少し前に、AMD は最も強力な AI チップ MI300X を発売しました。

PPT では、8 台の MI300X で構成されたサーバーは、同じサイズの H100 よりも大規模モデル推論で最大 1.6 倍高速に実行できることが示されています。

AMD の場合、このような直接的な比較はまれです。

これに対してNvidiaはすぐにブログ記事を公開し、AMDの評価は偏っていると反論した。

Nvidia は、H100 GPU を最適化されたソフトウェアで適切にベンチマークすると、MI300X を大幅に上回るパフォーマンスを発揮すると述べています。

これに応えて、Nvidia は TensorRT-LLM 最適化設定を使用して Llama 2 70B 上の 2 つの GPU の比較を示しました。

記事アドレス: https://developer.nvidia.com/blog/achieving-top-inference-performance-with-the-nvidia-h100-tensor-core-gpu-and-nvidia-tensorrt-llm/

バッチサイズを1に設定すると、H100のパフォーマンスはMI300Xの2倍になることがわかります。

AMDと同じ2.5秒の遅延を使用した場合でも、H100のパフォーマンスはMI300Xの14倍にもなります。

Nvidiaは、AMDが使用する代替ソフトウェアはHopperのTransformer Engineをサポートしておらず、TensorRT-LLMの主要な最適化機能を無視していると述べた。これらはすべて GitHub で無料で入手できます。

AMDは弱点を見せていない

これを見て、AMDも「最適化が使われるのだから、みんな使うべきだ」という声明を出しました。

この場合でも、MI300X のパフォーマンスは H100 よりも 30% 優れています。

記事アドレス: https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304

具体的には：

1. 同じ vLLM FP16 設定を使用した場合、記者会見で示された 1.4 倍のパフォーマンスと比較して、AMD の最新の最適化により、この利点は 2.1 倍に拡大されました。

2. vLLM を使用する MI300X は、TensorRT-LLM で最適化された H100 と比較して、1.3 倍のレイテンシ改善を実現します。

3. 低精度 FP8 と TensorRT-LLM を使用する H100 と比較すると、vLLM と高精度 FP16 を使用する MI300X は絶対レイテンシの点でパフォーマンスが優れています。

AMDは、NvidiaがH100のベンチマークを行う際に、より広く使用されているvLLMではなく、独自の技術であるTensorRT-LLMを使用したと指摘した。

さらに、レイテンシに関して言えば、NVIDIA はスループットパフォーマンスのみに焦点を当てており、実際の作業におけるレイテンシの問題は無視しています。

最後に、AMD は、FP16 が非常に人気があり、vLLM が現在 FP8 をサポートしていないため、FP16 を使用することを選択したと述べました。

GPU戦争が激化

AI アクセラレータの分野では、いくつかの企業が特定のワークロード向けの特化したアーキテクチャを持っています。

データセンターの専用アーキテクチャは主に DLRM (ディープラーニング推奨モデル) に重点を置いています。これは、GPU でこのようなタスクを高速化することが難しいためです。

Meta は最近、独自の DLRM 推論チップを開発し、それが広く導入されたことを発表しました。

Transformer アーキテクチャの高速化に関しては、NVIDIA は H100 GPU に Transformer Engine のソフトウェア機能を展開することでこれを実現します。

Transformer Engine は、さらなる量子化なしで LLM 推論を可能にし、GPU 推論 LLM の効果を大幅に加速します。

Etched.ai が行う必要があるのは、さらに一歩進んでこの設計をハードウェアレベルで完成させ、LLM の推論速度とエネルギー効率を向上させることです。

投資家が2人の学部中退者にこれほど多額の資金を投資する理由は、さらに重要なことに、これまでのところ、法学修士課程の費用が高すぎるため、革新の余地があるはずだと誰もが考えているからです。

このようなスタースタートアップ企業に加えて、伝統的な大手企業も大規模モデル推論市場に大きな期待を寄せています。

蘇馬氏は、将来的には大規模モデル推論市場の規模がモデルトレーニング市場よりもはるかに大きくなるだろうと、さまざまな機会に繰り返し述べています。そのため、AMD は自社製品がこの市場に完全に対応していることを強調してきました。

NvidiaとAMDが初めて自社製品の性能比較を公開したことからも判断すると、GPU分野での競争が激化していることは明らかだ。

現在、Nvidia は AMD からの挑戦に直面することに加えて、Intel と Cerebras の急速な進歩も考慮する必要があります。

12月14日には、CEOのパット・ゲルシンガー氏が、5nmプロセスを採用し、パフォーマンスが1.5倍向上したインテルの最新AIチップ、Gaudi 3を披露した。

前世代のGaudi 2と比較して、Gaudi 3のBFloat16パフォーマンスは4倍向上し、コンピューティングパワーは2倍に増加し、ビデオメモリ容量は50％増加して144GBになり、HBM3またはHBM3eを使用します。

同様に、Nvidia も来年初めに GH200 スーパーチップを発売する予定です。

競争の激しさを考えると、AMD は、同社の技術をデータセンターに統合する計画を発表している Microsoft、Meta、Oracle などの企業にとって代替候補となる可能性がある。

ゲルシンガー氏は、2027 年までに GPU 市場規模が驚異の 4,000 億ドルに達すると予測しており、これは間違いなく激しい競争の舞台となるでしょう。

セレブラス・システムズのCEO、アンドリュー・フェルドマン氏は、自身の野望を隠さず語った。「我々はNvidiaを追い抜くために懸命に取り組んでいます。来年までに、AIの計算能力を36エクサフロップスまで高めるつもりです。」

<<: AI、ゼロトラスト、エッジの近代化、マルチクラウド: 2024年に注目すべき技術トレンド

>>: デンマークのAIモデルは保険会社よりも正確に死亡率を予測し、乱用を懸念

ブログ

ブログ

AIチップと人工知能産業は密接に連携している

ブログ

テンセントクラウドが高性能アプリケーションサービスHAIを開始、すべての開発者が独自のAIアプリケーションを開発可能に

ブログ

推論性能はH100の10倍！ 21歳の中国人男性がハーバード大学を中退しAI加速チップ「Sohu」を開発、2人の会社の価値は3400万ドル

ハーバード大学中退者2人が半導体業界トップ企業に挑戦

AMD MI300X 対 NVIDIA H100

AMDは弱点を見せていない

GPU戦争が激化

プログラマーがアルゴリズムを本当に習得したら、どれほど強くなるでしょうか?

マスク氏がai.comドメイン名を購入しました！ウルトラマンは数千万ドルを費やしてそれを購入し、4ヶ月でアイアンマンに売却した

サイバー犯罪者はAIを利用してマルウェア攻撃ソフトウェアにサンドボックスを作成

アメリカン・エキスプレスはAIを活用してクレジットカード詐欺を50%削減

世界初の3nmチップ、Appleが再び神に！誰もが壮大なCチェンジのために島へ行き、コンソールゲームはiPhoneに搭載され、表面上の最高の画像はVision Proのすぐそばにあります

AIチップと人工知能産業は密接に連携している

テンセントクラウドが高性能アプリケーションサービスHAIを開始、すべての開発者が独自のAIアプリケーションを開発可能に

推薦する

実行に少量の計算リソースとメモリリソースしか必要としないSmall Llama大規模モデル

機械学習の7つの大罪：信頼性に影響を与える7つのよくある間違い

人工知能の現状と今後の動向

記事では、Alibaba のリアルタイムコンピューティング Blink の中核技術を明らかにしています。妥協せずに速度を実現するにはどうすればよいでしょうか。

AI 導入を迅速に進める 5 つの方法

インテリジェントなクラウドネイティブアプリケーションの台頭

AI はプラットフォームエンジニアリングと DevEx をどのように強化するのでしょうか?

数秒で AI を学ぶ - ディープラーニングの一般的な 4 つの活性化関数: シグモイド、Tanh、ReLU、Softmax

.Netガベージコレクションメカニズムはアルゴリズムと世代の年齢を理解します

革新的なマイクロチップ設計によりコンピューティングがエッジにまで広がり、AIをリアルタイムで使用できるようになります。

Gonex CEO ウェン・メンフェイ氏との独占インタビュー: アプリケーションの分野では、モデル自体よりも意図の認識の方が重要です。

博士課程新卒者の年収は80万元。AI業界で就職するのは本当にそんなに簡単なのでしょうか？

ハッシュアルゴリズムを使用した ASP.NET データ暗号化