推論性能はH100の10倍! 21歳の中国人男性がハーバード大学を中退しAI加速チップ「Sohu」を開発、2人の会社の価値は3400万ドル

推論性能はH100の10倍! 21歳の中国人男性がハーバード大学を中退しAI加速チップ「Sohu」を開発、2人の会社の価値は3400万ドル

ピカのような神レベルの起業家物語が再び起こるでしょうか?

ハーバード大学を中退した2人の若者が、大規模言語モデルの高速化に特化したAIアクセラレータチップを開発したいと考えている。H100の10倍の推論性能を備え、2024年第3四半期に納品される予定。

今年6月、ギャビン・ウベルティ氏とクリス・チュー氏はEtched.aiを設立し、元eBay CEOのデビン・ウェニグ氏を含む複数のベンチャーキャピタル企業から536万ドルのシードラウンド投資を受けた。

同社の評価額は3,400万ドルにも上ります。

同社の公式サイトで公開されたデータによると、このチップはハードウェアレベルでTransformerアーキテクチャを統合し、NVIDIA H100と比較して推論速度を8〜10倍向上させるとのこと。

彼らは最初の LLM アクセラレーション チップを「Sohu」と名付け、数千語を数ミリ秒で処理できると主張しました。

このチップは、ツリー検索によるより優れたエンコードもサポートしており、数百の応答を並行して比較することができます。

また、リアルタイムで新しいコンテンツを生成できるマルチキャスト投機的デコードもサポートしています。

公式の詳細によると、このチップにはコアが 1 つしかありませんが、144GB の HBM3e ビデオ メモリが搭載されています。

- 完全にオープンソースのソフトウェアスタック、100Tパラメータモデルまで拡張可能

- ビームサーチとMCTSデコードをサポート

- MoEとTransformerのさまざまなバリエーションをサポート

ハーバード大学中退者2人が半導体業界トップ企業に挑戦

2人は当初、ハーバード大学を1年間休学し、Apache TVMオープンソースコンパイラとマイクロカーネルを担当するチップ会社に就職する予定だった。

しかし、実際に仕事してみると、Arm の命令セットの一部の非効率的な設計によって作業効率が非常に悪くなることがわかりました。

この問題を体系的に解決する方法を考えたとき、彼らはこのアイデアを利用して、現在人気の AI 用の AI アクセラレーション チップを設計できることを発見しました。

創設者の一人である Uberti 氏の見解では、汎用設計では、同社が開発している独自のアクセラレーション チップがもたらすようなパフォーマンスの向上は達成できないとのことです。

「チップが AI タスクを処理できるようにするには、単一のアーキテクチャに多大な労力を費やす必要があります。目標が大きすぎます。より具体的なタスク向けにチップを設計する必要があります... Nvidia は最終的にこれを実行すると考えています。」

彼らの見解では、この市場機会は見逃せないほど大きい。

「4年前のGPT-2をMetaの最近のLlamaモデルと比較すると、違いはサイズと活性化関数の2つだけです。トレーニング方法に違いはありますが、それは推論にとって重要ではありません。」

Transformer の基本的なコンポーネントは固定されており、若干の違いはあるものの、短期的には Transformer に代わる新しいアーキテクチャが登場することを心配していないとのことです。

そこで彼らは、将来的に大規模モデル推論市場で NVIDIA などの一連のチップ大手と競争するために、Transformer アーキテクチャに基づく特定用途向け集積回路 (ASIC) を作ることを決定しました。

Etched.ai が発売する最初のチップは、H100 と比較して、単価あたりのスループット性能が 140 倍になると考えています。

まだ大学を卒業していない二人の学生が、チップ業界で最もホットな分野に挑戦できるのは、どのような背景があったからでしょうか。

創業者兼CEOのギャビン・ウベルティ氏は、2020年にハーバード大学に入学して以来、ハーバード大学以外でパートタイムで働いており、2022年末にEtched.aiを設立した。

大学入学前に、米国で最も有名な青少年科学技術イノベーションコンテストである FIRST Tech Challenge に参加し、彼のチームはトップ 10 賞を受賞しました。同チームが開発した自動運転ソフトウェアは、参加した600チームの中で第2位となった。

もう一人の創設者であるクリス・チュー氏もハーバード大学以外で多くのインターンシップを経験し、ハーバード大学を卒業する前には非常勤講師も務めていました。


AMD MI300X 対 NVIDIA H100

NvidiaとAMDに関しては、最近争いがさらに激しくなっており、公式関係者もブログを書いてこの問題について議論している。

少し前に、AMD は最も強力な AI チップ MI300X を発売しました。

PPT では、8 台の MI300X で構成されたサーバーは、同じサイズの H100 よりも大規模モデル推論で最大 1.6 倍高速に実行できることが示されています。

AMD の場合、このような直接的な比較はまれです。

これに対してNvidiaはすぐにブログ記事を公開し、AMDの評価は偏っていると反論した。

Nvidia は、H100 GPU を最適化されたソフトウェアで適切にベンチマークすると、MI300X を大幅に上回るパフォーマンスを発揮すると述べています。

これに応えて、Nvidia は TensorRT-LLM 最適化設定を使用して Llama 2 70B 上の 2 つの GPU の比較を示しました。

記事アドレス: https://developer.nvidia.com/blog/achieving-top-inference-performance-with-the-nvidia-h100-tensor-core-gpu-and-nvidia-tensorrt-llm/

バッチサイズを1に設定すると、H100のパフォーマンスはMI300Xの2倍になることがわかります。

AMDと同じ2.5秒の遅延を使用した場合でも、H100のパフォーマンスはMI300Xの14倍にもなります。

Nvidiaは、AMDが使用する代替ソフトウェアはHopperのTransformer Engineをサポートしておらず、TensorRT-LLMの主要な最適化機能を無視していると述べた。これらはすべて GitHub で無料で入手できます。

AMDは弱点を見せていない

これを見て、AMDも「最適化が使われるのだから、みんな使うべきだ」という声明を出しました。

この場合でも、MI300X のパフォーマンスは H100 よりも 30% 優れています。

記事アドレス: https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304

具体的には:

1. 同じ vLLM FP16 設定を使用した場合、記者会見で示された 1.4 倍のパフォーマンスと比較して、AMD の最新の最適化により、この利点は 2.1 倍に拡大されました。

2. vLLM を使用する MI300X は、TensorRT-LLM で最適化された H100 と比較して、1.3 倍のレイテンシ改善を実現します。

3. 低精度 FP8 と TensorRT-LLM を使用する H100 と比較すると、vLLM と高精度 FP16 を使用する MI300X は絶対レイテンシの点でパフォーマンスが優れています。

AMDは、NvidiaがH100のベンチマークを行う際に、より広く使用されているvLLMではなく、独自の技術であるTensorRT-LLMを使用したと指摘した。

さらに、レイテンシに関して言えば、NVIDIA はスループット パフォーマンスのみに焦点を当てており、実際の作業におけるレイテンシの問題は無視しています。

最後に、AMD は、FP16 が非常に人気があり、vLLM が現在 FP8 をサポートしていないため、FP16 を使用することを選択したと述べました。

GPU戦争が激化

AI アクセラレータの分野では、いくつかの企業が特定のワークロード向けの特化したアーキテクチャを持っています。

データセンターの専用アーキテクチャは主に DLRM (ディープラーニング推奨モデル) に重点を置いています。これは、GPU でこのようなタスクを高速化することが難しいためです。

Meta は最近、独自の DLRM 推論チップを開発し、それが広く導入されたことを発表しました。

Transformer アーキテクチャの高速化に関しては、NVIDIA は H100 GPU に Transformer Engine のソフトウェア機能を展開することでこれを実現します。

Transformer Engine は、さらなる量子化なしで LLM 推論を可能にし、GPU 推論 LLM の効果を大幅に加速します。

Etched.ai が行う必要があるのは、さらに一歩進んでこの設計をハードウェア レベルで完成させ、LLM の推論速度とエネルギー効率を向上させることです。

投資家が2人の学部中退者にこれほど多額の資金を投資する理由は、さらに重要なことに、これまでのところ、法学修士課程の費用が高すぎるため、革新の余地があるはずだと誰もが考えているからです。

このようなスタースタートアップ企業に加えて、伝統的な大手企業も大規模モデル推論市場に大きな期待を寄せています。

蘇馬氏は、将来的には大規模モデル推論市場の規模がモデルトレーニング市場よりもはるかに大きくなるだろうと、さまざまな機会に繰り返し述べています。そのため、AMD は自社製品がこの市場に完全に対応していることを強調してきました。


NvidiaとAMDが初めて自社製品の性能比較を公開したことからも判断すると、GPU分野での競争が激化していることは明らかだ。

現在、Nvidia は AMD からの挑戦に直面することに加えて、Intel と Cerebras の急速な進歩も考慮する必要があります。

12月14日には、CEOのパット・ゲルシンガー氏が、5nmプロセスを採用し、パフォーマンスが1.5倍向上したインテルの最新AIチップ、Gaudi 3を披露した。

前世代のGaudi 2と比較して、Gaudi 3のBFloat16パフォーマンスは4倍向上し、コンピューティングパワーは2倍に増加し、ビデオメモリ容量は50%増加して144GBになり、HBM3またはHBM3eを使用します。

同様に、Nvidia も来年初めに GH200 スーパーチップを発売する予定です。

競争の激しさを考えると、AMD は、同社の技術をデータセンターに統合する計画を発表している Microsoft、Meta、Oracle などの企業にとって代替候補となる可能性がある。

ゲルシンガー氏は、2027 年までに GPU 市場規模が驚異の 4,000 億ドルに達すると予測しており、これは間違いなく激しい競争の舞台となるでしょう。

セレブラス・システムズのCEO、アンドリュー・フェルドマン氏は、自身の野望を隠さず語った。「我々はNvidiaを追い抜くために懸命に取り組んでいます。来年までに、AIの計算能力を36エクサフロップスまで高めるつもりです。」

<<:  AI、ゼロトラスト、エッジの近代化、マルチクラウド: 2024年に注目すべき技術トレンド

>>:  デンマークのAIモデルは保険会社よりも正確に死亡率を予測し、乱用を懸念

ブログ    
ブログ    

推薦する

インタビュアー: アルゴリズムの時間計算量と空間計算量についてどう思いますか?計算方法は?

[[424483]] 1. はじめにアルゴリズムとは、データを操作し、プログラムの問題を解決するた...

IT ワーカーの皆さん、AI が再びあなたの仕事を奪いに来ます。今度はデータセンターから

人工知能に関する議論は現在、自動運転車、チャットボット、デジタルツイン、ロボット工学、そしてビッグデ...

人間の審判が解雇される?冬季オリンピックのテストマッチで選手の得点をつけた人物はAIだった

2021年の欧州選手権でイングランドはデンマークを破り、初めて欧州選手権決勝に進出した。歴史に名を残...

ガベージ コレクション アルゴリズムと JVM ガベージ コレクターの概要

[[199042]]ガベージ コレクション アルゴリズムと JVM ガベージ コレクターの概要は、著...

真の人工知能から私たちはどれくらい遠いのでしょうか?

DeepMind がまた別の「悪役」を生み出しました! [[428779]]これらの小人たちは、ア...

...

アルゴリズムの旅について話しましょう:スタック

[[379190]]スタックの本質は、特殊なデータ構造です。その特殊な構造は、データのエントリと終了...

...

Taとのチャットを手助けするロボットをカスタマイズする

[[427589]]自動チャットの例これは 200 万件のチャット記録に基づいてトレーニングされてい...

最新研究:スーパー人工知能は理論的には制御不能

計算能力には限界があるため、人間が超人工知能を制御することはできません。 [[379749]]最近、...

AIツールはリモートワーク中のチームの生産性向上に役立ちます

[[385429]]人工知能は、自宅からリモートで仕事をしながら生産性を維持したい労働者にとって重要...

ドローンはどうやって夏の「蚊との戦い」に勝つのでしょうか?これら3つのポイントを達成する必要があります。

夏が来ると、人類の最大の敵の一つである蚊が活発になります。彼らは2~3匹で「家に侵入」し、「ブンブン...

298.2億ドル規模のロボット市場がなぜこれほど不振なのか?

以前、マッキンゼー・グローバル・インスティテュートは、2030年までに約70%の企業が少なくとも1つ...

AIのおかげで売上が24%増加しました。このようなAI人材はどこで見つけられるのでしょうか?

[[429444]]この記事はWeChatの公開アカウント「Computer World」から転載...