推論性能はH100の10倍! 21歳の中国人男性がハーバード大学を中退しAI加速チップ「Sohu」を開発、2人の会社の価値は3400万ドル

推論性能はH100の10倍! 21歳の中国人男性がハーバード大学を中退しAI加速チップ「Sohu」を開発、2人の会社の価値は3400万ドル

ピカのような神レベルの起業家物語が再び起こるでしょうか?

ハーバード大学を中退した2人の若者が、大規模言語モデルの高速化に特化したAIアクセラレータチップを開発したいと考えている。H100の10倍の推論性能を備え、2024年第3四半期に納品される予定。

今年6月、ギャビン・ウベルティ氏とクリス・チュー氏はEtched.aiを設立し、元eBay CEOのデビン・ウェニグ氏を含む複数のベンチャーキャピタル企業から536万ドルのシードラウンド投資を受けた。

同社の評価額は3,400万ドルにも上ります。

同社の公式サイトで公開されたデータによると、このチップはハードウェアレベルでTransformerアーキテクチャを統合し、NVIDIA H100と比較して推論速度を8〜10倍向上させるとのこと。

彼らは最初の LLM アクセラレーション チップを「Sohu」と名付け、数千語を数ミリ秒で処理できると主張しました。

このチップは、ツリー検索によるより優れたエンコードもサポートしており、数百の応答を並行して比較することができます。

また、リアルタイムで新しいコンテンツを生成できるマルチキャスト投機的デコードもサポートしています。

公式の詳細によると、このチップにはコアが 1 つしかありませんが、144GB の HBM3e ビデオ メモリが搭載されています。

- 完全にオープンソースのソフトウェアスタック、100Tパラメータモデルまで拡張可能

- ビームサーチとMCTSデコードをサポート

- MoEとTransformerのさまざまなバリエーションをサポート

ハーバード大学中退者2人が半導体業界トップ企業に挑戦

2人は当初、ハーバード大学を1年間休学し、Apache TVMオープンソースコンパイラとマイクロカーネルを担当するチップ会社に就職する予定だった。

しかし、実際に仕事してみると、Arm の命令セットの一部の非効率的な設計によって作業効率が非常に悪くなることがわかりました。

この問題を体系的に解決する方法を考えたとき、彼らはこのアイデアを利用して、現在人気の AI 用の AI アクセラレーション チップを設計できることを発見しました。

創設者の一人である Uberti 氏の見解では、汎用設計では、同社が開発している独自のアクセラレーション チップがもたらすようなパフォーマンスの向上は達成できないとのことです。

「チップが AI タスクを処理できるようにするには、単一のアーキテクチャに多大な労力を費やす必要があります。目標が大きすぎます。より具体的なタスク向けにチップを設計する必要があります... Nvidia は最終的にこれを実行すると考えています。」

彼らの見解では、この市場機会は見逃せないほど大きい。

「4年前のGPT-2をMetaの最近のLlamaモデルと比較すると、違いはサイズと活性化関数の2つだけです。トレーニング方法に違いはありますが、それは推論にとって重要ではありません。」

Transformer の基本的なコンポーネントは固定されており、若干の違いはあるものの、短期的には Transformer に代わる新しいアーキテクチャが登場することを心配していないとのことです。

そこで彼らは、将来的に大規模モデル推論市場で NVIDIA などの一連のチップ大手と競争するために、Transformer アーキテクチャに基づく特定用途向け集積回路 (ASIC) を作ることを決定しました。

Etched.ai が発売する最初のチップは、H100 と比較して、単価あたりのスループット性能が 140 倍になると考えています。

まだ大学を卒業していない二人の学生が、チップ業界で最もホットな分野に挑戦できるのは、どのような背景があったからでしょうか。

創業者兼CEOのギャビン・ウベルティ氏は、2020年にハーバード大学に入学して以来、ハーバード大学以外でパートタイムで働いており、2022年末にEtched.aiを設立した。

大学入学前に、米国で最も有名な青少年科学技術イノベーションコンテストである FIRST Tech Challenge に参加し、彼のチームはトップ 10 賞を受賞しました。同チームが開発した自動運転ソフトウェアは、参加した600チームの中で第2位となった。

もう一人の創設者であるクリス・チュー氏もハーバード大学以外で多くのインターンシップを経験し、ハーバード大学を卒業する前には非常勤講師も務めていました。


AMD MI300X 対 NVIDIA H100

NvidiaとAMDに関しては、最近争いがさらに激しくなっており、公式関係者もブログを書いてこの問題について議論している。

少し前に、AMD は最も強力な AI チップ MI300X を発売しました。

PPT では、8 台の MI300X で構成されたサーバーは、同じサイズの H100 よりも大規模モデル推論で最大 1.6 倍高速に実行できることが示されています。

AMD の場合、このような直接的な比較はまれです。

これに対してNvidiaはすぐにブログ記事を公開し、AMDの評価は偏っていると反論した。

Nvidia は、H100 GPU を最適化されたソフトウェアで適切にベンチマークすると、MI300X を大幅に上回るパフォーマンスを発揮すると述べています。

これに応えて、Nvidia は TensorRT-LLM 最適化設定を使用して Llama 2 70B 上の 2 つの GPU の比較を示しました。

記事アドレス: https://developer.nvidia.com/blog/achieving-top-inference-performance-with-the-nvidia-h100-tensor-core-gpu-and-nvidia-tensorrt-llm/

バッチサイズを1に設定すると、H100のパフォーマンスはMI300Xの2倍になることがわかります。

AMDと同じ2.5秒の遅延を使用した場合でも、H100のパフォーマンスはMI300Xの14倍にもなります。

Nvidiaは、AMDが使用する代替ソフトウェアはHopperのTransformer Engineをサポートしておらず、TensorRT-LLMの主要な最適化機能を無視していると述べた。これらはすべて GitHub で無料で入手できます。

AMDは弱点を見せていない

これを見て、AMDも「最適化が使われるのだから、みんな使うべきだ」という声明を出しました。

この場合でも、MI300X のパフォーマンスは H100 よりも 30% 優れています。

記事アドレス: https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304

具体的には:

1. 同じ vLLM FP16 設定を使用した場合、記者会見で示された 1.4 倍のパフォーマンスと比較して、AMD の最新の最適化により、この利点は 2.1 倍に拡大されました。

2. vLLM を使用する MI300X は、TensorRT-LLM で最適化された H100 と比較して、1.3 倍のレイテンシ改善を実現します。

3. 低精度 FP8 と TensorRT-LLM を使用する H100 と比較すると、vLLM と高精度 FP16 を使用する MI300X は絶対レイテンシの点でパフォーマンスが優れています。

AMDは、NvidiaがH100のベンチマークを行う際に、より広く使用されているvLLMではなく、独自の技術であるTensorRT-LLMを使用したと指摘した。

さらに、レイテンシに関して言えば、NVIDIA はスループット パフォーマンスのみに焦点を当てており、実際の作業におけるレイテンシの問題は無視しています。

最後に、AMD は、FP16 が非常に人気があり、vLLM が現在 FP8 をサポートしていないため、FP16 を使用することを選択したと述べました。

GPU戦争が激化

AI アクセラレータの分野では、いくつかの企業が特定のワークロード向けの特化したアーキテクチャを持っています。

データセンターの専用アーキテクチャは主に DLRM (ディープラーニング推奨モデル) に重点を置いています。これは、GPU でこのようなタスクを高速化することが難しいためです。

Meta は最近、独自の DLRM 推論チップを開発し、それが広く導入されたことを発表しました。

Transformer アーキテクチャの高速化に関しては、NVIDIA は H100 GPU に Transformer Engine のソフトウェア機能を展開することでこれを実現します。

Transformer Engine は、さらなる量子化なしで LLM 推論を可能にし、GPU 推論 LLM の効果を大幅に加速します。

Etched.ai が行う必要があるのは、さらに一歩進んでこの設計をハードウェア レベルで完成させ、LLM の推論速度とエネルギー効率を向上させることです。

投資家が2人の学部中退者にこれほど多額の資金を投資する理由は、さらに重要なことに、これまでのところ、法学修士課程の費用が高すぎるため、革新の余地があるはずだと誰もが考えているからです。

このようなスタースタートアップ企業に加えて、伝統的な大手企業も大規模モデル推論市場に大きな期待を寄せています。

蘇馬氏は、将来的には大規模モデル推論市場の規模がモデルトレーニング市場よりもはるかに大きくなるだろうと、さまざまな機会に繰り返し述べています。そのため、AMD は自社製品がこの市場に完全に対応していることを強調してきました。


NvidiaとAMDが初めて自社製品の性能比較を公開したことからも判断すると、GPU分野での競争が激化していることは明らかだ。

現在、Nvidia は AMD からの挑戦に直面することに加えて、Intel と Cerebras の急速な進歩も考慮する必要があります。

12月14日には、CEOのパット・ゲルシンガー氏が、5nmプロセスを採用し、パフォーマンスが1.5倍向上したインテルの最新AIチップ、Gaudi 3を披露した。

前世代のGaudi 2と比較して、Gaudi 3のBFloat16パフォーマンスは4倍向上し、コンピューティングパワーは2倍に増加し、ビデオメモリ容量は50%増加して144GBになり、HBM3またはHBM3eを使用します。

同様に、Nvidia も来年初めに GH200 スーパーチップを発売する予定です。

競争の激しさを考えると、AMD は、同社の技術をデータセンターに統合する計画を発表している Microsoft、Meta、Oracle などの企業にとって代替候補となる可能性がある。

ゲルシンガー氏は、2027 年までに GPU 市場規模が驚異の 4,000 億ドルに達すると予測しており、これは間違いなく激しい競争の舞台となるでしょう。

セレブラス・システムズのCEO、アンドリュー・フェルドマン氏は、自身の野望を隠さず語った。「我々はNvidiaを追い抜くために懸命に取り組んでいます。来年までに、AIの計算能力を36エクサフロップスまで高めるつもりです。」

<<:  AI、ゼロトラスト、エッジの近代化、マルチクラウド: 2024年に注目すべき技術トレンド

>>:  デンマークのAIモデルは保険会社よりも正確に死亡率を予測し、乱用を懸念

ブログ    

推薦する

AIストレージプラットフォームが機械学習とデータ分析のニーズを満たす方法

機械学習と AI タスクの実行方法や環境内でのデータの収集方法に応じて、組織はどの AI ストレージ...

人工知能はより安全で環境に優しい交通システムの構築に役立つ

人工知能は、運輸業界が直面している多くの複雑な課題を解決するための最適なテクノロジーとなっています。...

調査レポート:2021年にAI機能を導入する企業が増加

[[360189]]今年、ほとんどの企業は、新型コロナウイルス感染症による混乱に対処し、リモートワー...

IIHS:自動運転車は交通事故を3分の1しか減らせない

道路安全保険協会(IIHS)が実施した調査によると、自動運転車は期待したほど事故を減らさない可能性が...

...

この中国のAIスタートアップはトップカンファレンスのコンペティションで優勝し、そのコードはオープンソース化された。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

DeepMindらが優秀論文賞を受賞、IBMスーパーコンピュータDeep Blueが古典に、IJCAI2023の賞が発表

国際人工知能合同会議(IJCAI)は、AI分野におけるトップクラスの学術会議の一つです。第1回会議は...

日本の量子コンピューティング戦略:2030年までに量子技術ユーザー1000万人を目指す

量子時代が到来し、世界は安全・安心な暮らしとより良い社会の実現への期待が高まっています。 最近、日本...

オートメーション研究所の拡散モデル「Brain Reading」、MindDiffuserは人間の脳の視覚イメージを鮮明に再現します

脳信号から対応する視覚刺激を再構築することは、意義深く困難な作業です。これまでの研究では、一部の自然...

機械学習アルゴリズムにおける分類知識の要約

この記事では、機械学習アルゴリズムにおける非常に重要な知識である分類、つまり入力データが属するカテゴ...

AIがイノベーションの大きな原動力となる理由

近年、人工知能は新興技術から必需品へと徐々に変化してきました。より大規模な企業の問題に対する解決策を...

...

小度が「画期的な」新製品を百度世界2020で初公開、CCTVと提携してスマートライフの全貌を披露

「小都小都」、「私はここにいます」 - 数百万の家族と小都の間の日常会話のシーンがCCTVニュースス...

それは祝福でしょうか、それとも呪いでしょうか?顔認識技術の長所と短所

[[402949]]顔認識技術の向上が進む一方で、その技術を取り巻くプライバシーに関する懸念も浮上し...

AIの変革力:AI市場の探究

人工知能 (AI) は、急速に現代の最も変革的なテクノロジーの 1 つとなり、産業を再編し、生産性を...