チップ設計に特化したNVIDIAが、カスタマイズされた大規模言語モデルChipNeMoをリリース！

先日開幕した ICCAD 2023 カンファレンスで、NVIDIA チームは AI モデルを使用してチップをテストするデモを行い、業界の注目を集めました。

ご存知のとおり、半導体の設計は非常に困難な作業です。

顕微鏡で見ると、Nvidia の H100 のような最高級チップは、人間の髪の毛の 10,000 分の 1 の細さの道路に何百億ものトランジスタが接続された、綿密に計画された大都市のように見える。

このようなデジタルメガシティを構築するには、2 年間にわたる複数のエンジニアリングチームの連携が必要です。

あるグループはチップの全体的なアーキテクチャを決定し、他のグループはさまざまな超小型回路を製造して配置し、さらに他のグループはテストを実施します。各タスクには、特殊な方法、ソフトウェアプログラム、およびコンピューター言語が必要です。

ChipNeMo: Nvidia 版の「チップ設計」ビッグモデル

最近、NVIDIA の研究チームは ChipNeMo と呼ばれるカスタム LLM を開発しました。これは、同社の内部データに基づいてトレーニングされ、ソフトウェアを生成および最適化し、人間の設計者を支援します。

論文アドレス: https://research.nvidia.com/publication/2023-10_chipnemo-domain-adapted-llms-chip-design

研究者らは、市販の商用またはオープンソースの LLM を直接導入する代わりに、カスタム単語セグメンター、ドメイン適応型連続事前トレーニング (DAPT)、ドメイン固有の指示による教師あり微調整 (SFT)、およびドメイン適応型検索モデルというドメイン適応技術を採用しました。

結果は、これらのドメイン適応技術が、汎用ベースモデル（700億のパラメータを持つLlama 2など）と比較してLLMのパフォーマンスを大幅に向上できることを示している。

さまざまな設計タスクで同等以上のパフォーマンスを達成しただけでなく、モデルサイズも 5 分の 1 に削減しました (カスタム ChipNeMo モデルのパラメーターはわずか 130 億個でした)。

具体的には、研究者らは、エンジニアリングアシスタントチャットボット、EDA スクリプト生成、エラーの要約と分析という 3 つのチップ設計アプリケーションでこれを評価しました。

その中で、チャットボットは GPU のアーキテクチャと設計に関するさまざまな質問に答えることができ、多くのエンジニアが技術文書をすばやく見つけるのに役立ちます。

コードジェネレーターは、チップ設計で一般的に使用される 2 つの専門言語で、約 10 〜 20 行のコードスニペットを作成できます。

コードジェネレータ

最も人気のある分析ツールは、エラーの説明を維持および更新するという非常に時間のかかるタスクを自動的に完了できます。

これに対して、NVIDIAの主任科学者ビル・ダリー氏は、生産性を5%向上させるだけでも大きな勝利となるだろうと語った。

ChipNeMo は、複雑な半導体設計の分野における LLM の最初の重要なステップです。

これは、高度に専門化された分野では、その内部データを使用して有用な生成 AI モデルをトレーニングすることが完全に可能であることも意味します。

データ

ドメイン適応型事前トレーニング（DAPT）に必要なデータを構築するために、研究者らはNvidia独自のチップ設計データと他の公開データを組み合わせました。

収集、クリーニング、フィルタリングを行った後、内部データトレーニングコーパスには、設計、検証、インフラストラクチャ、および関連する内部文書を網羅する合計 231 億トークンが含まれます。

公開データに関しては、研究者らはDAPT中に一般知識と自然言語能力を維持することを目的として、Llama2で使用された事前トレーニングデータを再利用しました。

コードセクションでは、C++、Python、Verilog など、GitHub におけるチップ設計に関連するプログラミング言語に重点が置かれています。

研究者らは、教師あり微調整 (SFT) プロセス中に、市販の一般的なチャット SFT コマンドデータセットを選択し、ドメイン固有のコマンドデータセットを作成しました。

さまざまなモデルの精度を迅速かつ定量的に評価するために、研究者らは、MMLU で使用される複数選択質問の形式に似た特別な評価基準である AutoEval も構築しました。

電車

ChipNeMo は、チップ設計データ用のカスタム単語セグメンター、大量のドメインデータを使用したドメイン適応事前トレーニング、ドメイン固有のタスクを使用した教師あり微調整、微調整された検索モデルを使用した検索強化など、さまざまなドメイン適応手法を採用しています。

まず、事前トレーニング済みのトークナイザーは、ドメイン固有のデータのトークン化効率を向上させ、一般的なデータセットでの効率と言語モデルのパフォーマンスを維持し、再トレーニング/微調整の作業負荷を最小限に抑えることができます。

第二に、研究者らは標準的な自己回帰言語モデリングの目的を採用し、ドメイン固有のデータに対してより深い事前トレーニングを実行しました。

DAPT の後、モデルの調整を実現するために、教師あり微調整 (SFT) がさらに使用されます。

大規模モデルの幻覚問題に対処するために、研究者は検索拡張生成 (RAG) 法を選択しました。

研究者らは、RAG でドメイン適応型言語モデルを使用すると、ドメイン固有の質問に対する回答の品質が大幅に向上することを発見しました。

さらに、適度な量のドメイン固有のトレーニングデータを使用して、既製の教師なしの事前トレーニング済み高密度検索モデルを微調整すると、検索精度が大幅に向上します。

結果

まず、適応型単語セグメンテーションにより、さまざまなチップ設計データセットで単語セグメンテーション効率が 1.6% ～ 3.3% 向上します。

次に、チップ設計ベンチマーク AutoEval とオープンドメインの学術ベンチマークでの ChipNeMo モデルのテスト結果は次のとおりです。

1. DAPT モデルは、オープンドメインの学術ベンチマークで精度がわずかに低下することがわかります。

2. DAPT は現場のタスク自体にプラスの影響を与えます。その中で、モデルの内部設計と回路設計の知識レベルが大幅に向上しました。

3. より大規模で強力なベースモデルを使用すると、特定のドメインタスクでより良い結果を達成できます。

4. ドメイン内タスクにおける DAPT の改善は、モデルサイズと正の相関関係にあります。モデルが大きいほど、DAPT 後の特定のドメインタスクでパフォーマンスがより顕著に改善されます。

すべてのモデルは 128 個の A100 GPU を使用してトレーニングされました。研究者らは、ChipNeMo でのドメイン適応型事前トレーニングに関連するコストを以下の表のように推定しました。

注目すべきは、DAPT が、ベースモデルを最初から事前トレーニングする総コストの 1.5% 未満を占めることです。

RAG とエンジニアリングアシスタントチャットボット

研究者らは、RAG の有無にかかわらず、複数の ChipNeMo モデルと Llama 2 モデルを評価しました。結果は図 8 に示されています。

- RAG はモデルのスコアを大幅に向上させることができ、RAG が失敗した場合でも、通常はスコアが高くなります。

- ChipNeMo-13B-Chat は、同様のサイズの Llama2-13B-Chat よりも高いスコアを達成しました。

- RAG を使用した ChipNeMo-13B-Chat は、RAG を使用した Llama2-70B-Chat と同じスコア (7.4) を達成しました。 RAG がヒットすると、Llama2-70B-Chat のスコアが高くなりますが、RAG がミスすると、ドメイン適応機能を備えた ChipNeMo のパフォーマンスが向上します。

- ドメイン SFT により、ChipNeMo-13B-Chat のパフォーマンスが 0.28 (RAG あり) および 0.33 (RAG なし) 向上します。

EDA スクリプト生成

図 9 からわかるように、DAPT は基盤となる API に関するモデルの知識を補完し、ドメイン SFT は結果をさらに改善します。

興味深い結果は、LLaMA2-70B が優れた汎用 Python コーディング能力を使用して、トレーニングされていない新しい問題を解決できるように見えることです。しかし、Tcl コードにほとんど触れていないため、そのツールではパフォーマンスが低下します。

これは、ニッチなプログラミング言語や独自のプログラミング言語における DAPT の利点も強調しています。

バグの概要と分析

結果を図 10 に示します。ChipNeMo-13B-Chat モデルは、3 つのタスクすべてでベース LLaMA2-13B-Chat モデルよりも優れており、技術概要、管理概要、タスク推奨のスコアがそれぞれ 0.82、1.09、0.61 向上しました。

さらに、ドメイン SFT は、管理概要とタスク割り当てにおけるモデルのパフォーマンスも大幅に向上させます。

ただし、Llama2-70B-Chat モデルはすべてのタスクで ChipNeMo-13B よりも優れたパフォーマンスを発揮します。

話し合う

ただし、図 8、9、10 に示すように、より大きな Llama2 70B でも ChipNeMo と同等の精度を達成できる場合があります。しかし、小規模モデルのコスト上の利点を考慮することも重要です。

たとえば、Llama2 70B とは異なり、Nvidia の ChipNeMo 13B は、量子化なしで単一の A100 GPU のビデオメモリに直接ロードできます。これにより、モデルの推論速度が大幅に向上します。同時に、関連研究では、8B モデルの推論コストは 62B モデルの 8 ～ 12 倍低いことも示されています。

したがって、実稼働環境で大規模な汎用モデルを使用するか、小規模な専用モデルを使用するかを決定する際には、次の基準を考慮する必要があります。

- トレーニングと推論のトレードオフ:

より小規模なドメイン適応モデルは、より大きな一般モデルと比較できます。ドメイン適応には追加の初期コストがかかりますが、より小さなモデルを使用すると運用コストを大幅に削減できます。

- ユースケースの一意性:

図 6、9、10 からわかるように、ドメイン適応モデルは、独自の言語やライブラリでのコードの作成など、パブリックドメインではほとんど見られないタスクで非常に優れたパフォーマンスを発揮します。このコンテキストでは、慎重に選択されたコンテキストが提供されたとしても、汎用の大規模モデルがドメイン適応モデルの精度に匹敵することは困難です。

- フィールドデータの可用性:

ドメイン適応は、大量のトレーニングデータ (数十億のトレーニングトークン) がある場合に最も効果的に機能します。これは、大量の社内ドキュメントやコードを蓄積している企業やプロジェクトではよく見られますが、必ずしも小規模な企業やプロジェクトではそうとは限りません。

- 多様なユースケース:

一般的なモデルは特定のタスクに合わせて微調整できますが、ドメイン適応モデルはドメイン内のさまざまなタスクに適用できます。

一般的に、ChipNeMo-13B-Chat などのドメイン適応型の事前トレーニング済みモデルは、ベースモデルよりも優れた結果を達成でき、Llama2 70B などの大規模なモデルとの差を縮めることができます。

<<: こんなの今まで見たことないよ！ AIの巨人たちが「人類絶滅説」に立ち向かい、ヒントン、アンドリュー・ン、ルカンが排除され、マスクは強く見守った

>>: DeepMind が新世代 AlphaFold を発表、予測精度が 10% 近く向上しました。 DNAとRNAのAlphaFoldの瞬間が到来