チップ設計に特化したNVIDIAが、カスタマイズされた大規模言語モデルChipNeMoをリリース!

チップ設計に特化したNVIDIAが、カスタマイズされた大規模言語モデルChipNeMoをリリース!

先日開幕した ICCAD 2023 カンファレンスで、NVIDIA チームは AI モデルを使用してチップをテストするデモを行い、業界の注目を集めました。

ご存知のとおり、半導体の設計は非常に困難な作業です。

顕微鏡で見ると、Nvidia の H100 のような最高級チップは、人間の髪の毛の 10,000 分の 1 の細さの道路に何百億ものトランジスタが接続された、綿密に計画された大都市のように見える。

このようなデジタルメガシティを構築するには、2 年間にわたる複数のエンジニアリング チームの連携が必要です。

あるグループはチップの全体的なアーキテクチャを決定し、他のグループはさまざまな超小型回路を製造して配置し、さらに他のグループはテストを実施します。各タスクには、特殊な方法、ソフトウェア プログラム、およびコンピューター言語が必要です。

ChipNeMo: Nvidia 版の「チップ設計」ビッグモデル

最近、NVIDIA の研究チームは ChipNeMo と呼ばれるカスタム LLM を開発しました。これは、同社の内部データに基づいてトレーニングされ、ソフトウェアを生成および最適化し、人間の設計者を支援します。

論文アドレス: https://research.nvidia.com/publication/2023-10_chipnemo-domain-adapted-llms-chip-design

研究者らは、市販の商用またはオープンソースの LLM を直接導入する代わりに、カスタム単語セグメンター、ドメイン適応型連続事前トレーニング (DAPT)、ドメイン固有の指示による教師あり微調整 (SFT)、およびドメイン適応型検索モデルというドメイン適応技術を採用しました。

結果は、これらのドメイン適応技術が、汎用ベースモデル(700億のパラメータを持つLlama 2など)と比較してLLMのパフォーマンスを大幅に向上できることを示している。

さまざまな設計タスクで同等以上のパフォーマンスを達成しただけでなく、モデル サイズも 5 分の 1 に削減しました (カスタム ChipNeMo モデルのパラメーターはわずか 130 億個でした)。

具体的には、研究者らは、エンジニアリング アシスタント チャットボット、EDA スクリプト生成、エラーの要約と分析という 3 つのチップ設計アプリケーションでこれを評価しました。

その中で、チャットボットは GPU のアーキテクチャと設計に関するさまざまな質問に答えることができ、多くのエンジニアが技術文書をすばやく見つけるのに役立ちます。

コード ジェネレーターは、チップ設計で一般的に使用される 2 つの専門言語で、約 10 〜 20 行のコード スニペットを作成できます。

コードジェネレータ

最も人気のある分析ツールは、エラーの説明を維持および更新するという非常に時間のかかるタスクを自動的に完了できます。

これに対して、NVIDIAの主任科学者ビル・ダリー氏は、生産性を5%向上させるだけでも大きな勝利となるだろうと語った。

ChipNeMo は、複雑な半導体設計の分野における LLM の最初の重要なステップです。

これは、高度に専門化された分野では、その内部データを使用して有用な生成 AI モデルをトレーニングすることが完全に可能であることも意味します。

データ

ドメイン適応型事前トレーニング(DAPT)に必要なデータを構築するために、研究者らはNvidia独自のチップ設計データと他の公開データを組み合わせました。

収集、クリーニング、フィルタリングを行った後、内部データトレーニングコーパスには、設計、検証、インフラストラクチャ、および関連する内部文書を網羅する合計 231 億トークンが含まれます。

公開データに関しては、研究者らはDAPT中に一般知識と自然言語能力を維持することを目的として、Llama2で使用された事前トレーニングデータを再利用しました。

コードセクションでは、C++、Python、Verilog など、GitHub におけるチップ設計に関連するプログラミング言語に重点が置かれています。

研究者らは、教師あり微調整 (SFT) プロセス中に、市販の一般的なチャット SFT コマンド データセットを選択し、ドメイン固有のコマンド データセットを作成しました。

さまざまなモデルの精度を迅速かつ定量的に評価するために、研究者らは、MMLU で使用される複数選択質問の形式に似た特別な評価基準である AutoEval も構築しました。

電車

ChipNeMo は、チップ設計データ用のカスタム単語セグメンター、大量のドメイン データを使用したドメイン適応事前トレーニング、ドメイン固有のタスクを使用した教師あり微調整、微調整された検索モデルを使用した検索強化など、さまざまなドメイン適応手法を採用しています。

まず、事前トレーニング済みのトークナイザーは、ドメイン固有のデータのトークン化効率を向上させ、一般的なデータセットでの効率と言語モデルのパフォーマンスを維持し、再トレーニング/微調整の作業負荷を最小限に抑えることができます。

第二に、研究者らは標準的な自己回帰言語モデリングの目的を採用し、ドメイン固有のデータに対してより深い事前トレーニングを実行しました。

DAPT の後、モデルの調整を実現するために、教師あり微調整 (SFT) がさらに使用されます。

大規模モデルの幻覚問題に対処するために、研究者は検索拡張生成 (RAG) 法を選択しました。

研究者らは、RAG でドメイン適応型言語モデルを使用すると、ドメイン固有の質問に対する回答の品質が大幅に向上することを発見しました。

さらに、適度な量のドメイン固有のトレーニング データを使用して、既製の教師なしの事前トレーニング済み高密度検索モデルを微調整すると、検索精度が大幅に向上します。

結果

まず、適応型単語セグメンテーションにより、さまざまなチップ設計データセットで単語セグメンテーション効率が 1.6% ~ 3.3% 向上します。

次に、チップ設計ベンチマーク AutoEval とオープン ドメインの学術ベンチマークでの ChipNeMo モデルのテスト結果は次のとおりです。

1. DAPT モデルは、オープン ドメインの学術ベンチマークで精度がわずかに低下することがわかります。

2. DAPT は現場のタスク自体にプラスの影響を与えます。その中で、モデルの内部設計と回路設計の知識レベルが大幅に向上しました。

3. より大規模で強力なベース モデルを使用すると、特定のドメイン タスクでより良い結果を達成できます。

4. ドメイン内タスクにおける DAPT の改善は、モデル サイズと正の相関関係にあります。モデルが大きいほど、DAPT 後の特定のドメイン タスクでパフォーマンスがより顕著に改善されます。

すべてのモデルは 128 個の A100 GPU を使用してトレーニングされました。研究者らは、ChipNeMo でのドメイン適応型事前トレーニングに関連するコストを以下の表のように推定しました。

注目すべきは、DAPT が、ベースモデルを最初から事前トレーニングする総コストの 1.5% 未満を占めることです。

RAG とエンジニアリング アシスタント チャットボット

研究者らは、RAG の有無にかかわらず、複数の ChipNeMo モデルと Llama 2 モデルを評価しました。結果は図 8 に示されています。

- RAG はモデルのスコアを大幅に向上させることができ、RAG が失敗した場合でも、通常はスコアが高くなります。

- ChipNeMo-13B-Chat は、同様のサイズの Llama2-13B-Chat よりも高いスコアを達成しました。

- RAG を使用した ChipNeMo-13B-Chat は、RAG を使用した Llama2-70B-Chat と同じスコア (7.4) を達成しました。 RAG がヒットすると、Llama2-70B-Chat のスコアが高くなりますが、RAG がミスすると、ドメイン適応機能を備えた ChipNeMo のパフォーマンスが向上します。

- ドメイン SFT により、ChipNeMo-13B-Chat のパフォーマンスが 0.28 (RAG あり) および 0.33 (RAG なし) 向上します。

EDA スクリプト生成

図 9 からわかるように、DAPT は基盤となる API に関するモデルの知識を補完し、ドメイン SFT は結果をさらに改善します。

興味深い結果は、LLaMA2-70B が優れた汎用 Python コーディング能力を使用して、トレーニングされていない新しい問題を解決できるように見えることです。しかし、Tcl コードにほとんど触れていないため、そのツールではパフォーマンスが低下します。

これは、ニッチなプログラミング言語や独自のプログラミング言語における DAPT の利点も強調しています。

バグの概要と分析

結果を図 10 に示します。ChipNeMo-13B-Chat モデルは、3 つのタスクすべてでベース LLaMA2-13B-Chat モデルよりも優れており、技術概要、管理概要、タスク推奨のスコアがそれぞれ 0.82、1.09、0.61 向上しました。

さらに、ドメイン SFT は、管理概要とタスク割り当てにおけるモデルのパフォーマンスも大幅に向上させます。

ただし、Llama2-70B-Chat モデルはすべてのタスクで ChipNeMo-13B よりも優れたパフォーマンスを発揮します。

話し合う

ただし、図 8、9、10 に示すように、より大きな Llama2 70B でも ChipNeMo と同等の精度を達成できる場合があります。しかし、小規模モデルのコスト上の利点を考慮することも重要です。

たとえば、Llama2 70B とは異なり、Nvidia の ChipNeMo 13B は、量子化なしで単一の A100 GPU のビデオ メモリに直接ロードできます。これにより、モデルの推論速度が大幅に向上します。同時に、関連研究では、8B モデルの推論コストは 62B モデルの 8 ~ 12 倍低いことも示されています。

したがって、実稼働環境で大規模な汎用モデルを使用するか、小規模な専用モデルを使用するかを決定する際には、次の基準を考慮する必要があります。

- トレーニングと推論のトレードオフ:

より小規模なドメイン適応モデルは、より大きな一般モデルと比較できます。ドメイン適応には追加の初期コストがかかりますが、より小さなモデルを使用すると運用コストを大幅に削減できます。

- ユースケースの一意性:

図 6、9、10 からわかるように、ドメイン適応モデルは、独自の言語やライブラリでのコードの作成など、パブリック ドメインではほとんど見られないタスクで非常に優れたパフォーマンスを発揮します。このコンテキストでは、慎重に選択されたコンテキストが提供されたとしても、汎用の大規模モデルがドメイン適応モデルの精度に匹敵することは困難です。

- フィールドデータの可用性:

ドメイン適応は、大量のトレーニング データ (数十億のトレーニング トークン) がある場合に最も効果的に機能します。これは、大量の社内ドキュメントやコードを蓄積している企業やプロジェクトではよく見られますが、必ずしも小規模な企業やプロジェクトではそうとは限りません。

- 多様なユースケース:

一般的なモデルは特定のタスクに合わせて微調整できますが、ドメイン適応モデルはドメイン内のさまざまなタスクに適用できます。

一般的に、ChipNeMo-13B-Chat などのドメイン適応型の事前トレーニング済みモデルは、ベースモデルよりも優れた結果を達成でき、Llama2 70B などの大規模なモデルとの差を縮めることができます。

<<:  こんなの今まで見たことないよ! AIの巨人たちが「人類絶滅説」に立ち向かい、ヒントン、アンドリュー・ン、ルカンが排除され、マスクは強く見守った

>>:  DeepMind が新世代 AlphaFold を発表、予測精度が 10% 近く向上しました。 DNAとRNAのAlphaFoldの瞬間が到来

ブログ    
ブログ    
ブログ    

推薦する

チューリング賞受賞者のヤン・ルカン氏への最新インタビュー: AI は世界を支配するだろうが、人類を征服することはない!

かつての共同研究者であるジェフリー・ヒントン氏とヨシュア・ベンジオ氏がAIの絶滅を宣言したとき、ルカ...

人工知能のいくつかの重要な技術をご存知ですか?

今日は人工的にしか開発できない重要な技術をいくつか紹介します。音声認識からスマートホーム、人間と機械...

...

AI の知覚を人間の知覚と直接比較できないのはなぜですか?

人間レベルのパフォーマンス、人間レベルの精度…顔認識、物体検出、問題解決など、AI システムを開発す...

マイクロソフトはWindows 11の組み込みアプリにAI機能を導入すると報じられている。写真、スクリーンショット、描画などに新しい機能が追加される。

8月23日、マイクロソフトは過去1年間で人工知能の分野で大きな進歩を遂げており、同社の新製品のほぼ...

南洋理工大学の最新の視覚言語モデルの概要:事前トレーニング、転移学習、知識蒸留

コンピュータ ビジョン (CV) 研究における長年の課題として、視覚認識 (画像分類、オブジェクト検...

2021 年に注目すべき 27 の新たな建築技術トレンド (パート 1)

テクノロジーは建設業界にかつてないほど大きな影響を与えています。クラウドベースのコラボレーションやデ...

ディープラーニングで最もよく使われる学習アルゴリズム「Adam最適化アルゴリズム」をご存知ですか?

ディープラーニングでは、トレーニングに多くの時間とコンピューティング リソースが必要になることが多く...

...

...

AIがあなたの仕事を奪わないと決めつけないでください。

すでに、いくつかの日常的または退屈な作業がロボットや自動化によって置き換えられていますが、それによっ...

...

...

LRU (Least Recently Used) キャッシュアルゴリズムの実装

[[349478]] LRU は Least Recently Used の略で、よく使われるページ...

ウェルズ・ファーゴ:人工知能と機械学習は「諸刃の剣」

ウェルズ・ファーゴの上級副社長兼エンタープライズ・アーキテクチャ責任者であるマイク・テラン氏は、過去...