ソフトウェアがハードウェアを飲み込むAI時代において、チップがアルゴリズムの進化に追いつけない場合、私たちはどうすればよいのでしょうか？

AI時代の陰の立役者として、チップ業界は徐々にかつ継続的な変化を遂げています。

2008 年以降、ディープラーニングアルゴリズムが徐々に登場し、さまざまなニューラルネットワークが携帯電話、アプリ、モノのインターネットに浸透しました。同時に、ムーアの法則は減速しつつあります。ムーアの法則は法則と呼ばれていますが、物理法則や自然法則ではなく、半導体産業の発展に関する観察または予測です。その内容は、単一チップの集積レベル（集積回路内のトランジスタの密度）が2年（18か月という説もある）ごとに2倍になり、その結果、性能が2年ごとに2倍になるというものです。

ムーアの法則を確実に実現するための前提条件は、チップ製造プロセス技術の進歩です。ニュースでよく見かける28nm、14nm、7nm、5nmというのはプロセス技術のことを指し、数字が小さいほど技術が進んでいることになります。プロセス技術の進化に伴い、特に10nmに入ってからは、徐々に物理的限界に近づき、より困難になってきています。プロセス全体にわたるチップ設計のコストは大幅に増加しており、世代ごとに前世代と比較して少なくとも30％から50％増加しています。

(異なるプロセスノードにおけるチップの設計と製造コスト、画像は ICBank より)

その結果、AI の計算能力に対する需要の成長率は、汎用プロセッサの計算能力の成長率をはるかに上回ります。 OpenAIの計算によると、世界のAIが使用する計算能力は2012年以降、飛躍的に増加しており、平均して3.4か月ごとに倍増しているが、汎用プロセッサの計算能力は18か月から2年ごとにしか倍増していない。

汎用プロセッサの計算能力が AI アルゴリズムの開発に追いつかなくなったため、AI コンピューティング専用のプロセッサが誕生しました。これは「AI チップ」と呼ばれることもあります。現在、AIチップの技術的内容は大幅に充実しつつあります。建築の革新から高度なパッケージング、人間の脳のシミュレーションまで、すべてが AI チップの方向性に影響を与えています。これらの変更の背後には、消費電力を抑えながらパフォーマンスを向上させるという共通のテーマがあります。

柔軟性の向上

2017 年のチューリング賞は、コンピューターアーキテクチャの 2 人の先駆者である David Petterson 氏と John Hennessy 氏に授与されました。 2018 年にチューリング賞講演を行った際、彼らはアーキテクチャのイノベーションに焦点を当て、コンピューティングアーキテクチャが新たな黄金の 10 年を迎えつつあることを指摘しました。彼らの判断通り、英Graphcore社のIPUなど、CPUやGPUとは大きく異なるAI専用インテリジェントプロセッサなど、AIチップの新しいアーキテクチャが次々と登場している。徐々に業界に認知され、Graphcore社はマイクロソフトやサムスンからも戦略的な資本支援を受けている。

現在、CGRAと呼ばれるアーキテクチャが学界や産業界で注目を集めています。 CGRA は Coarse Grained Reconfigurable Array の略で、「再構成可能なコンピューティング」の概念を実装したものです。

記事「再構成可能なコンピューティング: ソフトウェア定義可能なコンピューティングエンジン」によると、この概念は 1960 年代に初めて登場し、カリフォルニア大学ロサンゼルス校の Estrin によって提案されました。あまりにも先進的だったため、40年後まで体系的に研究されませんでした。カリフォルニア大学バークレー校の DeHon らは、再構成可能なコンピューティングを、製造後もチップ機能をカスタマイズして特定のタスクを高速化するハードウェア機能を形成できること、コンピューティング機能の実現は主にタスクのチップへの空間マッピングに依存すること、という特徴を持つアーキテクチャとして定義しました。

つまり、再構成可能なチップは柔軟性を重視しており、製造後もプログラミングを通じて調整して新しいアルゴリズムに適応させることができます。これと対照的なのが ASIC (特定用途向け集積回路) です。 ASIC チップは高性能ですが、柔軟性に欠け、単一のアプリケーションまたはアルゴリズム向けに設計されていることが多く、新しいアルゴリズムに対応することが困難です。

2017年、米国国防総省の国防高等研究計画局（DARPA）は、エレクトロニクス復活イニシアチブ（ERI）を提案しました。この計画の課題の 1 つは、柔軟性を犠牲にすることなく ASIC のパフォーマンスに近いチップを作成する「ソフトウェア定義チップ」を作成することです。

再構成可能なチップは、再構成の粒度に応じて、CGRA と FPGA (フィールドプログラマブルゲートアレイ) に分けられます。 FPGA は業界では一定規模で使用されています。たとえば、Microsoft は Bing 検索エンジンを高速化するために FPGA チップを大規模なデータセンターに導入し、FPGA の柔軟性とアルゴリズムの更新可能性を検証しました。しかし、FPGA には限界があります。エネルギー効率と ASIC の間には依然として大きな差があるだけでなく、再プログラミングのしきい値も比較的高いのです。

実装原理の違いにより、CGRA は FPGA よりも低レベルの再プログラミングを実現でき、面積効率、エネルギー効率、再構築時間の点でより多くの利点があります。 CGRAは、汎用プロセッサの柔軟性とASICの高性能を融合したものと言えます。

(再構成可能なコンピューティングアーキテクチャと既存の主流のコンピューティングアーキテクチャのエネルギー効率と柔軟性の比較、画像は Science China より)

AIコンピューティングがクラウドからエッジやIoTデバイスへと徐々に移行するにつれて、アルゴリズムの多様性が増し、チップがより細分化されるだけでなく、低消費電力を確保しながら高いパフォーマンスが求められます。このシナリオでは、エネルギー効率が高く柔軟性の高い CGRA が非常に役立ちます。

CGRA は、一貫性のない構造、未熟なプログラミングおよびコンパイルツール、および使いやすさの欠如のため、業界では広く使用されていませんが、すでにいくつかの試みが見られます。 Intel は 2016 年に早くも Xeon プロセッサに CGRA を組み込みました。サムスンはまた、CGRAを8K HDTVとExynosチップに統合しようと試みました。

中国では、Qingwei Intelligenceという会社が2019年6月に世界初のCGRA音声チップTX210を量産し、同年9月には世界初のCGRAマルチモーダルチップTX510を発売した。同社は、清華大学の魏少軍教授が率いる再構成可能コンピューティング研究チームから生まれ、2006年から関連研究を行ってきた。新東喜の2020年11月の報道によると、11月には音声チップTX210が数百万個出荷され、マルチモーダルチップTX510は10万個以上出荷された。主な顧客はスマートドアロック、セキュリティ、顔認証決済関連メーカーである。

先進的なパッケージングがリード

冒頭で述べたように、プロセス技術が物理的限界に近づくにつれて、ムーアの法則は徐々に減速しています。同時に、AI アルゴリズムの進歩によりコンピューティング能力に対する需要が急増し、チップ業界は高度なプロセスを超えた新たな方向性を模索せざるを得なくなりました。その 1 つが高度なパッケージングです。

「ビッグデータとコグニティブコンピューティングの時代において、先進的なパッケージング技術はこれまで以上に大きな役割を果たしている。エネルギー効率が高く、スループットの高い相互接続に対するAIの需要の発展は、先進的なパッケージング技術の急速な開発によって満たされている」と、世界第3位のウエハーファウンドリであるグローバルファウンドリーズの主任技術専門家、ジョン・ペレリン氏は声明で述べた。

高度なパッケージングは従来のパッケージングと比較したものです。パッケージングはチップ製造の最後のステップで、製造されたチップデバイスをシェルに配置し、外部デバイスに接続します。従来のパッケージングのパッケージング効率は低く、改善の余地が大きくありますが、高度なパッケージング技術は統合密度の向上に重点を置いています。

先進的なパッケージングには多くの技術分野がありますが、その中でもチップレット（小型チップ/コア粒子）は過去 2 年間で注目の話題となっています。いわゆる「小型チップ」は、従来のチップ製造方法に関連します。従来のチップ製造方法は、同じプロセスを使用して同じシリコンウェハー上にチップを構築することです。チップレットの考え方は、完全なチップの複雑な機能を分解し、ストレージ、コンピューティング、信号処理などの機能をベアチップ（ダイ）にモジュール化するというものです。これらのベアチップは、さまざまなプロセス技術を使用して製造することができ、異なる企業によって提供される場合もあります。相互接続インターフェースを介して接続されると、Chiplet のチップネットワークが形成されます。

BiRen Technology Research Institute の Tang Shan 氏によると、Chiplet のより正確な技術用語は「異種統合」です。一般的に、この技術のトレンドは比較的明確で明確であり、第1段階のチップレット形式は技術的に成熟しており、コストが比較的高いことを除けば、多くのハイエンドチップに使用されています。

たとえば、HBM メモリは、チップレットテクノロジの初期の成功した応用の典型的な代表例となっています。 AMD は Zen2 アーキテクチャチップにチップレットコンセプトを採用しています。CPU は 7nm プロセス、I/O は 14nm プロセスを採用しており、完全に 7nm で構築されたチップに比べてコストが約 50% 削減されます。 Intel は、Chiplet テクノロジーをベースにした Agilex FPGA 製品ファミリーも発売しました。

[[382873]]

(異種統合を示すアニメーション、出典: IC シンクタンク)

しかし、チップレット技術は依然として多くの課題に直面しており、その中で最も重要なものの 1 つは相互接続インターフェース標準です。相互接続インターフェースは重要ですか? IntelやAMDなどの大企業内であれば、専用のプロトコルやクローズドシステムがあり、異なるベアチップを接続しても大きな問題にはなりません。ただし、相互接続インターフェースは、高帯域幅、低レイテンシ、ビットあたりの低消費電力を確保しながら、異なる企業やシステムを相互接続するために非常に重要です。

2017 年、DARPA はオープン接続プロトコルの作成を目指して、CHIPS 戦略プログラム (Common Heterogeneous Integration and IP Reuse Strategy) を開始しました。しかし、DARPA プロジェクトの欠点は、防衛関連のプロジェクトに重点を置いており、チップの数が多くなく、実際の商用シナリオとのギャップがあることです。そのため、チップ業界の一部の企業は、オープンな相互接続インターフェースを策定することでチップレットの開発の障害を取り除くために、「ODSA（Open Domain Specific Architecture）ワーキンググループ」という業界組織を設立しました。

異なるアプローチ

既存の枠組み内でアーキテクチャや製造の革新を行うことに加えて、一部の研究者は、現在のコンピューターのフォン・ノイマン・アーキテクチャから脱却し、人間の脳を真にシミュレートするコンピューティングモデルの開発を試みています。

フォン・ノイマン・アーキテクチャでは、データの計算と保存は別々に実行されます。しかし、メモリのアクセス速度はプロセッサの計算速度より大幅に遅れることが多く、「メモリウォール」問題が発生します。さらに、従来のコンピュータでは、バスを介してプロセッサとメモリの間で継続的にリフレッシュする必要があり、その結果、チップの電力消費の大部分が算術論理ユニットではなくデータの読み取りと書き込みで消費され、「パワーウォール」問題につながります。人間の脳には「記憶の壁」や「消費電力の壁」の問題がなく、情報を統合的に処理・保存し、計算と記憶を同時に行うことができます。

(汎用プロセッサの典型的な操作のエネルギー消費、画像は Science China 誌より)

一方、現在AIの発展を牽引しているディープニューラルネットワークは、その名前に「ニューラルネットワーク」という言葉が入っているものの、実際には人間の脳のニューラルネットワークの動作メカニズムとは大きく異なります。 100 兆個のシナプスを介して並列に接続された 1000 億個のニューロンにより、人間の脳は、非常に低い消費電力 (約 20 ワット) で同期記憶、計算、推論、計算を実行できます。対照的に、現在のディープニューラルネットワークは、トレーニングに大量のデータを必要とするだけでなく、動作中に膨大な量のエネルギーを消費します。

したがって、AI を人間の脳のように機能させる方法は、学界と産業界が常に積極的に研究しているテーマです。 1980 年代後半、カリフォルニア工科大学のカーバー・ミード教授は、ニューロモルフィックエンジニアリングの概念を提唱しました。長年の開発を経て、産業界と学界によるニューロモルフィックチップの探究は徐々に形になってきました。

ソフトウェア面では、第3世代の人工ニューラルネットワークとして知られる「スパイクニューラルネットワーク」（SNN）が誕生しました。このネットワークはパルス信号をキャリアとして使用し、人間の脳の働きに近いものとなっています。ハードウェアに関しては、大規模な機関や企業が対応するパルスニューラルネットワークプロセッサを開発しています。

実際、DARPA は 2008 年にはすでに、低電力の電子ニューロモルフィックコンピューターの開発を目指して、Systems of Neuromorphic Adaptive Plastic Scalable Electronics (SyNAPSE、「シナプス」を意味する) プログラムを開始しました。

IBM Research は SyNAPSE プロジェクトのパートナーの 1 つになりました。 2014年に彼らは最新の成果であるTrueNorthを発表した論文を発表しました。この脳のようなコンピューティングチップには 100 万個のニューロンがあり、400 × 240 ピクセルのビデオを 30 フレーム/秒で入力でき、消費電力はわずか 63 ミリワットです。これは、フォンノイマンアーキテクチャコンピューターと比較すると質的に飛躍的です。

2017年、インテルはLoihiと呼ばれるニューロモルフィックチップを発表しました。このチップには20億個以上のトランジスタ、13万個の人工ニューロン、1億3000万個のシナプスが含まれており、一般的なトレーニングシステムに必要な汎用コンピューティングよりも1000倍効率的です。 2020年3月、研究者らはロイヒの嗅覚認識にも成功しました。この成果は、病気の診断、武器や爆発物の検出、麻酔薬や煙、一酸化炭素の臭いの迅速な検出などのシナリオに応用できます。

中国では、清華大学脳に着想を得たコンピューティング研究センターの石魯平教授のチームが、パルスニューラルネットワークとディープニューラルネットワークの両方をサポートする汎用人工知能用の「天極」チップを開発した。 2019年8月1日、天極はネイチャー誌の表紙を飾った中国初のチップとなった。

散発的な研究成果はあるものの、一般的に、パルスニューラルネットワークとプロセッサはまだ研究方向であり、業界で広く使用されていません。これは主に、基本的なアルゴリズムに重要なブレークスルーがなく、業界のアプリケーションに必要な精度を達成できず、実装コストが比較的高いためです。

<<: 2021年以降、AIが研究技術を向上させる4つの方法

>>: 図解による古典的なプロセススケジューリングアルゴリズム