ネイチャー誌の記事で、ウォータールー大学のチームが「量子コンピュータ＋大規模言語モデル」の現状と将来についてコメントした。

今日の量子コンピューティングデバイスをシミュレートする際の主な課題は、量子ビット間で発生する複雑な相関関係を学習してエンコードする能力です。機械学習言語モデルに基づく新しい技術は、量子状態を学習するための独自の能力を示しています。

最近、カナダのウォータールー大学の研究者らが「量子シミュレーションのための言語モデル」と題する展望記事をNature Computational Science誌に発表し、量子コンピュータの構築における言語モデルの貢献を強調し、量子優位性をめぐる競争における言語モデルの将来的な役割について議論した。

論文リンク: https://www.nature.com/articles/s43588-023-00578-0

量子コンピュータは成熟し始めており、最近では多くのデバイスが量子超越性を主張しています。機械学習技術の急速な発展など、従来のコンピューティング機能の継続的な発展により、量子戦略と従来の戦略の相互作用を取り巻く多くの刺激的なシナリオが生まれています。機械学習が量子コンピューティングスタックと急速に統合され続けるにつれて、将来的に量子技術を強力に変革できるかどうかという疑問が生じます。

今日の量子コンピュータがもたらす重要な課題は、量子状態の学習です。近年この分野に急速に参入してきた生成モデルは、量子状態を学習するための 2 つの広範な戦略を提案しています。

図: 自然言語およびその他の分野の生成モデル。（出典：論文）

まず、量子コンピュータの測定出力を表すデータセットを使用して、従来の最大尤度法によってデータ駆動型学習が実行されます。第二に、量子状態は、量子ビット間の相互作用に関する知識を使用して代替損失関数を定義する、いわゆる物理学ベースの方法を使用して解決できます。

どちらの場合でも、量子状態空間 (ヒルベルト空間) のサイズは量子ビット数 N とともに指数関数的に増加します。これは典型的な次元の呪いです。これは、拡張モデルで量子状態を表すために必要なパラメータの数と、最適なパラメータ値を見つける計算効率に重大な課題をもたらします。人工ニューラルネットワークに基づく生成モデルは、この課題に対処するのに適しています。

言語モデルは、非常に複雑な言語問題を解決するための強力なアーキテクチャとして登場した、特に有望なタイプの生成モデルです。スケーラビリティが高いため、量子コンピューティングの問題にも適しています。産業用言語モデルが現在、1兆パラメータの範囲に入っているため、量子コンピューティングのスケールアップなどのアプリケーションと、量子物質、材料、デバイスの基礎理論的理解の両方において、同様に大規模なモデルが物理学で何を達成できるのか疑問に思うのは当然です。

図: 量子物理学の問題とその変分公式。（出典：論文）

量子コンピューティングのための自己回帰モデル

言語モデルは、自然言語データから確率分布を推測するように設計された生成モデルです。

生成モデルのタスクは、コーパスに出現する単語間の確率的関係を学習し、一度に 1 つのトークンで新しいフレーズを生成できるようにすることです。主な難しさは、単語間の複雑な依存関係をすべてモデル化することにあります。

同様の課題は量子コンピュータにも当てはまります。量子コンピュータでは、エンタングルメントなどの非局所的な相関関係により、量子ビット間に非常に重要な依存関係が生じる可能性があります。したがって、興味深い疑問は、産業界で開発された強力な自己回帰アーキテクチャが、強く相関した量子システムの問題を解決するためにも適用できるかどうかです。

図: テキストと量子ビットシーケンスの自己回帰戦略。（出典：論文）

RNN波動関数

RNN は、再帰接続を含むニューラルネットワークであり、RNN セルの出力は前の出力に依存します。 2018 年以降、RNN の使用は急速に拡大し、量子システムを理解する上で最も困難なさまざまなタスクをカバーするようになりました。

これらのタスクにおける RNN の主な利点は、本質的に非局所的な量子もつれを含む、量子ビット間の非常に重要な相関関係を学習してエンコードできることです。

図: 量子ビットシーケンスの RNN。（出典：論文）

物理学者は、量子コンピューティングに関連するさまざまな革新的な用途に RNN を使用しています。 RNN は、量子ビット測定から量子状態を再構築するタスクに使用されてきました。 RNN は量子システムの動的特性をシミュレートするためにも使用できます。これは量子コンピューティングの最も有望なアプリケーションの 1 つと考えられており、量子優位性を定義する上で重要なタスクです。 RNN は、フォールトトレラントな量子コンピュータの開発における重要な要素であるニューラルエラー訂正デコーダーを構築するための戦略として使用されてきました。さらに、RNN はデータ駆動型および物理学にヒントを得た最適化を活用できるため、量子シミュレーションにおける革新的な用途がますます増えています。

物理学者コミュニティは、量子超越性の時代に直面するますます複雑化する計算タスクを達成するために RNN を使用することを期待して、RNN の開発を積極的に続けています。多くの量子タスクにおけるテンソルネットワークに対する RNN の計算上の競争力と、量子ビットを使用してデータの価値を測定するという RNN の本来の能力を組み合わせると、将来の量子コンピューターで複雑なタスクをシミュレートする上で RNN が引き続き重要な役割を果たしていくことが示唆されます。

トランスフォーマー量子状態

RNN は長年にわたり自然言語タスクで大きな成功を収めてきましたが、最近では、今日の大規模言語モデル (LLM) エンコーダー/デコーダーアーキテクチャの主要コンポーネントである Transformer の自己注意メカニズムによって業界で影を潜めています。

スケーリング Transformer の成功と、言語タスクで Transformer が示す重要な現象によって提起される重要な疑問は、スケーリングの達成が量子コンピューティング研究の主要な目標である物理学者を長い間魅了してきました。

本質的に、Transformers は単純な自己回帰モデルです。ただし、依存関係が隠しベクトルを介して暗黙的にエンコードされる RNN とは異なり、Transformer モデル出力の条件付き分布は、自己回帰の性質により、シーケンス内の他のすべての変数に明示的に依存します。これは因果的にマスクされた自己注意メカニズムによって実現されます。

図: テキストと量子ビットの順序に注意してください。（出典：論文）

言語データと同様に、量子システムでは、量子ビットの測定値を取得し、一連のパラメータ化された関数を通じてそれらを変換することによって注意が計算されます。これらのパラメーター化された関数を多数トレーニングすることで、Transformer は量子ビット間の依存関係を学習できます。注意メカニズムを使用すると、送信された隠し状態の形状 (RNN の場合など) を量子ビットの物理的な配置に関連付ける必要がなくなります。

このアーキテクチャを活用することで、数十億または数兆のパラメータを持つ Transformer をトレーニングすることが可能になります。

データ駆動型学習と物理学に着想を得た学習を組み合わせたハイブリッド 2 段階最適化は、現世代の量子コンピュータにとって重要です。Transformer は、現在の不完全な出力データに存在するエラーを軽減できることを実証しており、将来的に真のフォールトトレラントハードウェアの開発をサポートする強力なエラー修正プロトコルの基礎となる可能性があります。

量子物理学トランスフォーマーに関する研究の範囲が急速に拡大し続けるにつれて、多くの興味深い疑問が残ります。

量子コンピューティングにおける言語モデルの未来

物理学者による短い研究にもかかわらず、言語モデルは量子コンピューティングにおける幅広い課題に適用され、すでに目覚ましい成功を収めています。これらの結果は、多くの有望な将来の研究の方向性を示唆しています。

量子物理学における言語モデルのもう 1 つの重要な使用例は、データではなく、ハミルトニアンまたはリンドブラディアンの基本的な量子ビット相互作用の知識を最適化する能力から生まれます。

最後に、言語モデルは、データ駆動型最適化と変分駆動型最適化を組み合わせることで、ハイブリッドトレーニングの新しい領域を開拓します。これらの新しい戦略は、エラーを削減するための新しい方法を提供し、変分シミュレーションよりも大きな改善を示しています。生成モデルは最近、量子エラー訂正デコーダーとして採用されているため、ハイブリッドトレーニングは、将来のフォールトトレラントな量子コンピューターを実現するという聖杯に向けた重要なステップとなる可能性があります。これは、量子コンピュータとその出力に基づいてトレーニングされた言語モデルの間に好循環が生まれようとしていることを示唆しています。

図: 言語モデルは好循環を通じて量子コンピューティングの拡張を可能にします。（出典：論文）

将来的には、言語モデルの分野と量子コンピューティングを結び付ける最もエキサイティングな機会は、そのスケールと出現を実証する能力にあります。

現在、LLM の新たな特性が実証され、新たな分野が開拓され、多くの興味深い疑問が提起されています。十分なトレーニングデータが与えられれば、LLM は量子コンピューターのデジタル版を学習できるでしょうか?制御スタックに言語モデルを組み込むと、量子コンピュータの特性と設計にどのような影響があるでしょうか?規模が十分に大きければ、LLM は超伝導などのマクロな量子現象の出現を示すことができるでしょうか?

理論家たちがこれらの疑問について熟考する一方で、実験物理学者や計算物理学者は、今日の量子コンピューターの設計、特性評価、制御に言語モデルを真剣に適用し始めています。量子超越性の限界を超えると、言語モデルのスケーリングという新しい領域にも入ります。量子コンピュータとLLMの衝突がどのように展開するかを予測することは困難ですが、これらの技術の相互作用によってもたらされる根本的な変革がすでに始まっていることは明らかです。

<<:

>>: