チューリング賞受賞者ヨシュア・ベンジオ氏：生成フローネットワークがディープラーニングの分野を拡大

最近、「GFlowNet Foundations」と題された論文が注目を集めています。これはチューリング賞受賞者のヨシュア・ベンジオ氏による70ページに及ぶ新しい研究論文です。

ジェフリー・ヒントンの「カプセルネットワーク」に続いて、ディープラーニングのもう一人の巨人であるベンジオ氏も、AI分野の将来の方向性について独自の考えを提唱した。この研究では、著者らは「生成フローネットワーク」(GFlowNets) と呼ばれる重要な概念を提案しました。

[[436303]]

GFlowNet は、時間差分 RL 手法 (Sutton および Barto、2018) で情報がどのように伝播するかにヒントを得ています。どちらもクレジット割り当ての一貫性の原則に依存しており、これはトレーニングが収束するときにのみ漸近的に達成できます。状態空間内のパスの数が指数関数的に多いため、勾配を正確に計算することは困難であるため、両方のアプローチは、異なるコンポーネント間のローカルな一貫性と、学習したすべてのコンポーネントが互いにローカルに一貫性がある場合はグローバルな推定を行うことができるというトレーニング目標に依存しています。

GFlowNet の役割については、論文の著者の 1 人である Emmanuel Bengio 氏も次のように答えています。「GFlowNet を使用すると、セットやグラフに対する一般的な確率演算 (より困難な周辺化問題の処理、パーティション関数や自由エネルギーの推定、特定のサブセットのスーパーセット条件付き確率の計算、エントロピーや相互情報量の推定など) など、さまざまなことが可能になります。」

この論文では、アクティブラーニングシナリオの正式な理論的基礎と一連の理論的結果の拡張を提供するとともに、アクティブラーニングシナリオに対するより幅広いアプローチも提供します。 GFlowNet の特性により、セットやグラフ上の分布のモデリングとサンプリング、自由エネルギーと周辺分布の推定、モンテカルロマルコフ連鎖 (MCMC) の学習可能な償却代替手段としてデータからエネルギー関数を学習するのに適しています。

GFlowNets の主な特性は、複合オブジェクト s を複数のステップでサンプリングするポリシーを学習し、オブジェクト s をサンプリングする確率 P_T(s) が、そのオブジェクトに適用される特定の報酬関数の値 R(s) にほぼ比例することです。典型的な例は、ポジティブデータセットから生成モデルをトレーニングすることです。GFlowNet は、与えられたエネルギー関数に一致させてサンプラーに変換するようにトレーニングされます。これは、一連の手順を通じて複合オブジェクトが構築されるため、生成戦略と見なされます。これは MCMC メソッドの実装に似ていますが、GFlowNets ではそのようなオブジェクト空間での長時間のランダム検索が必要ないため、MCMC メソッドがモード混合を処理する際に抱える困難を回避できます。 GFlowNets はこの問題を生成戦略の償却トレーニングに変換します。

この論文の重要な貢献は、条件付き GFlowNet の概念です。これは、異なるタイプ (セットやグラフなど) の結合分布上の自由エネルギーを計算するために使用できます。この周辺化により、エントロピー、条件付きエントロピー、相互情報量の推定も可能になります。 GFlowNet は、分布強化学習と同様に、スカラー報酬関数ではなく、豊富な結果に対応する複数のフローを推定するように一般化することもできます。

この論文では、オリジナルの GFlowNet (Bengio et al., 2021) の理論を拡張し、変数のサブセットの周辺確率を計算するための式 (または自由エネルギー式) を導入しました。この式は、より大きなセットのサブセットまたはサブグラフに適用できるようになりました。また、GFlowNet をエントロピーと相互情報量の推定に適用し、パレート最適解からサンプリングできる教師なし形式の GFlowNet (トレーニング中に報酬関数を必要とせず、観測値のみが必要) を導入しました。

基本的な GFlowNet はバンディットアルゴリズムに似ていますが (報酬はアクションのシーケンスの最後にのみ提供される)、GFlowNet を拡張して中間報酬を考慮し、リターンに基づいてサンプリングすることもできます。 GFlowNet の元の定式化も離散的かつ決定論的な環境に限定されており、この論文ではこれら両方の制限を解除する方法を提案しています。最後に、GFlowNet の基本的な定式化では特定の報酬またはエネルギー関数が想定されていますが、この論文では、GFlowNet をエネルギー関数と共同で学習する方法を検討し、新しいエネルギーベースのモデリング手法、エネルギー関数、および GFlowNet のモジュール構造への扉を開きます。

論文アドレス: https://arxiv.org/pdf/2111.09266.pdf

Synced では、この論文の主要な章について簡単に紹介しています。詳細については、元の論文を参照してください。

GFlowNets: 学習フロー

Bengio et al. (2021) で導入された一般的な問題を考慮に入れます。この問題では、フローにいくつかの制約または優先順位が与えられます。研究者の目標は、推定量 Fˆ(s) と Pˆ(s→s'|s) を使用して、適切なフローに準拠していない可能性のある状態フロー関数 F(s) や遷移確率関数 P(s→s' |s) などの要件に最も一致する関数を見つけることです。そのため、彼らはこのタイプの学習マシンを Generative Flow Networks (略して GFlowNets) と呼びました。

GFlowNet は次のように定義されます。

GFlowNet の状態空間は、遷移が有向非巡回グラフ (DAG) を形成しない基礎となる状態空間に適応するように簡単に変更できることに注意することが重要です。

ターミナルフローから遷移確率を推定するために、Bengioら（2021）の設定では、研究者らは状態決定論の関数としてターミナル報酬関数Rに対応するターミナルフローを取得しました。

これにより、フレームワークを拡張して、さまざまな方法でランダム報酬を処理できるようになります。

GFlowNets は MCMC サンプリングの代替として使用できます。 GFlowNet アプローチでは、ジェネレーターをトレーニングするための事前の計算が償却されるため、新しいサンプルごとに非常に効率的な計算が行われます (単一の構成を構築し、連鎖は不要)。

ストリームのマッチングと詳細なバランス損失。 GFlowNet をトレーニングするには、研究者は制約と設定を暗黙的に強制できるトレーニングプロセスを構築する必要があります。フローマッチングまたは詳細なバランス条件を使用可能な損失関数に変換します。

報酬関数については、研究者らは、報酬が状態の決定論的な関数ではなくランダムである設定を考慮しました。式44のように報酬マッチング損失がある場合、ターミナルフローF(s→s_f)の有効なターゲットは期待報酬E_R[R(s)です。これは、sが与えられた場合にR(s)の期待損失を最小化する値だからです。

式43のように報酬マッチング損失がある場合、ターミナルフローログF(s→s_f)の対数有効ターゲットは、対数報酬E_R[log R(s)]の期待値になります。これは、報酬マッチング損失を使用すると、GFlowNet がランダム報酬をマッチングするように一般化できることを示しています。

さらに、GFlowNet はオフライン強化学習のようにオフラインでトレーニングできます。 GFlowNet での直接クレジット割り当ての場合、研究者は、GFlowNet を使用して軌跡をサンプリングするプロセスは、ランダム再帰型ニューラルネットワークでの状態シーケンスのサンプリングと同等であると考えています。事態をさらに複雑にしているのは、2 つの理由です。まず、これらのニューラルネットワークはターゲットに一致する予測を直接出力しないため、2 番目に、状態が離散的 (または離散と連続の両方) になる場合があります。

条件付きフローと自由エネルギー

この章では主に条件付きフローと自由エネルギーについて紹介します。

フローに関する注目すべき特性は、慎重なバランスまたはフローマッチング条件が満たされている場合、正規化定数 Z を初期状態フロー F(s_0) から回復できることです (系 3)。 Z は、ターミナル遷移フローを指定する特定のターミナル報酬関数 R に関連付けられたパーティション関数も提供します。下の図は、GFlowNet の条件を設定する方法を示しています。状態 s が与えられた場合、元のフロー (左) と転送フローを介して新しいフローのセット (右) を作成することを検討します。

自由エネルギーは、エネルギー関数に関連する限界化演算（つまり、多数の項の合計）の一般的な式です。研究者らは、自由エネルギー推定が、高価なマルコフ連鎖モンテカルロ法 (MCMC) が主なアプローチとなることが多い興味深いアプリケーションへの扉を開くことを発見しました。

自由エネルギーの状態 F(s) は次のように定義されます。

自由エネルギーを推定するにはどうすればいいですか?ネットワークが自由エネルギー F(s) を推定できるようにする条件付き GFlowNet の特殊なケースを考えてみましょう。この目的のために、研究者らは、条件入力 x が軌道内の以前の状態 s である条件付き GFlowNet のトレーニングを提案しました。

状態条件付きGFlowNetは次のように定義され、F(s|s)は条件付き状態自己フローとして定義されます。

研究者らは、GFlowNet を使用することでエネルギーベースのモデルをトレーニングできると述べています。具体的には、GFlowNet は、エネルギー関数を対応する関数を近似するサンプラーに変換するようにトレーニングされます。したがって、GFlowNet は MCMC サンプリングの代替として使用できます。

さらに、GFlowNet はアクティブラーニングにも使用できます。 Bengioら（2021）が使用したアクティブラーニングスキームでは、GFlowNetを使用して候補xをサンプリングしますが、GFlowNetはR(x)に比例してサンプリングするため、研究者は報酬R(x)が一般に大きくなると予想しています。

マルチフロー、分散 GFlowNet、教師なし GFlowNet、パレート GFlowNet

分布強化学習と同様に、達成可能な最終報酬の期待値だけでなく、他の分布統計も取得するように GFlowNets を一般化することは非常に興味深いことです。より一般的には、GFlowNet はファミリーとして考えることができ、各ファミリーは独自のフローで特定の将来の環境結果をモデル化できます。

次の図は、結果条件付き GFlowNet の定義を示しています。

実際には、GFlowNet を完璧にトレーニングすることはできないため、この結果条件付き GFlowNet は、強化学習や逆 RL における目標条件付きポリシーと同じように考える必要があります。将来的には、これらの結果条件付き GFlowNet をランダム報酬またはランダム環境に拡張することが可能になります。

さらに、条件付き入力 (最終リターンなど) は軌跡がサンプリングされた後にのみわかる可能性があるため、結果に条件が付けられた GFlowNet のトレーニングはオフラインでのみ実行できます。

論文の完全な目次は次のとおりです。

<<: ロボット工学アプリケーションは、Metaverse テクノロジーを通じてどのように普及するのでしょうか?

>>: 暗号化アルゴリズムと暗号化システムアーキテクチャに関する簡単な説明