チューリング賞受賞者ヨシュア・ベンジオ氏:生成フローネットワークがディープラーニングの分野を拡大

チューリング賞受賞者ヨシュア・ベンジオ氏:生成フローネットワークがディープラーニングの分野を拡大

最近、「GFlowNet Foundations」と題された論文が注目を集めています。これはチューリング賞受賞者のヨシュア・ベンジオ氏による70ページに及ぶ新しい研究論文です。

ジェフリー・ヒントンの「カプセルネットワーク」に続いて、ディープラーニングのもう一人の巨人であるベンジオ氏も、AI分野の将来の方向性について独自の考えを提唱した。この研究では、著者らは「生成フロー ネットワーク」(GFlowNets) と呼ばれる重要な概念を提案しました。

[[436303]]

GFlowNet は、時間差分 RL 手法 (Sutton および Barto、2018) で情報がどのように伝播するかにヒントを得ています。どちらもクレジット割り当ての一貫性の原則に依存しており、これはトレーニングが収束するときにのみ漸近的に達成できます。状態空間内のパスの数が指数関数的に多いため、勾配を正確に計算することは困難であるため、両方のアプローチは、異なるコンポーネント間のローカルな一貫性と、学習したすべてのコンポーネントが互いにローカルに一貫性がある場合はグローバルな推定を行うことができるというトレーニング目標に依存しています。

GFlowNet の役割については、論文の著者の 1 人である Emmanuel Bengio 氏も次のように答えています。「GFlowNet を使用すると、セットやグラフに対する一般的な確率演算 (より困難な周辺化問題の処理、パーティション関数や自由エネルギーの推定、特定のサブセットのスーパーセット条件付き確率の計算、エントロピーや相互情報量の推定など) など、さまざまなことが可能になります。」

この論文では、アクティブ ラーニング シナリオの正式な理論的基礎と一連の理論的結果の拡張を提供するとともに、アクティブ ラーニング シナリオに対するより幅広いアプローチも提供します。 GFlowNet の特性により、セットやグラフ上の分布のモデリングとサンプリング、自由エネルギーと周辺分布の推定、モンテカルロ マルコフ連鎖 (MCMC) の学習可能な償却代替手段としてデータからエネルギー関数を学習するのに適しています。

GFlowNets の主な特性は、複合オブジェクト s を複数のステップでサンプリングするポリシーを学習し、オブジェクト s をサンプリングする確率 P_T(s) が、そのオブジェクトに適用される特定の報酬関数の値 R(s) にほぼ比例することです。典型的な例は、ポジティブデータセットから生成モデルをトレーニングすることです。GFlowNet は、与えられたエネルギー関数に一致させてサンプラーに変換するようにトレーニングされます。これは、一連の手順を通じて複合オブジェクトが構築されるため、生成戦略と見なされます。これは MCMC メソッドの実装に似ていますが、GFlowNets ではそのようなオブジェクト空間での長時間のランダム検索が必要ないため、MCMC メソッドがモード混合を処理する際に抱える困難を回避できます。 GFlowNets はこの問題を生成戦略の償却トレーニングに変換します。

この論文の重要な貢献は、条件付き GFlowNet の概念です。これは、異なるタイプ (セットやグラフなど) の結合分布上の自由エネルギーを計算するために使用できます。この周辺化により、エントロピー、条件付きエントロピー、相互情報量の推定も可能になります。 GFlowNet は、分布強化学習と同様に、スカラー報酬関数ではなく、豊富な結果に対応する複数のフローを推定するように一般化することもできます。

この論文では、オリジナルの GFlowNet (Bengio et al., 2021) の理論を拡張し、変数のサブセットの周辺確率を計算するための式 (または自由エネルギー式) を導入しました。この式は、より大きなセットのサブセットまたはサブグラフに適用できるようになりました。また、GFlowNet をエントロピーと相互情報量の推定に適用し、パレート最適解からサンプリングできる教師なし形式の GFlowNet (トレーニング中に報酬関数を必要とせず、観測値のみが必要) を導入しました。

基本的な GFlowNet はバンディット アルゴリズムに似ていますが (報酬はアクションのシーケンスの最後にのみ提供される)、GFlowNet を拡張して中間報酬を考慮し、リターンに基づいてサンプリングすることもできます。 GFlowNet の元の定式化も離散的かつ決定論的な環境に限定されており、この論文ではこれら両方の制限を解除する方法を提案しています。最後に、GFlowNet の基本的な定式化では特定の報酬またはエネルギー関数が想定されていますが、この論文では、GFlowNet をエネルギー関数と共同で学習する方法を検討し、新しいエネルギーベースのモデリング手法、エネルギー関数、および GFlowNet のモジュール構造への扉を開きます。

論文アドレス: https://arxiv.org/pdf/2111.09266.pdf

Synced では、この論文の主要な章について簡単に紹介しています。詳細については、元の論文を参照してください。

GFlowNets: 学習フロー

Bengio et al. (2021) で導入された一般的な問題を考慮に入れます。この問題では、フローにいくつかの制約または優先順位が与えられます。研究者の目標は、推定量 Fˆ(s) と Pˆ(s→s'|s) を使用して、適切なフローに準拠していない可能性のある状態フロー関数 F(s) や遷移確率関数 P(s→s' |s) などの要件に最も一致する関数を見つけることです。そのため、彼らはこのタイプの学習マシンを Generative Flow Networks (略して GFlowNets) と呼びました。

GFlowNet は次のように定義されます。

GFlowNet の状態空間は、遷移が有向非巡回グラフ (DAG) を形成しない基礎となる状態空間に適応するように簡単に変更できることに注意することが重要です。

ターミナルフローから遷移確率を推定するために、Bengioら(2021)の設定では、研究者らは状態決定論の関数としてターミナル報酬関数Rに対応するターミナルフローを取得しました。

これにより、フレームワークを拡張して、さまざまな方法でランダム報酬を処理できるようになります。

GFlowNets は MCMC サンプリングの代替として使用できます。 GFlowNet アプローチでは、ジェネレーターをトレーニングするための事前の計算が償却されるため、新しいサンプルごとに非常に効率的な計算が行われます (単一の構成を構築し、連鎖は不要)。

ストリームのマッチングと詳細なバランス損失。 GFlowNet をトレーニングするには、研究者は制約と設定を暗黙的に強制できるトレーニング プロセスを構築する必要があります。フローマッチングまたは詳細なバランス条件を使用可能な損失関数に変換します。

報酬関数については、研究者らは、報酬が状態の決定論的な関数ではなくランダムである設定を考慮しました。式44のように報酬マッチング損失がある場合、ターミナルフローF(s→s_f)の有効なターゲットは期待報酬E_R[R(s)です。これは、sが与えられた場合にR(s)の期待損失を最小化する値だからです。

式43のように報酬マッチング損失がある場合、ターミナルフローログF(s→s_f)の対数有効ターゲットは、対数報酬E_R[log R(s)]の期待値になります。これは、報酬マッチング損失を使用すると、GFlowNet がランダム報酬をマッチングするように一般化できることを示しています。

さらに、GFlowNet はオフライン強化学習のようにオフラインでトレーニングできます。 GFlowNet での直接クレジット割り当ての場合、研究者は、GFlowNet を使用して軌跡をサンプリングするプロセスは、ランダム再帰型ニューラル ネットワークでの状態シーケンスのサンプリングと同等であると考えています。事態をさらに複雑にしているのは、2 つの理由です。まず、これらのニューラル ネットワークはターゲットに一致する予測を直接出力しないため、2 番目に、状態が離散的 (または離散と連続の両方) になる場合があります。

条件付きフローと自由エネルギー

この章では主に条件付きフローと自由エネルギーについて紹介します。

フローに関する注目すべき特性は、慎重なバランスまたはフローマッチング条件が満たされている場合、正規化定数 Z を初期状態フロー F(s_0) から回復できることです (系 3)。 Z は、ターミナル遷移フローを指定する特定のターミナル報酬関数 R に関連付けられたパーティション関数も提供します。下の図は、GFlowNet の条件を設定する方法を示しています。状態 s が与えられた場合、元のフロー (左) と転送フローを介して新しいフローのセット (右) を作成することを検討します。

自由エネルギーは、エネルギー関数に関連する限界化演算(つまり、多数の項の合計)の一般的な式です。研究者らは、自由エネルギー推定が、高価なマルコフ連鎖モンテカルロ法 (MCMC) が主なアプローチとなることが多い興味深いアプリケーションへの扉を開くことを発見しました。

自由エネルギーの状態 F(s) は次のように定義されます。

自由エネルギーを推定するにはどうすればいいですか?ネットワークが自由エネルギー F(s) を推定できるようにする条件付き GFlowNet の特殊なケースを考えてみましょう。この目的のために、研究者らは、条件入力 x が軌道内の以前の状態 s である条件付き GFlowNet のトレーニングを提案しました。

状態条件付きGFlowNetは次のように定義され、F(s|s)は条件付き状態自己フローとして定義されます。

研究者らは、GFlowNet を使用することでエネルギーベースのモデルをトレーニングできると述べています。具体的には、GFlowNet は、エネルギー関数を対応する関数を近似するサンプラーに変換するようにトレーニングされます。したがって、GFlowNet は MCMC サンプリングの代替として使用できます。

さらに、GFlowNet はアクティブラーニングにも使用できます。 Bengioら(2021)が使用したアクティブラーニングスキームでは、GFlowNetを使用して候補xをサンプリングしますが、GFlowNetはR(x)に比例してサンプリングするため、研究者は報酬R(x)が一般に大きくなると予想しています。

マルチフロー、分散 GFlowNet、教師なし GFlowNet、パレート GFlowNet

分布強化学習と同様に、達成可能な最終報酬の期待値だけでなく、他の分布統計も取得するように GFlowNets を一般化することは非常に興味深いことです。より一般的には、GFlowNet はファミリーとして考えることができ、各ファミリーは独自のフローで特定の将来の環境結果をモデル化できます。

次の図は、結果条件付き GFlowNet の定義を示しています。

実際には、GFlowNet を完璧にトレーニングすることはできないため、この結果条件付き GFlowNet は、強化学習や逆 RL における目標条件付きポリシーと同じように考える必要があります。将来的には、これらの結果条件付き GFlowNet をランダム報酬またはランダム環境に拡張することが可能になります。

さらに、条件付き入力 (最終リターンなど) は軌跡がサンプリングされた後にのみわかる可能性があるため、結果に条件が付けられた GFlowNet のトレーニングはオフラインでのみ実行できます。

論文の完全な目次は次のとおりです。

<<:  ロボット工学アプリケーションは、Metaverse テクノロジーを通じてどのように普及するのでしょうか?

>>:  暗号化アルゴリズムと暗号化システムアーキテクチャに関する簡単な説明

ブログ    
ブログ    
ブログ    

推薦する

マイクロソフト、感情分析技術の販売を中止し、顔認識ツールの使用を制限

マイクロソフトは、人工知能システムのためのより責任ある枠組みを構築する取り組みの一環として、画像分析...

オックスフォード大学の最新調査:AIはベンチマーク危機に直面し、NLPは推論テストの「取り組み」に注力

人工知能 (AI) ベンチマークは、モデルを測定および比較するための方法を提供します。ベンチマークを...

ついにビッグデータ、機械学習、データサイエンスをわかりやすく説明する人が出てきた

データの爆発的な増加とその利用可能性は、人工知能 (AI) の発展を促進しました。人工ニューラル ネ...

ディープラーニング(CNN RNN Attention)を使用して大規模なテキスト分類問題を解決する - 概要と実践

[[188373]]著者は最近、深層学習を応用してタオバオ商品のカテゴリー予測問題を解決するプロジェ...

ディープラーニングの専門家になるにはどうすればいいですか?このアリ天池大会の優勝者はあなたのためにプロとしての成長の道を計画しました

[[209722]]ディープラーニングは本質的には深層人工ニューラルネットワークです。これは孤立した...

最新のMLPerfランキング:アリババのAIコンピューティングパワーが多くの分野で1位を獲得

4月7日、権威あるAIベンチマーク評価組織MLPerfが最新の推論パフォーマンスリストを公開した。 ...

今日のアルゴリズム: 文字列内の隣接する重複をすべて削除する

[[419471]]小文字で構成される文字列 S が与えられた場合、重複削除操作は隣接する 2 つの...

金メダルレベルの数学スキル:DeepMindの幾何学的推論モデルがNatureに掲載され、コードはオープンソースで、フィールズ賞受賞者が賞賛

今回、人工知能アルゴリズムが国際数学オリンピック(IMO)で大きな進歩を遂げました。本日発行された国...

AIアプリケーションのスケールは実装が難しいが、将来的には有望である

2020年の中国の人工知能市場のレビュー2015年から2020年にかけて、人工知能市場には毎年新たな...

製造バリューチェーンにおいて RPA に真のチャンスはあるのでしょうか?

[[421304]]製造業における自動化の推進力は非常に単純です。自動化は人間の作業をシミュレート...

OpenAIは、GPT-4の「怠惰」問題を近い将来に修正し、オフライン評価とA/Bテストの後にモデルを更新すると発表した。

IT Homeは12月12日、OpenAIが先週、一部のユーザーから苦情を受けたと報じた。多くのユ...

...

2024年に注目すべき5つの持続可能な技術

今年が進むにつれて、持続可能な開発をめぐる話題はますます高まるばかりであり、気候変動が近づいていると...

貧困が私を訓練した

1. 事前のトレーニングは必要ですか?事前トレーニングの効果はすぐに現れますが、必要なリソースが法外...