アレックス・グレイブス氏の新しい論文「ベイジアンフローネットワーク」は離散データ生成の問題を解決しており、論文全体が数式でいっぱいである。

アレックス・グレイブス氏の新しい論文「ベイジアンフローネットワーク」は離散データ生成の問題を解決しており、論文全体が数式でいっぱいである。

最近、大規模なニューラル ネットワークが生成モデルに革命をもたらし、高解像度画像内のすべてのピクセルの結合モデルを構築するなど、多くの変数間の複雑な関係を捉える前例のない能力を与えました。

ほとんどのニューラル ネットワーク (自己回帰モデル、フローベース モデル、ディープ VAE、拡散モデルなど) の表現力の鍵は、エンコードされる結合分布が一連のステップに分解され、「次元の呪い」を回避できることです。つまり、難しい問題を複数のより単純な問題に分解して解決するのです。

自己回帰ネットワークは現在、言語モデリングにおける最先端のアプローチであり、一般的に自然に順序付けられた離散データに対して良好なパフォーマンスを発揮します。しかし、自己回帰ネットワークは、データが連続しており、変数間に自然な順序がない画像生成などの分野では効果が低いことが証明されています。自己回帰モデルのもう 1 つの欠点は、サンプルを生成するには、データ内の変数と同じ数のネットワーク更新が必要になることです。拡散モデルは画像生成のための効果的な代替フレームワークですが、転送プロセスはより複雑になります。

ただし、データが離散的である場合、拡散モデルのパフォーマンスは依然として自己回帰モデルのパフォーマンスよりも劣ります。最近、機械学習の分野で著名な研究者であり、ニューラルチューリングマシン (NTM) の提案者であり、微分可能ニューラルコンピュータの開発者の一人であるアレックス・グレイブス氏が、第一著者として新しいタイプの生成モデルであるベイジアンフローネットワーク (BFN) を提案する新しい論文を発表しました。拡散モデルとは異なり、BFN はデータ自体のノイズバージョンではなく、データ分布のパラメータに基づいて動作します。これにより、データが離散的であっても、生成プロセスが完全に連続的かつ微分可能であることが保証されます。

論文アドレス: https://arxiv.org/abs/2308.07037

論文の第一著者は、チューリング賞受賞者のジェフリー・ヒントンの教え子であるアレックス・グレイブス氏です。

BFN アプローチでは、ベイズ推定を使用して、ノイズの多いデータのサンプルに基づいて一連の独立した分布のパラメータを変更します。その後、これらのパラメータはニューラル ネットワークに入力として渡され、相互に依存する分布が出力されます。単純な事前分布から開始し、2 つの分布を繰り返し更新することで、結果として得られる生成プロセスは拡散モデルの逆モデルに似ていますが、BFN はフォワード パスが不要なため概念的に単純です。

BFN の全体概要を以下の図 1 に示します。各ステップで、メッセージ送信者 (Sender) の Alice は、データに関する情報を含むメッセージをメッセージ受信者 (Receiver) の Bob に送信します。

この中で、ボブはメッセージが何であるかを推測しようとします。推測が正確であればあるほど、メッセージを送信するために必要なビット数が少なくなります。メッセージを受け取った後、ボブは得た情報を活用して次のメッセージについての推測精度を高めます。

このプロセスは繰り返され、各ステップで予測が改善されます。転送コストの合計は完全なテキスト シーケンスの負の対数確率であり、損失関数は最大尤度トレーニングによって最小化されます。これは、アリスが算術符号化を使用してボブにフラグメントを送信するために必要な最小ビット数でもあります。したがって、最大尤度を使用して自己回帰モデルを適合することと、トレーニング データを圧縮することの間には直接的な対応関係があります。

上記の転送プロセスは n ステップの損失関数を定義し、n を ∞ に拡張することで連続時間に一般化できます。連続時間損失関数は離散時間損失関数よりも数学的に単純で計算が容易です。連続時間損失でトレーニングされた BFN は、推論とサンプリング中に任意の数の離散ステップで実行でき、ステップ数に応じてパフォーマンスが向上します。

一般的に、BFN はベイズ推論とディープラーニングの利点を組み合わせたものです。前者は単一の変数に対して優れた数学的手法を提供し、後者は複数の関連する変数からの情報を統合するのに優れています。

LSTM の提案者であり創設者でもある Sepp Hochreiter 氏は、次のように述べています。「拡散モデルの代替として、ベイジアン フロー ネットワーク (BFN) によって更新される 2 つの分布プロセスは、フォワード パスのない拡散モデルと同様に、生成プロセスと見なすことができます。実験では、text8 の文字レベルの言語モデリングにおいて、離散拡散よりも優れていることが示されています。」

論文の著者の一人である Rupesh Kumar Srivastava 氏は、「この研究により、適切な分布を選択することで BFN フレームワークを連続データと離散データに簡単に適応させることができ、MNIST、CIFAR-10、text8 タスクで良好な結果が得られます」と述べています。


ベイジアンストリームネットワーク

次に、ベイジアンフローネットワーク (BFN) の基本的な数学的形式を紹介します。このセクションでは、式の導出について説明します。詳細については、元の論文を参照してください。

入力分布と送信者分布: D次元データ因子分解された入力分布のパラメータ)が与えられた場合、入力分布の式は次のようになります。

一連の変換の後、送信者分布式が得られます。

出力分布のデータ伝送プロセス中に、入力パラメータθと処理時間tがニューラルネットワークΨへの入力として渡され、ネットワークは出力分布を取得するためのベクトルを出力します。

入力分布とは異なり、出力分布では、画像内の周囲のピクセルやテキスト内の関連する単語などのコンテキスト情報を利用できます。

受信者分布 送信者分布と出力分布が与えられると、受信者分布は次のように表すことができます。

上記の式から、受信者分布には送信者分布と出力分布という 2 つの不確実性の原因があることがわかります。

ベイズ更新

与えられたパラメータ θ に対して、パラメータ更新方法は次のとおりです。ここで、y は送信者のサンプル、α は精度です。

ベイズ更新分布を取得します。

この論文では、ある意味では、精度 α を加算して、全体のベイズ更新分布式を得ることができると主張しています。

ベイズ更新手順は、無限の数の送信ステップを実行することによって連続時間に一般化できます。 t ∈ [0, 1] が処理時間、α(t) > 0 が時刻 t における精度であると仮定し、精度のタイムテーブルを取得します。

ベイズフロー分布

事前パラメータθ_0、ベイズ更新分布、および精度タイムテーブルβ(t)が与えられると、ベイズフロー分布は次のように表される。

損失関数

損失関数は次のように定義されます。

で、

L(x) は変分オートエンコーダ (VAE) の損失関数として導出できます。一連の変更の後、損失関数は次のように表されます。

損失関数(16)に基づいて、この研究ではさらに離散損失を導出した。

そして、継続的な時間損失:

実験

この研究では、CIFAR-10 (32×32 8 ビットカラー画像)、動的二値化 MNIST (手書き数字の 28×28 二値化画像)、text8 (27 文字サイズの 256 文字シーケンス) などの次世代ベンチマークで BFN ネットワークを評価しました。

動的二値化 MNIST

表 1 からわかるように、BFN はデータ拡張なしでこのタスクで最高のパフォーマンスを達成します。

次の図は、MNIST 損失曲線を示しています。バイナリ データの場合、精度のタイムテーブルが最適ではないことがわかります。

CIFAR-10

この研究では、CIFAR-10 で 2 セットの生成モデリング実験を実施しました。1 セットはビット深度 8 で、カラー チャネルの 256 個の離散ビンに対応し、もう 1 セットはビット深度 4 で、カラー チャネルの 16 個のビンに対応します。

表 3 は、16 ビンの場合、離散損失の方が連続損失よりも優れたパフォーマンスを提供し、トレーニング時間が大幅に短縮されることを示しています。この結果は、ビンが比較的低い場合に離散損失によるトレーニングが最も効果的であるという仮説と一致しています。さらに、16 および 256 ビンの場合、ステップ数 n が少ない場合 (たとえば、10 または 25)、離散トレーニングの方が優れた結果が得られます。ただし、256 ビンでは、連続損失の方が離散損失よりもパフォーマンスが優れています。

図 15 は、16 ビンを使用した離散トレーニングの方が 256 ビンを使用した離散トレーニングよりもサンプル品質が向上することを示しています。

テキスト8

表 4 は、BFN が text8 テスト セットで 1.41 BPC を生成することを示しています。これは、文献に記載されている他のすべての離散拡散モデルよりも優れており、最良モデル MAC (1.40 BPC) に近い値です。

表 5 は、BFN のパフォーマンスがステップ数 n の減少に対して非常に堅牢であり、わずか 100 ステップで 1.43 BPC に到達できることを示しています。離散時間損失を使用したトレーニングにより、この結果が改善される可能性があります。

<<:  Open LLM リストが再び更新されました。Llama 2 よりも強力な「Duckbill Puss」が登場します。

>>:  Microsoft、SAP、Oracle などの世界的なソフトウェア大手は、生成 AI をどのように取り入れているのでしょうか?

ブログ    
ブログ    

推薦する

新しい近似注意メカニズム HyperAttention: 長いコンテキストに適しており、LLM 推論が 50% 高速化します

トランスフォーマーは、自然言語処理、コンピューター ビジョン、時系列予測などの分野におけるさまざまな...

人工知能のもう一つの方向性:メモリスタに基づくストレージおよびコンピューティング技術

[[325184]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

AIと機械学習の品質保証

[51CTO.com クイック翻訳]人工知能はここ数年間、人々の注目を集めてきました。 「あなたのた...

フランス企業が世界初のAIスマートミラーを発売。ユーザーの感情を認識し、ストレスを軽減できる

1月8日、CES 2024の期間中、フランスのスマートヘルステクノロジー企業Baracodaが世界初...

北京、6つの高速道路を段階的に自動運転試験に開放、安全担当者を段階的に撤退させようとしている

同市は昨年9月に高水準の自動運転実証区を設立したのに続き、インテリジェントコネクテッドカーの政策パイ...

FacebookがFaissオープンソースリソースライブラリをリリース。精度と効率をトレードすることが機械学習の発展方向となるのか?

[51CTO.com クイック翻訳] 機械学習の分野では、データセット内の類似性を実現するために使...

グレートウルフホテルはAIを活用してゲストの体験とレビューを理解する

現在、ホテルやエンターテインメント業界のチェーンは、ゲストの体験やレビューをスキャンして理解するため...

2020年が過ぎようとしていますが、これらの新しいテクノロジーがもたらした問題は依然として残っています。

2020年、疫病による経済的、社会的不確実性にもかかわらず、人工知能技術は加速的に発展し続けました...

MorphNetは、ニューラルネットワークをより高速、小型、効率的にするモデル最適化技術です。

特定のタスクを実行するためにニューラル ネットワークを調整したいですか?この問題は想像したほど単純で...

ルカン氏と彼のポスドク研究員はarxivに論文を発表したが、redditのネットユーザーから「最初の写真は間違っている」と疑問視された。

ニューラル ネットワーク モデルのトレーニングの最大の欠点は、大量のトレーニング データが必要になる...

汎用聴覚AIのロックを解除します!清華大学電子工学部とVolcano Voiceが共同で新しい認知指向の聴覚言語モデルをオープンソース化

最近、清華大学電子工学部と Volcano Voice チームが協力して、認知指向のオープンソース聴...

顔検出と認識がますます普及しているのはなぜでしょうか?その背後にある技術は何ですか?

過去数年間、顔認識は広く注目を集めており、画像分析の分野で最も有望なアプリケーションの 1 つと考え...

ブロックチェーン技術における機械学習

近代化は世界を変える可能性のある新しい画期的なものをもたらしました。現実世界の問題は、単純な従来のア...

ガートナー:2025年にはベンチャーキャピタル投資の75%がAIを活用する

報道によると、権威ある調査機関ガートナーは本日発表したホワイトペーパーで、投資家による人工知能(AI...