ニューラルタンジェント、無限幅のニューラルネットワークモデルを作成するための 5 行のコード

[[322852]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

この記事は、Google が執筆した ICLR 2020 論文「NEURAL TANGENTS: FAST AND EASY INFINITE NEURAL NETWORKS IN PYTHON」の解釈です。

論文アドレス: https://arxiv.org/pdf/1912.02803.pdf
オープンソースアドレス: https://github.com/google/neural-tangents

ディープラーニングは、自然言語処理、会話エージェント、コネクトミクスなど、多くの分野で効果的に応用されてきました。この学習方法は機械学習の研究環境を変え、研究者に多くの興味深く重要な未解決の疑問をもたらしました。たとえば、「ディープニューラルネットワーク (DNN) は、過剰にパラメータ化されていても、なぜそれほどうまく一般化できるのか？」「ディープネットワークのアーキテクチャ、トレーニング、パフォーマンスの関係は何か？」などです。ディープラーニングモデルから顕著な特徴を抽出するにはどうすればよいでしょうか?

近年この分野の進歩を可能にした重要な理論的洞察は、DNN の幅を広げるとより規則的な動作が生まれ、それらの動作を理解しやすくなるという点です。最近の多くの結果は、無限に広くなる可能性のある DNN が、ガウス過程と呼ばれる別のより単純なクラスのモデルに収束することを示唆しています。

この制限により、ベイズ推論や畳み込みニューラルネットワークの勾配降下ダイナミクスなどの複雑な現象を単純な線形代数方程式に簡略化できます。これらの無限幅ネットワークのアイデアの一部は、有限ネットワークにも頻繁に拡張されます。したがって、無限幅ネットワークは、ディープラーニングを研究するための次元として使用できるだけでなく、それ自体が非常に有用なモデルでもあります。

左: 無限に広いディープニューラルネットワークが、どのように単純な入力/出力マッピングを生成するかを示す図。

右: ニューラルネットワークの幅が広がるにつれて、さまざまなランダムインスタンスにわたるネットワーク出力の分布がガウス分布になることがわかります。

残念ながら、有限ネットワークの無限幅の限界を導き出すには、広範な数学が必要であり、研究対象のアーキテクチャごとに個別に計算する必要があります。無限幅モデルが導出された後、効率的でスケーラブルな実装を実現するためのさらなる作業には、多大なエンジニアリングの努力が必要です。全体として、有限幅のモデルを対応する無限幅のネットワークに変換するプロセスには数か月かかる可能性があり、それ自体が研究論文の主題になる可能性があります。

この問題を解決し、ディープラーニングの理論的進歩を加速するために、Google の研究者は、有限幅のニューラルネットワークをトレーニングするのと同じくらい簡単に、無限幅のニューラルネットワークを構築およびトレーニングできる新しいオープンソースソフトウェアライブラリ「Neural Tangents」を提案しました。本質的には、Neural Tangent は、有限幅と無限幅の両方のニューラルネットワークを構築できる、使いやすいニューラルネットワークライブラリを提供します。

ニューラルタンジェントの使用方法の例として、あるデータで完全に接続されたニューラルネットワークをトレーニングすることを想像してください。通常、ニューラルネットワークはランダムに初期化され、勾配降下法を使用してトレーニングされます。これらのニューラルネットワークを初期化してトレーニングすると、統合ネットワークが生成されます。

研究者や実務家は、より良いパフォーマンスを得るために、アンサンブルのさまざまな部分からの予測を平均化することがよくあります。さらに、アンサンブル内の不確実性は、さまざまな部分の予測の分散から推定できます。このアプローチの欠点は、ネットワークのアンサンブルをトレーニングするには大きな計算予算が必要になるため、このアプローチはほとんど使用されないことです。ただし、ニューラルネットワークが無限に広くなると、アンサンブルはガウス過程によって記述され、その平均と分散はトレーニングプロセス全体にわたって計算できます。

Neural Tangent を使用すると、これらの無限幅のネットワークアンサンブルをわずか 5 行のコードで構築およびトレーニングできます。トレーニングプロセスは次のとおりです。この実験用のインタラクティブな共同ノートブックを使用するには、次のアドレスにアクセスしてください。

https://colab.sandbox.google.com/github/google/neural-tangents/blob/master/notebooks/neural_tangents_cookbook.ipynb

両方の図で、著者らは、有限幅のニューラルネットワークアンサンブルのトレーニングと、同じ構造の無限幅のニューラルネットワークアンサンブルのトレーニングを比較しています。前者の実験的平均と分散は、2 本の薄い黒の破線の間にある黒の破線で表され、後者の閉じた形式の平均と分散は、塗りつぶされた色領域内の色付きの線で表されます。どちらの図でも、有限幅のネットワークと無限幅のネットワークは非常に密接に統合されているため、区別が困難です。左: トレーニングの進行に伴う入力データ (水平 x 軸) 上の出力 (垂直 f 軸)。右: トレーニング中の不確実性によるトレーニングとテストの損失。

無限幅ネットワーク積分は単純な閉形式表現によって制御されますが、有限幅ネットワーク積分との顕著な一貫性があります。また、無限幅のネットワークアンサンブルはガウス過程であるため、自然に閉じた形式の不確実性の推定値 (上の図の色付きの領域) が提供されます。これらの不確実性の推定値は、有限幅ネットワークの多数の異なるコピーをトレーニングするときに観察される予測される変化とほぼ一致しています (破線)。

上記の例は、トレーニングのダイナミクスを捉える無限幅ニューラルネットワークの威力を示しています。ただし、ニューラルタンジェントを使用して構築されたネットワークは、通常のニューラルネットワークを適用できるあらゆる問題に適用できます。

たとえば、以下では、CIFAR-10 データセットを使用して、画像認識における 3 つの異なる無限幅ニューラルネットワークアーキテクチャを比較します。驚くべきことに、勾配降下法と完全なベイズ推論（有限幅ネットワーク領域では困難なタスク）を使用して、閉じた形式の無限幅残差ネットワークなどの非常に複雑なモデルを評価できます。

無限幅のネットワークは、完全接続ネットワークと同様のパフォーマンスレベルを持つ有限幅のニューラルネットワークを模倣していることがわかります。完全接続ネットワークのパフォーマンスは畳み込みネットワークよりも低く、畳み込みネットワークのパフォーマンスは広い残差ネットワークよりも低くなります。

しかし、従来のトレーニングとは異なり、これらのモデルの学習ダイナミクスは閉じた形式で完全に扱いやすく、研究者にこれらのモデルの動作に関する前例のない洞察を提供します。 Leifeng.com Leifeng.com Leifeng.com (公式アカウント: Leifeng.com)

https://ai.googleblog.com/2020/03/fast-and-easy-infinitely-wide-networks.html より

<<: データがあなたを監視することに抵抗はありませんか?

>>: 百度の自動運転タクシーが長沙で運行開始！乗客は百度地図を通じて電話をかけ、無料の試乗を受けることができる。

マルチエージェント強化学習アルゴリズムが機能しないと聞きました。 MAPPOを正しく使用しましたか？

ブログ

人工知能が教育分野に参入し「スマート教育」を創出

ブログ

ニューラルタンジェント、無限幅のニューラルネットワークモデルを作成するための 5 行のコード

マルチエージェント強化学習アルゴリズムが機能しないと聞きました。 MAPPOを正しく使用しましたか？

人工知能が教育分野に参入し「スマート教育」を創出

デイリーアルゴリズム: 有効な括弧

ハーバード大学の研究者がAIを活用して世界中の密猟を阻止

キャピタルグループ: ジェネレーティブAIの未来に向けてどう動員するか

世界中のコードの品質が急激に低下、その原因は AI です。 1億5300万行のコードの詳細な分析レポートが公開されました

知覚AIオペレーティングシステム

推薦する

ビッグデータとディープラーニングは、仕事帰りの交通渋滞の回避にどのように役立つのでしょうか?

MonoLSS: 視覚的な 3D 検出トレーニングのためのサンプル選択

機械学習の問題を解決する一般的な方法があります!これを読んでください

Python コードを書くことができる人工知能 Kite が Linux のサポートを発表。プログラマーは職を失うことになるのでしょうか?

Facebook AI が、強力なフルスタックビデオライブラリである PyTorchVideo をオープンソース化し、モバイルフォンで SOTA モデルを 8 倍高速に実行できるようにしました。

大規模モデルの微調整には人間のデータに頼らなければならないのでしょうか? DeepMind: フィードバック付きの自己トレーニングの方が優れている

分析と AI で注意すべき 7 つの致命的な間違い

マイクロソフト、医療病理学の症例を分析する LLaVA-Med AI モデルを発表

人間はAIの課題にどう立ち向かうのか

AIビジョンを取り入れることで、ガソリンスタンドは非常に「スマート」になることができます

モデルを最適化する方法だけを心配する必要はありません。これは機械学習のすべてではありません。