ニューラル タンジェント、無限幅のニューラル ネットワーク モデルを作成するための 5 行のコード

ニューラル タンジェント、無限幅のニューラル ネットワーク モデルを作成するための 5 行のコード

[[322852]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

この記事は、Google が執筆した ICLR 2020 論文「NEURAL TANGENTS: FAST AND EASY INFINITE NEURAL NETWORKS IN PYTHON」の解釈です。

  • 論文アドレス: https://arxiv.org/pdf/1912.02803.pdf

  • オープンソースアドレス: https://github.com/google/neural-tangents

ディープラーニングは、自然言語処理、会話エージェント、コネクトミクスなど、多くの分野で効果的に応用されてきました。この学習方法は機械学習の研究環境を変え、研究者に多くの興味深く重要な未解決の疑問をもたらしました。たとえば、「ディープ ニューラル ネットワーク (DNN) は、過剰にパラメータ化されていても、なぜそれほどうまく一般化できるのか?」「ディープ ネットワークのアーキテクチャ、トレーニング、パフォーマンスの関係は何か?」などです。 ディープラーニングモデルから顕著な特徴を抽出するにはどうすればよいでしょうか?

近年この分野の進歩を可能にした重要な理論的洞察は、DNN の幅を広げるとより規則的な動作が生まれ、それらの動作を理解しやすくなるという点です。最近の多くの結果は、無限に広くなる可能性のある DNN が、ガウス過程と呼ばれる別のより単純なクラスのモデルに収束することを示唆しています。

この制限により、ベイズ推論や畳み込みニューラル ネットワークの勾配降下ダイナミクスなどの複雑な現象を単純な線形代数方程式に簡略化できます。これらの無限幅ネットワークのアイデアの一部は、有限ネットワークにも頻繁に拡張されます。 したがって、無限幅ネットワークは、ディープラーニングを研究するための次元として使用できるだけでなく、それ自体が非常に有用なモデルでもあります。

左: 無限に広いディープ ニューラル ネットワークが、どのように単純な入力/出力マッピングを生成するかを示す図。

右: ニューラル ネットワークの幅が広がるにつれて、さまざまなランダム インスタンスにわたるネットワーク出力の分布がガウス分布になることがわかります。

残念ながら、有限ネットワークの無限幅の限界を導き出すには、広範な数学が必要であり、研究対象のアーキテクチャごとに個別に計算する必要があります。無限幅モデルが導出された後、効率的でスケーラブルな実装を実現するためのさらなる作業には、多大なエンジニアリングの努力が必要です。全体として、有限幅のモデルを対応する無限幅のネットワークに変換するプロセスには数か月かかる可能性があり、それ自体が研究論文の主題になる可能性があります。

この問題を解決し、ディープラーニングの理論的進歩を加速するために、Google の研究者は、有限幅のニューラル ネットワークをトレーニングするのと同じくらい簡単に、無限幅のニューラル ネットワークを構築およびトレーニングできる新しいオープン ソース ソフトウェア ライブラリ「Neural Tangents」を提案しました。本質的には、Neural Tangent は、有限幅と無限幅の両方のニューラル ネットワークを構築できる、使いやすいニューラル ネットワーク ライブラリを提供します。

ニューラル タンジェントの使用方法の例として、あるデータで完全に接続されたニューラル ネットワークをトレーニングすることを想像してください。 通常、ニューラル ネットワークはランダムに初期化され、勾配降下法を使用してトレーニングされます。これらのニューラル ネットワークを初期化してトレーニングすると、統合ネットワークが生成されます。

研究者や実務家は、より良いパフォーマンスを得るために、アンサンブルのさまざまな部分からの予測を平均化することがよくあります。さらに、アンサンブル内の不確実性は、さまざまな部分の予測の分散から推定できます。このアプローチの欠点は、ネットワークのアンサンブルをトレーニングするには大きな計算予算が必要になるため、このアプローチはほとんど使用されないことです。ただし、ニューラル ネットワークが無限に広くなると、アンサンブルはガウス過程によって記述され、その平均と分散はトレーニング プロセス全体にわたって計算できます。

Neural Tangent を使用すると、これらの無限幅のネットワーク アンサンブルをわずか 5 行のコードで構築およびトレーニングできます。 トレーニング プロセスは次のとおりです。この実験用のインタラクティブな共同ノートブックを使用するには、次のアドレスにアクセスしてください。

https://colab.sandbox.google.com/github/google/neural-tangents/blob/master/notebooks/neural_tangents_cookbook.ipynb

両方の図で、著者らは、有限幅のニューラル ネットワーク アンサンブルのトレーニングと、同じ構造の無限幅のニューラル ネットワーク アンサンブルのトレーニングを比較しています。前者の実験的平均と分散は、2 本の薄い黒の破線の間にある黒の破線で表され、後者の閉じた形式の平均と分散は、塗りつぶされた色領域内の色付きの線で表されます。どちらの図でも、有限幅のネットワークと無限幅のネットワークは非常に密接に統合されているため、区別が困難です。 左: トレーニングの進行に伴う入力データ (水平 x 軸) 上の出力 (垂直 f 軸)。 右: トレーニング中の不確実性によるトレーニングとテストの損失。

無限幅ネットワーク積分は単純な閉形式表現によって制御されますが、有限幅ネットワーク積分との顕著な一貫性があります。また、無限幅のネットワーク アンサンブルはガウス過程であるため、自然に閉じた形式の不確実性の推定値 (上の図の色付きの領域) が提供されます。これらの不確実性の推定値は、有限幅ネットワークの多数の異なるコピーをトレーニングするときに観察される予測される変化とほぼ一致しています (破線)。

上記の例は、トレーニングのダイナミクスを捉える無限幅ニューラル ネットワークの威力を示しています。 ただし、ニューラル タンジェントを使用して構築されたネットワークは、通常のニューラル ネットワークを適用できるあらゆる問題に適用できます。

たとえば、以下では、CIFAR-10 データセットを使用して、画像認識における 3 つの異なる無限幅ニューラル ネットワーク アーキテクチャを比較します。 驚くべきことに、勾配降下法と完全なベイズ推論(有限幅ネットワーク領域では困難なタスク)を使用して、閉じた形式の無限幅残差ネットワークなどの非常に複雑なモデルを評価できます。

無限幅のネットワークは、完全接続ネットワークと同様のパフォーマンス レベルを持つ有限幅のニューラル ネットワークを模倣していることがわかります。完全接続ネットワークのパフォーマンスは畳み込みネットワークよりも低く、畳み込みネットワークのパフォーマンスは広い残差ネットワークよりも低くなります。

しかし、従来のトレーニングとは異なり、これらのモデルの学習ダイナミクスは閉じた形式で完全に扱いやすく、研究者にこれらのモデルの動作に関する前例のない洞察を提供します。 Leifeng.com Leifeng.com Leifeng.com (公式アカウント: Leifeng.com)

https://ai.googleblog.com/2020/03/fast-and-easy-infinitely-wide-networks.html より

<<:  データがあなたを監視することに抵抗はありませんか?

>>:  百度の自動運転タクシーが長沙で運行開始!乗客は百度地図を通じて電話をかけ、無料の試乗を受けることができる。

ブログ    
ブログ    
ブログ    

推薦する

ビッグデータとディープラーニングは、仕事帰りの交通渋滞の回避にどのように役立つのでしょうか?

携帯電話のバスアプリでバス路線 112 の残りの停留所の数を確認するとき、バスに GPS をインスト...

...

MonoLSS: 視覚的な 3D 検出トレーニングのためのサンプル選択

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

機械学習の問題を解決する一般的な方法があります!これを読んでください

平均的なデータ サイエンティストは毎日大量のデータを処理します。データのクリーニング、処理、機械学習...

...

Python コードを書くことができる人工知能 Kite が Linux のサポートを発表。プログラマーは職を失うことになるのでしょうか?

[[264788]]プログラマーが Python コードを書くという反復的な作業を軽減するのに役立...

大規模モデルの微調整には人間のデータに頼らなければならないのでしょうか? DeepMind: フィードバック付きの自己トレーニングの方が優れている

皆さんもご存知のとおり、大規模言語モデル (LLM) はディープラーニングの状況を変えつつあり、人間...

分析と AI で注意すべき 7 つの致命的な間違い

2017年、『エコノミスト』誌は、データが石油を上回り、世界で最も価値のある資源になったと宣言しまし...

マイクロソフト、医療病理学の症例を分析する LLaVA-Med AI モデルを発表

6月14日、マイクロソフトの研究者らは、主に生物医学研究に使用され、CTやX線画像に基づいて患者の病...

人間はAIの課題にどう立ち向かうのか

経済学者が懸念している大きな問題は、人工知能が雇用にどのような影響を与えるかということです。人工知能...

...

...

AIビジョンを取り入れることで、ガソリンスタンドは非常に「スマート」になることができます

[[354264]]石油貯蔵所、ガソリンスタンド、石油荷降ろしトラックには大量の完成燃料が保管され...

モデルを最適化する方法だけを心配する必要はありません。これは機械学習のすべてではありません。

[[263282]]機械学習分野の学生、研究者、企業の開発者は、より高い精度/AUC/mAP など...