ニューラル タンジェント、無限幅のニューラル ネットワーク モデルを作成するための 5 行のコード

ニューラル タンジェント、無限幅のニューラル ネットワーク モデルを作成するための 5 行のコード

[[322852]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

この記事は、Google が執筆した ICLR 2020 論文「NEURAL TANGENTS: FAST AND EASY INFINITE NEURAL NETWORKS IN PYTHON」の解釈です。

  • 論文アドレス: https://arxiv.org/pdf/1912.02803.pdf

  • オープンソースアドレス: https://github.com/google/neural-tangents

ディープラーニングは、自然言語処理、会話エージェント、コネクトミクスなど、多くの分野で効果的に応用されてきました。この学習方法は機械学習の研究環境を変え、研究者に多くの興味深く重要な未解決の疑問をもたらしました。たとえば、「ディープ ニューラル ネットワーク (DNN) は、過剰にパラメータ化されていても、なぜそれほどうまく一般化できるのか?」「ディープ ネットワークのアーキテクチャ、トレーニング、パフォーマンスの関係は何か?」などです。 ディープラーニングモデルから顕著な特徴を抽出するにはどうすればよいでしょうか?

近年この分野の進歩を可能にした重要な理論的洞察は、DNN の幅を広げるとより規則的な動作が生まれ、それらの動作を理解しやすくなるという点です。最近の多くの結果は、無限に広くなる可能性のある DNN が、ガウス過程と呼ばれる別のより単純なクラスのモデルに収束することを示唆しています。

この制限により、ベイズ推論や畳み込みニューラル ネットワークの勾配降下ダイナミクスなどの複雑な現象を単純な線形代数方程式に簡略化できます。これらの無限幅ネットワークのアイデアの一部は、有限ネットワークにも頻繁に拡張されます。 したがって、無限幅ネットワークは、ディープラーニングを研究するための次元として使用できるだけでなく、それ自体が非常に有用なモデルでもあります。

左: 無限に広いディープ ニューラル ネットワークが、どのように単純な入力/出力マッピングを生成するかを示す図。

右: ニューラル ネットワークの幅が広がるにつれて、さまざまなランダム インスタンスにわたるネットワーク出力の分布がガウス分布になることがわかります。

残念ながら、有限ネットワークの無限幅の限界を導き出すには、広範な数学が必要であり、研究対象のアーキテクチャごとに個別に計算する必要があります。無限幅モデルが導出された後、効率的でスケーラブルな実装を実現するためのさらなる作業には、多大なエンジニアリングの努力が必要です。全体として、有限幅のモデルを対応する無限幅のネットワークに変換するプロセスには数か月かかる可能性があり、それ自体が研究論文の主題になる可能性があります。

この問題を解決し、ディープラーニングの理論的進歩を加速するために、Google の研究者は、有限幅のニューラル ネットワークをトレーニングするのと同じくらい簡単に、無限幅のニューラル ネットワークを構築およびトレーニングできる新しいオープン ソース ソフトウェア ライブラリ「Neural Tangents」を提案しました。本質的には、Neural Tangent は、有限幅と無限幅の両方のニューラル ネットワークを構築できる、使いやすいニューラル ネットワーク ライブラリを提供します。

ニューラル タンジェントの使用方法の例として、あるデータで完全に接続されたニューラル ネットワークをトレーニングすることを想像してください。 通常、ニューラル ネットワークはランダムに初期化され、勾配降下法を使用してトレーニングされます。これらのニューラル ネットワークを初期化してトレーニングすると、統合ネットワークが生成されます。

研究者や実務家は、より良いパフォーマンスを得るために、アンサンブルのさまざまな部分からの予測を平均化することがよくあります。さらに、アンサンブル内の不確実性は、さまざまな部分の予測の分散から推定できます。このアプローチの欠点は、ネットワークのアンサンブルをトレーニングするには大きな計算予算が必要になるため、このアプローチはほとんど使用されないことです。ただし、ニューラル ネットワークが無限に広くなると、アンサンブルはガウス過程によって記述され、その平均と分散はトレーニング プロセス全体にわたって計算できます。

Neural Tangent を使用すると、これらの無限幅のネットワーク アンサンブルをわずか 5 行のコードで構築およびトレーニングできます。 トレーニング プロセスは次のとおりです。この実験用のインタラクティブな共同ノートブックを使用するには、次のアドレスにアクセスしてください。

https://colab.sandbox.google.com/github/google/neural-tangents/blob/master/notebooks/neural_tangents_cookbook.ipynb

両方の図で、著者らは、有限幅のニューラル ネットワーク アンサンブルのトレーニングと、同じ構造の無限幅のニューラル ネットワーク アンサンブルのトレーニングを比較しています。前者の実験的平均と分散は、2 本の薄い黒の破線の間にある黒の破線で表され、後者の閉じた形式の平均と分散は、塗りつぶされた色領域内の色付きの線で表されます。どちらの図でも、有限幅のネットワークと無限幅のネットワークは非常に密接に統合されているため、区別が困難です。 左: トレーニングの進行に伴う入力データ (水平 x 軸) 上の出力 (垂直 f 軸)。 右: トレーニング中の不確実性によるトレーニングとテストの損失。

無限幅ネットワーク積分は単純な閉形式表現によって制御されますが、有限幅ネットワーク積分との顕著な一貫性があります。また、無限幅のネットワーク アンサンブルはガウス過程であるため、自然に閉じた形式の不確実性の推定値 (上の図の色付きの領域) が提供されます。これらの不確実性の推定値は、有限幅ネットワークの多数の異なるコピーをトレーニングするときに観察される予測される変化とほぼ一致しています (破線)。

上記の例は、トレーニングのダイナミクスを捉える無限幅ニューラル ネットワークの威力を示しています。 ただし、ニューラル タンジェントを使用して構築されたネットワークは、通常のニューラル ネットワークを適用できるあらゆる問題に適用できます。

たとえば、以下では、CIFAR-10 データセットを使用して、画像認識における 3 つの異なる無限幅ニューラル ネットワーク アーキテクチャを比較します。 驚くべきことに、勾配降下法と完全なベイズ推論(有限幅ネットワーク領域では困難なタスク)を使用して、閉じた形式の無限幅残差ネットワークなどの非常に複雑なモデルを評価できます。

無限幅のネットワークは、完全接続ネットワークと同様のパフォーマンス レベルを持つ有限幅のニューラル ネットワークを模倣していることがわかります。完全接続ネットワークのパフォーマンスは畳み込みネットワークよりも低く、畳み込みネットワークのパフォーマンスは広い残差ネットワークよりも低くなります。

しかし、従来のトレーニングとは異なり、これらのモデルの学習ダイナミクスは閉じた形式で完全に扱いやすく、研究者にこれらのモデルの動作に関する前例のない洞察を提供します。 Leifeng.com Leifeng.com Leifeng.com (公式アカウント: Leifeng.com)

https://ai.googleblog.com/2020/03/fast-and-easy-infinitely-wide-networks.html より

<<:  データがあなたを監視することに抵抗はありませんか?

>>:  百度の自動運転タクシーが長沙で運行開始!乗客は百度地図を通じて電話をかけ、無料の試乗を受けることができる。

ブログ    
ブログ    
ブログ    

推薦する

機械学習機能を簡単に拡張: Rancher に Kubeflow をインストールする方法

機械学習の分野が発展し続けるにつれて、機械学習を扱うチームが単一のマシンでモデルをトレーニングするこ...

分析と AI で注意すべき 7 つの致命的な間違い

2017年、『エコノミスト』誌は、データが石油を上回り、世界で最も価値のある資源になったと宣言しまし...

...

錬金速度×7! MacでもPyTorchトレーニングでGPUアクセラレーションを利用できます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

TensorFlow Lattice: 柔軟で制御可能、説明可能な機械学習

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

インタビュアー: 一般的なソートアルゴリズムは何ですか?違い?

[[426795]]この記事はWeChatの公開アカウント「JS Daily Question」か...

AIによって非効率と判断され、150人の労働者が解雇された。「労働者をコントロールできるのはまさに人工知能だ」

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習の背後にある数学的なバックボーンを理解するのに役立つ5冊の本

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

快手八卦についての噂: TensorFlow と PyTorch の並列ボトルネックを打破する分散トレーニング フレームワーク

最近、KuaishouとETH Zurichはオープンソースの分散トレーニングフレームワークBagu...

IoT と AI を組み合わせたユースケースにはどのようなものがありますか?

モノのインターネットは現代のビジネスと経済を急速に変革しています。この革新的なテクノロジーにより、膨...

DAYU200は自閉症の早期スクリーニング音声特徴フィルタリングおよび認識システムを運用しています

オープンソースの詳細については、以下をご覧ください。 51CTO オープンソース基本ソフトウェアコミ...

AIがAIを攻撃、サイバーセキュリティ戦争が激化

最近のサイバーセキュリティ会議では、調査対象となった業界専門家100人のうち62人が、AIを活用した...

1 つの記事で機械学習を理解する: 基本概念、5 つの主要な流派、9 つの一般的なアルゴリズム

1. 機械学習の概要 1. 機械学習とは何ですか?機械は大量のデータを分析して学習します。たとえば...