天才か愚か者か: 史上最も物議を醸したニューラル ネットワーク

天才か愚か者か: 史上最も物議を醸したニューラル ネットワーク

エクストリームラーニングマシン

Extreme Learning Machine は、これまでで最も賢いニューラル ネットワークの発明の 1 つであると考える人もいます。そのため、ELM ニューラル ネットワーク アーキテクチャについて議論する会議も開催されました。 ELM の支持者は、ELM は標準的なタスクを、飛躍的に速いトレーニング時間と少ないトレーニング例で実行できると主張しています。一方、機械学習コミュニティではそれほど大きな存在ではないという事実に加え、ヤン・ルカン氏を含むディープラーニングの専門家からは、期待以上の誇大宣伝と評価を受けていると広く批判されています。

一般的に、人々はこれを興味深い概念だと考えているようです。

ELM アーキテクチャは 2 つのレイヤーで構成されています。最初のレイヤーはランダムに初期化され固定され、2 番目のレイヤーはトレーニング可能です。本質的には、ネットワークはデータをランダムに新しい空間に投影し、多変量回帰を実行します (そしてもちろん、それを出力活性化関数に渡します)。ランダム投影には、ランダム行列を入力に掛ける次元削減 (またはアップスケーリング) 方法が必要です。このアイデアは奇妙に聞こえるかもしれませんが、戦略分布からのランダムな抽出は実際には非常にうまく機能します (後で直感的な類推でわかるように)。これは、ある種のランダムな歪みを課すことで、良い意味でノイズを生成し(正しく実行された場合)、ネットワークの残りの部分が適応できるようにして、学習の機会への新しい扉を開きます。

実際、このランダム性のおかげで、エクストリーム ラーニング マシンは、隠れ層内の比較的小さなノードを持つべき乗の普遍近似定理を持つことが示されています。

実際、ランダム投影のアイデアは、ニューラル ネットワークの開発分野で 1980 年代と 1990 年代に研究されており、これが ELM が新しいものではないという批判の 1 つです。それは単に古い研究を新しい名前でパッケージ化しただけです。 Echo State Machine や Liquid State Machine などの他の多くのアーキテクチャも、ランダム スキップ接続やその他のランダム性のソースを利用します。

ただし、ELM と他のニューラル ネットワーク アーキテクチャの最大の違いは、バックプロパゲーションを使用しないことです。代わりに、ネットワークのトレーニング可能な部分は単純な多変量回帰であるため、パラメータは回帰の係数を適合させるのとほぼ同じ方法でトレーニングされます。これは、ニューラル ネットワークのトレーニングに関する人々の考え方に根本的な変化をもたらします。

基本的な人工ニューラル ネットワークの登場以来開発されたほぼすべてのニューラル ネットワークは、ネットワーク全体で情報信号をやり取りすることで、反復的な更新 (または「チューニング」) を使用して最適化されてきました。この方法は長い間使用されてきたため、試行錯誤を重ねて最良の方法であると想定する必要がありますが、研究者は標準的なバックプロパゲーションには、トレーニングに時間がかかる、小さな局所的最小値で行き詰まるなど、多くの問題があることを認めています。

一方、ELM は、重みを設定するために、より数学的に複雑な式を使用します。数学を深く理解しなくても、ランダム レイヤーを使用して、置き換えられる計算コストの高い詳細を補うことができます。技術的には、非常に成功したドロップアウト レイヤーは、役に立つかどうかは別として、一種のランダム投影です。

ELM はランダム性とバックプロパゲーションなしの両方を使用するため、標準的なニューラル ネットワークよりもはるかに高速にトレーニングできます。

一方、パフォーマンスが優れているかどうかは別の問題です。

ELM は、数個の例だけで非常に迅速に単純なタスクを解決できるという点で、標準的なニューラル ネットワークよりも人間の学習方法をより反映しているという主張もできます (ただし、どちらもそれにはほど遠いです)。一方、反復型ニューラル ネットワークは、一般化して適切に機能するために、少なくとも数千のサンプルを実行する必要があります。人間は機械に比べて弱点があるかもしれませんが、例の比率(例とは、人間に与えられたトレーニング例の数)による学習における大きな利点が、私たちを本当に賢くしているのです。

極限学習マシンの概念は非常に単純です。あまりにも単純なので、愚かだと言う人もいるでしょう。偉大なコンピューター科学者であり、ディープラーニングの先駆者であるヤン・ルカンは、「最初のレイヤーをランダムに接続するのは、最も愚かな行為の 1 つである」と宣言し、この議論の後に、SVM で使用されるカーネル法など、ベクトルの次元を非線形に変換するより高度な方法を挙げました。カーネル法は、位置特定にバックプロパゲーションを使用することでさらに強化されました。

LeCun 氏は、本質的には、ELM は、より劣った変換カーネルを備えた SVM であると述べました。 ELM が解決できる問題の限られた範囲は、SVM を使用してより適切にモデル化できます。唯一の反論は、SVM が非常に高出力モデルであることで有名なため、特殊なカーネルではなく「ランダム カーネル」を使用する計算効率です。 ELM によるパフォーマンスの低下がそれだけの価値があるかどうかは、別の議論です。

> ELM と SVM を比較する 1 つの方法。

ただし、ELM に似ているかどうかにかかわらず、単純なニューラル ネットワークやその他のモデルでランダム投影やフィルターを経験的に使用すると、MNIST などのさまざまな (現在では「単純」と見なされている) 標準トレーニング タスクで良好なパフォーマンスが得られることがわかっています。これらのパフォーマンスはクラス最高ではありませんが、非常に厳しく精査され、そのコンセプトがほとんどばかげていると考えられていたアーキテクチャが、最先端のニューラル ネットワークでリーダーボードを独占し、さらに、より軽量なアーキテクチャとより小さな計算フットプリントを備えているという事実は、少なくとも興味深いものです。

固定ランダム接続を使用するとなぜ機能するのでしょうか?

ここで、100 万ドルの価値がある質問があります。明らかに、ELM が通常のバックプロパゲーション ニューラル ネットワークと同等 (またはそれ以上) のパフォーマンスを発揮する場合、ランダム接続を持つ ELM の何かが機能していることになります。その数学は直感的ではありませんが、Extreme Learning Machines のオリジナル論文の著者である Guangbin Huang 氏は、次の例でこの概念を説明しています (言語、簡潔さ、ディープラーニングとの類似性のために編集されています)。

湖を岩で満たし、水平面が水の代わりに岩で満たされると、空の湖の底、つまり曲線 (データを表す関数) が見えるようになります。エンジニアたちは、湖の大きさ、湖を満たす岩の大きさ、そして最適化作業に影響を与える他の多くの小さな要素を慎重に計算しました。 (この機能に適した多くのパラメータを最適化します。)

> 湖に石を埋め込むという、下手だが許容できる仕事。

一方、農村の農民たちは近くの山を爆破し、湖に落ちた岩を投げたり押し倒したりし始めた。田舎の農民が石(隠れ層ノード)を拾うとき、湖の大きさや石の大きさを知る必要はなく、ただランダムに石を投げて散らばらせるだけです。ある地域で地表より上に岩が積み上がり始めたら、農夫はハンマーで岩を砕いて(βパラメータ - さまざまな正規化)、地表を平らにします。

技術者たちが岩の高さや体積、湖の形をまだ計算している一方で、農民たちはすでに湖を埋め立てている。農夫にとっては、石をいくつ投げるかは問題ではありません。その方が仕事を早く終わらせることができるからです。

この類推をさまざまなシナリオに直接適用することにはいくつか問題がありますが、これは ELM の性質とモデル内でのランダム性の役割を直感的に説明しています。 ELM の本質は、素朴さが必ずしも悪いことではないということです。単純な解決策は、それほど複雑でない問題をよりうまく解決できる場合があります。

要点

  • エクストリーム学習マシンは、固定されたランダムな第 1 層とトレーニング可能な第 2 層を使用します。これは本質的にはランダム投影とそれに続く多重回帰です。
  • 支持者によると、ELM は MNIST のような単純なシナリオで非常に少ない例で非常に速く学習でき、プログラミングが容易で、アーキテクチャ、オプティマイザー、損失などのパラメータの選択を必要としないという利点があるという。一方、反対派は、これらの場合には SVM の方が優れており、ELM はより複雑な問題を解決するのに適しておらず、非常に古いアイデアを単にリブランドしたものに過ぎないと主張しています。
  • ELM は通常、複雑なタスクではパフォーマンスが低下しますが、より単純なタスクではパフォーマンスが向上することが示されています。これは、より軽量なアーキテクチャ、非バックプロパゲーション モデルのフィッティング、およびランダム投影の世界を調査する良い理由です。少なくとも、エクストリーム ラーニング マシン (または任意の名前) は、すべてのディープラーニング愛好家が知っておくべき興味深いアイデアです。

ELM についての意見をお聞かせください。

<<:  米空軍がAI技術を活用して「戦闘効率」を向上させる方法を明らかにする

>>:  マルチモーダル生体認証の利点を分析した記事、急いでコード化しましょう!

ブログ    
ブログ    
ブログ    

推薦する

「段階的に考える」だけでは不十分です。モデルを「より多くのステップで考える」ようにすれば、より有用になります。

今日では、大規模言語モデル (LLM) とその高度なヒント戦略の出現により、特に古典的な NLP タ...

ソフトウェア開発は最終的に時代遅れになるのでしょうか?

[[283217]] [51CTO.com クイック翻訳] 著名なベンチャーキャピタリスト、マーク...

アルゴリズム学習のための動的プログラミング戦略の紹介

1. コンセプト動的プログラミング戦略、分割統治戦略。貪欲戦略と同様に、通常は最適解問題を解決するた...

GoogleのAI設計チップから「知能」の本質がわかる

先週、査読付き科学誌「ネイチャー」に掲載された論文で、Google Brain チームの科学者らは、...

...

...

...

太陽光発電や風力発電に AI はメリットをもたらすのでしょうか?

太陽光発電と風力発電は急成長しているが、世界の再生可能電力への移行は、気候目標を迅速に達成するにはま...

ビッグデータマイニング機械学習人工知能ベン図戦争

半期会議がもうすぐ開かれますが、上司はみんなでしっかり計画を立てるように言いました。私たちの将来の方...

...

3分レビュー:2021年10月の自動運転業界の完全な概要

チップ不足と疫病の影響により、今年初めから自動運転産業の発展は減速を余儀なくされたが、数か月の回復を...

米国の専門家:中国のロボット優位性が懸念される

フォーブスは10月2日、寄稿者ティム・バジャリン氏による記事を掲載し、中国ロボットの利点と、中国と米...

TensorFlow 2.0「開発者プレビュー」が利用可能になりました

TensorFlow 2.0 プレビューが利用可能になりました。最近、Google AI チームのメ...

中国のLMM体格に適したベンチマークであるCMMMUがここにあります:30以上のサブ分野、12Kの専門家レベルの質問

近年、大規模マルチモーダルモデル (LMM) の機能が向上したため、LMM のパフォーマンスを評価す...

待望のAI実装はどこで行き詰まっているのでしょうか?

AIはこれまで3つの発展の波を経験してきました。最初の2つの波は当時の技術環境やその他の理由により...