アルゴリズムのアルゴリズム: すべての機械学習アルゴリズムはニューラルネットワークとして表現できる

アルゴリズムのアルゴリズム: すべての機械学習アルゴリズムはニューラルネットワークとして表現できる

機械学習におけるすべての研究は、ニューラル ネットワークの作成とともに 1950 年代の初期の研究以来蓄積されてきました。ロジスティック回帰からサポートベクターマシンまで、新しいアルゴリズムが次々と登場しました。しかし、ニューラル ネットワークがアルゴリズムの中のアルゴリズムであり、機械学習の頂点であることは明らかです。ニューラル ネットワークは、単なる 1 つの試みではなく、機械学習の一般化であると言えます。

[[337856]]

このように、ニューラル ネットワークは単純なアルゴリズムというよりも、フレームワークや概念です。これは、ニューラル ネットワークの構築に多くの自由度があるため明らかです。たとえば、隠れ層とノードの数、アクティベーション関数、オプティマイザー、損失関数、ネットワークの種類 (畳み込みニューラル ネットワーク、リカレント ニューラル ネットワークなど)、特殊層 (バッチ正規化、ランダム ドロップアウトなど) などです。

ニューラル ネットワークを厳密なアルゴリズムとしてではなく概念として考えると、興味深い結果が浮かび上がります。つまり、決定木であろうと k 近傍法であろうと、あらゆる機械学習アルゴリズムはニューラル ネットワークで表現できるということです。直感的には、いくつかの例を通してこれを理解できますが、より厳密に言えば、この記述は数学的に証明することもできます。

まず、ニューラル ネットワークとは何かを定義しましょう。ニューラル ネットワークは、入力層、隠し層、出力層を含むアーキテクチャであり、各層のノードは相互に接続されています。情報は、線形変換(重みとバイアス)と非線形変換(活性化関数)を通じて入力層から出力層に変換されます。モデルのトレーニング可能なパラメータを更新する方法があります。

ロジスティック回帰は、各入力乗法係数と追加の切片がシグモイド関数を通過する標準的な回帰として簡単に定義されます。これは、隠れ層を含まないニューラル ネットワークによってモデル化できます。結果は、シグモイド出力ニューロンを介した多変量回帰です。線形回帰は、出力ニューロン活性化関数を線形活性化関数に置き換えることによってもモデル化できます (線形活性化関数は、出力 f(x) = x を単にマッピングするだけであり、言い換えると、何もしません)。

サポート ベクター マシン (SVM) アルゴリズムは、いわゆる「カーネル トリック」を通じてデータを新しい空間に投影することで、データの線形分離可能性を最適化しようとします。データ変換が完了すると、アルゴリズムはグループ境界に沿ってデータを最適に分離する超平面を描画します。超平面は、2 次元の線や 3 次元の平面のように、既存の次元の線形結合として簡単に定義されます。

このように、SVM アルゴリズムは、データを新しい空間に投影し、多変量回帰を実行するものと考えることができます。ニューラル ネットワークの出力は、ある制限された出力関数を通じて確率的な結果を達成できます。

ノード間の接続を制限したり、特定のパラメータを修正するなど、いくつかの制限を設ける必要があるかもしれません。もちろん、これらの変更は「ニューラル ネットワーク」ラベルの整合性には影響しません。サポート ベクター マシンが現実と同じように動作するようにするには、おそらくさらにレイヤーを追加する必要があります。

決定木アルゴリズムなどのツリーベースのアルゴリズムはより複雑です。このようなニューラル ネットワークを構築する方法は、独自の特徴空間をどのように分割するかにかかっています。トレーニング ポイントが一連の分割ノードを通過すると、特徴空間は複数のハイパーキューブに分割されます。2 次元の例では、垂直線と水平線が正方形を形成します。

画像ソース: DataCamp コミュニティ

したがって、これらの線に沿って特徴空間を分割する同様の方法は、入力値が本質的に分割線であるステップ関数などのより厳密な活性化関数を使用してシミュレートできます。重みとバイアスの値を制限して、伸縮や配置によって分割線の方向を決めるためにのみ使用されるようにすることもできます。確率的な結果を得るために、結果を活性化関数に渡すことができます。

ニューラル ネットワークのアルゴリズムの表現と実際のアルゴリズムの間には多くの技術的な違いがありますが、重要な点は、ニューラル ネットワークは同じアイデアを表現し、同じ戦略を使用して問題を解決でき、そのパフォーマンスは実際のアルゴリズムと同じであるということです。

しかし、アルゴリズムをニューラル ネットワーク形式に大まかに変換するだけでは満足できない人もいるかもしれません。また、各ケースの具体的な分析ではなく、k 近傍法やナイーブ ベイズ法などのより複雑なアルゴリズムの一般的な適用を望む人もいるかもしれません。

普遍近似定理はこの問題を解決します。これは、ニューラル ネットワークの大きな成功の背後にある数学的な説明です。本質的には、十分に大きなニューラル ネットワークは任意の関数を任意の精度でシミュレートできることを示しています。データを表す関数 f(x) があるとします。各データ ポイント (x, y) に対して、f(x) は常に y と等しいか、非常に近い値を返します。

モデリングの目的は、この代表的な関数または正しくラベル付けされた関数 f(x) を見つけ、p(x) を使用して予測を表現することです。すべての機械学習アルゴリズムは、このタスクに異なるアプローチを取り、異なる仮定を有効と見なし、最良の結果 p(x) を出します。 p(x) を作成するアルゴリズムを記述すると、条件のリストから純粋数学まで、さまざまな結果になる可能性があります。ターゲットを入力にマッピングする方法を記述する関数は、事実上あらゆる形式を取ることができます。

これらの関数は便利な場合もあれば、そうでない場合もあります。これらの関数は固定数の引数を取るため、使用するかどうかは検討が必要です。ただし、ニューラル ネットワークによって、f(x) を見つけるためのアプローチが若干異なります。あらゆる関数は、多数のステップ状のセクションによって適切に近似することができ、ステップの数が多いほど、近似の精度が高まります。

各ステップはニューラル ネットワークによって表されます。ニューラル ネットワークは、本質的に確率ステップ関数であるシグモイド活性化関数を持つ隠し層内のノードです。本質的には、各ノードには f(x) の一部が「割り当て」られます。

次に、重みとバイアスのシステムを通じて、ネットワークはシグモイド関数の入力値が正の無限大(出力値は 1)に達するようにノードの存在を決定し、特定の入力値に対してニューロンをアクティブにする必要がある場合、出力値は負の無限大になります。ノードを使用してデータ関数の特定の部分を見つけるというこのパターンは、数値データだけでなく画像でも見られます。

普遍近似定理は、ReLU やニューラル ネットワーク タイプなどの他の活性化関数にも適用できるように一般化されていますが、ニューラル ネットワークは完璧であるという原則は変わりません。

ニューラル ネットワークは、複雑な数学方程式や関係のシステムに頼るのではなく、データ機能の一部に自身の一部を委任し、指定された領域内で一般化を機械的に記憶します。これらのノードが巨大なニューラル ネットワークに集約されると、その結果はインテリジェントなモデルのように見えますが、実際には巧妙に設計された近似値になります。

ニューラル ネットワークが、少なくとも理論上は、期待どおりの精度の関数を構築できる場合 (ノードの数が多いほど、近似値はより正確になりますが、もちろんオーバーフィッティングの技術的な側面は考慮されません)、正しく構築されたニューラル ネットワークは、他のアルゴリズムの予測関数 p(x) をシミュレートできます。これは他の機械学習アルゴリズムでは不可能です。

ニューラル ネットワークは、多項式曲線やノード システムなどの既存のモデルの一部のパラメータを最適化するのではなく、独立したシステムを完全に活用するのではなく、データ関数を直接近似するという、データ モデリングに関する特定の観点を使用します。私たちがよく知っているニューラル ネットワーク アーキテクチャは、単にこのアイデアをモデリングして表現したものにすぎません。

ニューラル ネットワークの力と、深層学習という底なしの分野における継続的な研究により、ビデオ、サウンド、疫学データなど、あらゆるデータを前例のないレベルでモデル化できるようになります。ニューラル ネットワークは、まさにアルゴリズムのためのアルゴリズムです。

この記事はWeChatの公開アカウント「Reading the Core」から転載したもので、以下のQRコードからフォローできます。この記事を転載する場合は、Duxinshu の公開アカウントにご連絡ください。

<<:  AI チャットボットの 7 つの使い方

>>:  顧客の声: AI はあなたにとって優先事項ですか? データ戦略から始める必要があります

ブログ    

推薦する

自動テストの落とし穴は何ですか?どうすれば解決できるでしょうか?

自動テストは、ソフトウェア ツールまたはハードウェア デバイスを使用して、テスト ケースの手動実行を...

Java ソートアルゴリズムの概要 (VIII): 基数ソート

基数ソートは「分散ソート」に属します。基数ソートは「バケット ソート」またはビン ソートとも呼ばれま...

製造業の発展は新たな課題に直面しており、人工知能が重要な役割を果たすだろう

[[245913]]現在、製造業の発展は新たな歴史的時期を迎えており、世界各国間の競争の焦点となって...

GPT-4の予測の新たな波は、大きすぎず密度も高くないテキストのみのモデルに向けて到来している。

2020年5月、GPT-3はGPT-2の1年後に正式にリリースされました。GPT-2も、オリジナル...

...

人工知能はすでに無敵なのでしょうか? AIに取って代わられない6つの仕事

人工知能は万能のように思えますが、実際には人工知能に代替できない職業も数多くあります。 HSBCは銀...

研究者はAIを活用して新型コロナウイルスの理解を深める

[[319373]]新型コロナウイルスが昨年12月に中国・武漢で発生して以来、過去数か月間に2,00...

市場レポートの予測: 2027年には世界の生体認証市場は1,000億ドルに近づく

近年、人工知能の継続的な成熟に伴い、生体認証技術は生活のあらゆる分野に浸透し、コストが削減され、効率...

人工知能センターオブエクセレンス:ビジネス変革を推進する新たなエンジン

AIセンターオブエクセレンスは、人材の統合、プラットフォームの標準化、ビジネス領域全体への成果の普及...

人工知能は私たちの言語を理解するのでしょうか?思っていたよりも強力だ

2016年3月の「人間対機械」は、機械に対する認識を一新した。世界一の囲碁名人イ・セドルが、人工知能...

Evil GPT に新たなメンバーが加わりました: Dark Web には 3,000 を超えるサブスクリプションがあり、発行者の正体は依然として謎のままです。

著者: 徐潔成物事の表面と内部の性質の間には常に微妙な境界線があります。過去数か月間、私たちは人工知...

...

Google、視覚障害者が世界を見るのを助けるAIメガネを開発

海外メディアの報道によると、オランダの新興企業EnvisionはGoogle Glassと提携し、視...

最高の AI スタートアップはどれですか? 6つの選択肢があなたに方向性を与える

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...