みなさんこんにちは、ピーターです〜 最近、reddit で非常に鮮明な mó xìng の写真を見ました。このグラフは、ディープラーニングで一般的に使用される活性化関数を示しています。 ディープラーニングに欠かせない活性化関数を整理してみましょう! 活性化関数活性化関数は、人工ニューラル ネットワークに追加され、ネットワークがデータ内の複雑なパターンを学習するのを助ける関数です。人間の脳のニューロンベースのモデルと同様に、活性化関数は最終的に次のニューロンに何を発火させるかを決定します。 人工ニューラル ネットワークでは、ノードの活性化関数によって、特定の入力または入力セットに対するノードの出力が定義されます。標準的なコンピュータ チップ回路は、入力に応じてオン (1) またはオフ (0) の出力を生成するデジタル回路のアクティブ化関数として考えることができます。したがって、活性化関数はニューラル ネットワークの出力を決定する数式です。この記事では、ディープラーニングでよく使用される 10 個の活性化関数と、それぞれの長所と短所について説明します。 まず、人工ニューロンの動作原理を理解しましょう。それはおおよそ次のようになります。 上記のプロセスを数学的に視覚化したものが以下の図に示されています。 シグモイド活性化関数シグモイド関数のグラフは S 字曲線のように見えます。関数式は次のようになります。 シグモイド活性化関数を使用するのが適切なのはどのような場合ですか?
シグモイド活性化関数の欠点は何ですか?
Tanh / 双曲正接活性化関数tanh活性化関数のグラフもS字型で、表現は次のようになります。 tanh は双曲正接関数です。 tanh 関数とシグモイド関数の曲線は比較的似ています。しかし、シグモイド関数に比べていくつかの利点があります。 まず、入力が大きいか小さい場合、出力はほぼ滑らかになり、勾配は小さくなり、重みの更新には役立ちません。両者の違いは出力間隔であり、tanh の出力間隔は 1 であり、関数全体は 0 を中心としており、これはシグモイド関数よりも優れています。 tanh グラフでは、負の入力は強く負にマッピングされ、ゼロの入力はゼロに近い値にマッピングされます。 注: 一般的なバイナリ分類問題では、隠れ層に tanh 関数が使用され、出力層にシグモイド関数が使用されますが、これは固定ではなく、特定の問題に応じて調整する必要があります。 ReLU活性化関数ReLU 活性化関数のイメージは上図の通りで、関数式は次のようになります。 ReLU 関数は、ディープラーニングでよく使われる活性化関数です。シグモイド関数や tanh 関数と比較すると、次のような利点があります。
もちろん、欠点もあります。
リーキーReLUこれは、Dead ReLU 問題を解決するために特別に設計された活性化関数です。 ReLU と Leaky ReLU Leaky ReLU が ReLU より優れているのはなぜですか? 写真
注: 理論上は、Leaky ReLU には ReLU のすべての利点があり、Dead ReLU には問題はありませんが、実際には、Leaky ReLU が常に ReLU よりも優れていることは完全に証明されていません。 エルELU 対 Leaky ReLU 対 ReLU ELU の導入により、ReLU の問題も解決されます。 ReLU と比較すると、ELU は負の値を持ち、アクティベーションの平均がゼロに近くなります。平均活性化がゼロに近いほど、勾配が自然勾配に近くなるため、学習が速くなります。 明らかに、ELU には ReLU のすべての利点があり、次の利点があります。
1 つの小さな問題は、計算負荷が大きくなることです。 Leaky ReLU と同様に、理論的には ReLU よりも優れていますが、実際には ELU が常に ReLU よりも優れていることを示す確かな証拠は現在ありません。 PReLU (パラメトリックReLU)PReLU も ReLU の改良版です。 PReLU の式を見てみましょう。パラメーター α は通常 0 から 1 の間の数値で、比較的小さいのが普通です。
PReLU の利点は次のとおりです。
ソフトマックスSoftmax は、クラス ラベルが 2 つ以上ある場合にクラス メンバーシップが必要となるマルチクラス分類問題に使用される活性化関数です。長さ K の任意の実数ベクトルを、Softmax はそれを長さ K の実数ベクトルに圧縮できます。このベクトルの値は範囲 (0, 1) にあり、ベクトル内の要素の合計は 1 になります。 Softmax は通常の max 関数とは異なります。max 関数は単純に最大値を出力しますが、Softmax では小さい値は確率も小さくなり、単純に破棄されないことが保証されます。これは、argmax 関数の確率的または「ソフト」バージョンと考えることができます。 Softmax 関数の分母は、元の出力値のすべての要素を組み合わせたもので、Softmax 関数によって取得されたさまざまな確率は相互に関連していることを意味します。 Softmax 活性化関数の主な欠点は次のとおりです。
シュッシュ関数式: Swish の設計は、LSTM およびハイウェイ ネットワークでのゲーティング シグモイド関数の使用にヒントを得ています。同じゲーティング値を使用してゲーティング メカニズムを簡素化します。これをセルフ ゲーティングと呼びます。 セルフゲーティングの利点は、通常のゲーティングでは複数のスカラー入力が必要になるのに対し、セルフゲーティングでは単純なスカラー入力のみが必要になることです。これにより、Swish などの自己ゲート活性化関数は、隠れ容量やパラメータの数を変更することなく、単一のスカラーを入力として受け取る活性化関数 (ReLU など) を簡単に置き換えることができます。 Swish 活性化関数の主な利点は次のとおりです。
マックスアウトMaxout 層では、活性化関数は入力の最大値であるため、2 つの Maxout ノードのみを持つ多層パーセプトロンは任意の凸関数に適合できます。 単一の Maxout ノードは、実数値関数に対する区分線形近似 (PWL) として解釈できます。この場合、関数グラフ上の任意の 2 点間の線分は、グラフの上部にあります (凸関数)。 Maxoutはd次元ベクトル(V)に対しても実装できます。 2つの凸関数h_1(x)とh_2(x)が2つのMaxoutノードで近似され、関数g(x)が連続PWL関数であると仮定します。 したがって、2 つの Maxout ノードで構成される Maxout レイヤーは、任意の連続関数を適切に近似できます。 ソフトプラスソフトプラス機能: Softplus の導関数は次のとおりです。 ロジスティック/シグモイド関数とも呼ばれます。 Softplus 関数は ReLU 関数に似ていますが、比較的滑らかで、ReLU のような片側抑制を備えています。広い範囲(0、+ inf)を受け入れます。 |
<<: タオバオライブストリーミングにおける機械学習に基づく帯域幅推定の探求と実践
最近、IBM は、がん治療の課題を克服することを目的とした 3 つの AI プロジェクトをオープンソ...
大規模言語モデル (LLM) は最近、コード レベルでのさまざまなダウンストリーム タスクで優れたパ...
[[273182]]このガイドは、機械学習 (ML) に興味があるが、どこから始めればよいかわからな...
2019年WeChatオープンクラスPROで、WeChat AIチームが開発したインテリジェント対話...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[188225]] arXiv.org は、物理学、数学、コンピューターサイエンス、生物学の論文の...
近年、人工知能技術の発展は急速ですが、敷居が高すぎるという人も多くいます。AI技術に関する報道を見る...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
外れ値検出の詳細と、Python で 3 つのシンプルで直感的かつ強力な外れ値検出アルゴリズムを実装...
[[326308]]概要いわゆる LRU (Least Recently Used) アルゴリズムの...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
「ビッグモデル予選コンペティション」チャットボット アリーナの公式リストが更新されました: Goog...