みなさんこんにちは、ピーターです〜 最近、reddit で非常に鮮明な mó xìng の写真を見ました。このグラフは、ディープラーニングで一般的に使用される活性化関数を示しています。 ディープラーニングに欠かせない活性化関数を整理してみましょう! 活性化関数活性化関数は、人工ニューラル ネットワークに追加され、ネットワークがデータ内の複雑なパターンを学習するのを助ける関数です。人間の脳のニューロンベースのモデルと同様に、活性化関数は最終的に次のニューロンに何を発火させるかを決定します。 人工ニューラル ネットワークでは、ノードの活性化関数によって、特定の入力または入力セットに対するノードの出力が定義されます。標準的なコンピュータ チップ回路は、入力に応じてオン (1) またはオフ (0) の出力を生成するデジタル回路のアクティブ化関数として考えることができます。したがって、活性化関数はニューラル ネットワークの出力を決定する数式です。この記事では、ディープラーニングでよく使用される 10 個の活性化関数と、それぞれの長所と短所について説明します。 まず、人工ニューロンの動作原理を理解しましょう。それはおおよそ次のようになります。 上記のプロセスを数学的に視覚化したものが以下の図に示されています。 シグモイド活性化関数シグモイド関数のグラフは S 字曲線のように見えます。関数式は次のようになります。 シグモイド活性化関数を使用するのが適切なのはどのような場合ですか?
シグモイド活性化関数の欠点は何ですか?
Tanh / 双曲正接活性化関数tanh活性化関数のグラフもS字型で、表現は次のようになります。 tanh は双曲正接関数です。 tanh 関数とシグモイド関数の曲線は比較的似ています。しかし、シグモイド関数に比べていくつかの利点があります。 まず、入力が大きいか小さい場合、出力はほぼ滑らかになり、勾配は小さくなり、重みの更新には役立ちません。両者の違いは出力間隔であり、tanh の出力間隔は 1 であり、関数全体は 0 を中心としており、これはシグモイド関数よりも優れています。 tanh グラフでは、負の入力は強く負にマッピングされ、ゼロの入力はゼロに近い値にマッピングされます。 注: 一般的なバイナリ分類問題では、隠れ層に tanh 関数が使用され、出力層にシグモイド関数が使用されますが、これは固定ではなく、特定の問題に応じて調整する必要があります。 ReLU活性化関数ReLU 活性化関数のイメージは上図の通りで、関数式は次のようになります。 ReLU 関数は、ディープラーニングでよく使われる活性化関数です。シグモイド関数や tanh 関数と比較すると、次のような利点があります。
もちろん、欠点もあります。
リーキーReLUこれは、Dead ReLU 問題を解決するために特別に設計された活性化関数です。 ReLU と Leaky ReLU Leaky ReLU が ReLU より優れているのはなぜですか? 写真
注: 理論上は、Leaky ReLU には ReLU のすべての利点があり、Dead ReLU には問題はありませんが、実際には、Leaky ReLU が常に ReLU よりも優れていることは完全に証明されていません。 エルELU 対 Leaky ReLU 対 ReLU ELU の導入により、ReLU の問題も解決されます。 ReLU と比較すると、ELU は負の値を持ち、アクティベーションの平均がゼロに近くなります。平均活性化がゼロに近いほど、勾配が自然勾配に近くなるため、学習が速くなります。 明らかに、ELU には ReLU のすべての利点があり、次の利点があります。
1 つの小さな問題は、計算負荷が大きくなることです。 Leaky ReLU と同様に、理論的には ReLU よりも優れていますが、実際には ELU が常に ReLU よりも優れていることを示す確かな証拠は現在ありません。 PReLU (パラメトリックReLU)PReLU も ReLU の改良版です。 PReLU の式を見てみましょう。パラメーター α は通常 0 から 1 の間の数値で、比較的小さいのが普通です。
PReLU の利点は次のとおりです。
ソフトマックスSoftmax は、クラス ラベルが 2 つ以上ある場合にクラス メンバーシップが必要となるマルチクラス分類問題に使用される活性化関数です。長さ K の任意の実数ベクトルを、Softmax はそれを長さ K の実数ベクトルに圧縮できます。このベクトルの値は範囲 (0, 1) にあり、ベクトル内の要素の合計は 1 になります。 Softmax は通常の max 関数とは異なります。max 関数は単純に最大値を出力しますが、Softmax では小さい値は確率も小さくなり、単純に破棄されないことが保証されます。これは、argmax 関数の確率的または「ソフト」バージョンと考えることができます。 Softmax 関数の分母は、元の出力値のすべての要素を組み合わせたもので、Softmax 関数によって取得されたさまざまな確率は相互に関連していることを意味します。 Softmax 活性化関数の主な欠点は次のとおりです。
シュッシュ関数式: Swish の設計は、LSTM およびハイウェイ ネットワークでのゲーティング シグモイド関数の使用にヒントを得ています。同じゲーティング値を使用してゲーティング メカニズムを簡素化します。これをセルフ ゲーティングと呼びます。 セルフゲーティングの利点は、通常のゲーティングでは複数のスカラー入力が必要になるのに対し、セルフゲーティングでは単純なスカラー入力のみが必要になることです。これにより、Swish などの自己ゲート活性化関数は、隠れ容量やパラメータの数を変更することなく、単一のスカラーを入力として受け取る活性化関数 (ReLU など) を簡単に置き換えることができます。 Swish 活性化関数の主な利点は次のとおりです。
マックスアウトMaxout 層では、活性化関数は入力の最大値であるため、2 つの Maxout ノードのみを持つ多層パーセプトロンは任意の凸関数に適合できます。 単一の Maxout ノードは、実数値関数に対する区分線形近似 (PWL) として解釈できます。この場合、関数グラフ上の任意の 2 点間の線分は、グラフの上部にあります (凸関数)。 Maxoutはd次元ベクトル(V)に対しても実装できます。 2つの凸関数h_1(x)とh_2(x)が2つのMaxoutノードで近似され、関数g(x)が連続PWL関数であると仮定します。 したがって、2 つの Maxout ノードで構成される Maxout レイヤーは、任意の連続関数を適切に近似できます。 ソフトプラスソフトプラス機能: Softplus の導関数は次のとおりです。 ロジスティック/シグモイド関数とも呼ばれます。 Softplus 関数は ReLU 関数に似ていますが、比較的滑らかで、ReLU のような片側抑制を備えています。広い範囲(0、+ inf)を受け入れます。 |
<<: タオバオライブストリーミングにおける機械学習に基づく帯域幅推定の探求と実践
[[191396]]カルロス・E・ペレスコンピレーション | 聖人、ワンショットオックスフォード大学...
現在、農業の需要と供給の矛盾がますます顕著になる中、植物保護分野におけるドローンの導入と応用は、農業...
人工知能業界は急速に発展しており、医療、輸送、家具、電子機器などの業界で関連する応用事例が見つかりま...
人工知能技術は急速に発展し、人々の生活に微妙な影響を与えています。掃除ロボット、調理ロボット、配達ロ...
機械学習における公平性に関する研究は本当に正しい方向に進んでいるのでしょうか?人工知能の発展に伴い、...
アマゾンのAI採用ツールが女性差別をしていたことが発覚し、公式がチーム解散を発表。これで一件落着か?...
12月5日、国務院の承認を得て、科学技術部と河南省政府の共催により、12月6日から8日まで河南省鄭州...
最近、Sinovation Venturesの会長兼CEOであるKai-Fu Lee博士とAlex ...
ハリウッドのSF大作では、人工知能は常に、将来の人類の生存を脅かす自己認識機械として定義されています...
【51CTO.comオリジナル記事】 100年前、シュテファン・ツヴァイクは彼の有名な著作「星...
2月27日、米国の著名な自動運転企業であるAuroraは、ライダーチップ企業OURSを1億ドルで買収...
テンセントテクノロジー(深圳)有限公司は5月13日、人工知能ベースの自動運転方法、デバイス、設備、媒...
ChatGPTのリリース後、テキスト生成技術は急速に発展し、特に標準的な回答がない「テキスト要約」タ...