エントロピーを理解する: 機械学習のゴールドスタンダード

エントロピーを理解する: 機械学習のゴールドスタンダード

[[335033]]

決定木からニューラルネットワークへ

TL;DR: エントロピーはシステム内の混沌の尺度です。 エントロピーは、精度や平均二乗誤差などの他のより厳密な指標よりも動的であるため、決定木からディープ ニューラル ネットワークに至るまでのアルゴリズムを最適化するためにエントロピーを使用すると、速度とパフォーマンスが向上することが示されています。

エントロピーは機械学習のいたるところに存在し、決定木の構築からディープニューラルネットワークのトレーニングまで、機械学習における重要な指標です。

エントロピーは物理学に由来しており、システム内の無秩序性や予測不可能性を表す尺度です。 たとえば、箱の中に 2 つのガスが入っているとします。最初は、2 つのガスは完全に分離可能なので、システムのエントロピーは低くなります。 しかし、しばらくするとガスが混ざり合い、システムのエントロピーが増加します。 孤立したシステムではエントロピーは決して減少せず、外部からの力がなければ混沌は減少しないと主張する人もいます。

たとえば、コイントスを考えてみましょう。コインを 4 回投げて、[裏、表、表、裏] という事象が発生した場合です。 あなた (または機械学習アルゴリズム) が次のコイン投げを予測するとしたら、システムには高いエントロピーが含まれているため、確実に結果を予測できます。 一方、[表、表、裏、裏] という事象を伴う重み付けされたコインはエントロピーが極めて低く、現在の情報に基づくと、次の結果はほぼ確実に表になると言えます。

データ サイエンスに当てはまるほとんどの状況は、天文学的に高いエントロピーと極めて低いエントロピーの間のどこかに当てはまります。 エントロピーが高いということは情報利得が低いことを意味し、エントロピーが低いということは情報利得が高いことを意味します。 情報取得は、システム内の純度、つまりシステム内で利用可能な純粋な知識の量と考えることができます。

決定木は、その構築にエントロピーを使用します。一連の条件にわたる入力をできるだけ効率的に正しい結果に導くために、エントロピーが低い (情報ゲインが高い) 特徴分割 (条件) がツリーの上位に配置されます。

低エントロピー条件と高エントロピー条件の概念を説明するために、クラスが色 (赤または青) でマークされ、分割が垂直の破線でマークされている仮想クラス機能を検討します。

決定木は特徴のエントロピーを計算し、モデル全体のエントロピーが最小化されるように(そして情報ゲインが最大化されるように)それらを配置します。 数学的には、これはエントロピーが最も低い条件を一番上に置くことで、その下にある分割ノードのエントロピーを減らすことができることを意味します。

決定木のトレーニングで使用される情報ゲインと相対エントロピーは、2 つの確率質量分布 p(x) と q(x) 間の「距離」として定義されます。 これは、Kullback-Leibler (KL) ダイバージェンスまたは Earth Mover の距離とも呼ばれ、敵対的ネットワークのトレーニングで使用され、生成された画像のパフォーマンスを元のデータセットの画像と比較して評価します。

ニューラル ネットワークでよく使用される損失関数の 1 つはクロス エントロピーです。 カテゴリ、スパース、バイナリのクロスエントロピーのいずれであっても、このメトリックは高性能ニューラル ネットワークのデフォルトの損失関数の 1 つです。 また、ロジスティック回帰など、ほぼすべての分類アルゴリズムの最適化にも使用できます。 エントロピーの他の応用 (結合エントロピーや条件付きエントロピーなど) と同様に、クロス エントロピーは、エントロピーの厳密な定義のさまざまなバリエーションの 1 つであり、特定の応用に適しています。

カルバック・リーバー・ダイバージェンス (KLD) と同様に、クロスエントロピーも 2 つの分布 p と q の関係を扱い、それぞれ真の分布 p と近似分布 q を表します。 ただし、KLD は 2 つの分布間の相対エントロピーを測定しますが、クロス エントロピーは 2 つの分布間の「合計エントロピー」を測定します。

このメトリックは、モデル分布 q を使用して分布 p を持つソースからのデータをエンコードするために必要な平均ビット数として定義されます。 ターゲット分布 p と近似値 q を考えるとき、p の代わりに q を使用してイベントを表すために必要なビット数を削減したいと考えます。 一方、相対エントロピー (KLD) は、分布 q 内の p からのイベントを表すために必要な追加ビットの数を測定します。

クロスエントロピーはモデルのパフォーマンスを測定するための回りくどい方法のように思えるかもしれませんが、いくつかの利点があります。

  • 精度/エラーベースのメトリックには、トレーニング データの順序に対する極端な敏感さ、信頼性を考慮していないこと、誤った結果につながる可能性のあるさまざまなデータ プロパティに対する堅牢性の欠如など、複数の問題があります。 これらはパフォーマンスの非常に大まかな指標です (少なくともトレーニング中は)。
  • クロスエントロピーは情報コンテンツを測定するため、すべてのボックスをチェックすることを単純に重視するメトリックよりも動的で信頼性があります。 予測とターゲットは、回答を待つ質問のリストではなく、分布として表示されます。
  • これは確率の特性と密接に関連しており、シグモイドおよびソフトマックス活性化(最後のニューロンにのみ使用される場合でも)で特に役立ち、消失勾配問題を軽減するのに役立ちます。 ロジスティック回帰は、バイナリクロスエントロピーの一種として考えることができます。

エントロピーは常に最適な損失関数であるとは限りませんが (特に目的関数 p が適切に定義されていない場合)、エントロピーはパフォーマンスを向上させるように見えることが多く、これはエントロピーがあらゆる場所に存在することを示しています。

機械学習でエントロピーを使用すると、クロスエントロピー、相対エントロピー、情報ゲインなどの概念を通じて、その中核となるコンポーネント (不確実性と確率) を適切に捉えることができます。 エントロピーは、モデル構築に非常に必要とされる未知の値の処理に特化しています。 モデルがエントロピーを最適化すると、強化された知識と目的意識を持って予測不可能な平原をさまようことができるようになります。

<<:  人工知能は法曹界に新たな形を与えています。法務テクノロジー企業はどのようにしてクライアントにグローバルなサービスを提供できるのでしょうか?

>>:  エッジウェアハウジング: 9 つの新しいウェアハウジング技術

ブログ    
ブログ    
ブログ    

推薦する

nn.Module クラスに基づく線形回帰モデルの実装

[[411355]]前回はシーケンシャルモデルを紹介しましたが、ほとんどの場合、ニューラルネットワー...

...

金融業界は AI を活用してデータを強化する準備ができているでしょうか?

金融業界は国民経済の生命線です。モバイルインターネットやオンライン決済の普及により、データは企業にと...

AIはITに顧客体験の向上における優位性を与える

パンデミックにより、IT 部門がデジタル顧客体験を向上させる必要性がさらに高まりました。 IT リー...

ニューヨーク大学のチームは、自然言語を使ってチャットボットChatGPTを使ってマイクロプロセッサをゼロから設計した。

6月19日、生成型人工知能がハードウェア設計などの分野に参入し始めました。最近、ニューヨーク大学の...

BAIRは、3種類のモデルフリー強化学習アルゴリズムを組み合わせたRLコードライブラリrlpytをオープンソース化しました。

最近、BAIR は強化学習研究コードライブラリ rlpyt をオープンソース化しました。このライブラ...

機械学習エンジニアとデータサイエンティストの違い

今日では、データ サイエンティストの仕事は非常に一般的になり、機械学習もその中に完全に含まれる可能性...

...

...

...

Java プログラミング スキル - データ構造とアルゴリズム「ヒープ ソート」

[[389058]]ヒープソートの基本ヒープソートは、ヒープデータ構造を使用して設計されたソートア...

没入型環境向けロボットの開発における3つの課題

[51CTO.com 速訳] 最近、FacebookはMessengerプラットフォーム上のチャット...

画像認識は思ったほど難しくありません!この記事を読めばあなたも専門家になれる

[51CTO.com からのオリジナル記事] ローカルライフのシナリオには、メニュー認識、標識認識、...

GoogleはAIを活用して古い地図情報を更新

Google はブログ投稿で、同社の AI がさまざまな要素を分析して、こうした更新を行うべきかどう...

深い思考:テイクアウトの背後にある人工知能アルゴリズムの秘密

知識の蓄積は規模の拡大をもたらし、規模の拡大は市場の集中につながります。産業が「組立ライン」の形で固...