データ ポイントを特定の数の定義済みクラスに分類するように ML モデルをトレーニングすることがタスクであるとします。 分類モデルの構築が完了したら、次のタスクはそのパフォーマンスを評価することです。 ユースケースに応じて、これを実行するのに役立つメトリックは多数あります。 この記事では、「いつ使用するのか?」「それとは何か?」「どのように実装するのか?」といった質問に答えていきます。
混同マトリックス 混同行列はサイズ(クラス×クラス)の行列として定義されるため、バイナリ分類の場合は 2x2、3 クラス問題の場合は 3x3 などになります。 簡単にするために、バイナリ分類を検討し、マトリックスのコンポーネントを理解しましょう。 真陽性 (TP) - クラスが「真」であり、モデルもそれが「真」であると示す回数を表します。 True Negatives (TN) - クラスが false であり、モデルも false であると示す回数を表します。 偽陽性 (FP) - クラスは偽であるが、モデルでは真として表されることを意味します。 このように覚えておくと、モデルは誤ってそれが正であると認識します False Negatives (FN) - クラスが「True」であったが、モデルが「False」を示した回数を表します。 このように覚えておくことができます - モデルは誤ってそれを偽の値だと認識します 以下に示すように、sklearn を使用すると混同行列を簡単に取得できます。
図1に示すように、混同行列の要素はTP、TN、FP、FNです。以下に示すように、プレーンPythonを使用して計算することもできます。TP、TN、FP、FNを計算します。
混同行列は、モデルの詳細なパフォーマンスを理解するために重要であり、その後、ユースケースの感度に応じて、このモデルが適切かどうかを判断できます。 たとえば、医療診断のユースケースでは、病気の痕跡があるかどうかを検査する際に、システムが事実は「はい」なのに「いいえ」と言わないように、モデルの偽陰性率を非常に低くする必要があります。 当該人物が関連検査に合格し、後の段階で確認される可能性があるため、依然として偽陽性率が高くなる可能性があります。 正確さ 正確さにより、モデルがどのように機能するかについての全体的な理解が得られます。 ただし、誤って使用すると、これらの数値を簡単に過大評価する可能性があります。 たとえば、クラス ラベルの分布が偏っている場合、多数派クラスのみを予測するとスコアが高くなります (パフォーマンスの過大評価)。一方、バランスの取れたクラスの場合は、精度がより重要になります。 次のようにsklearnを使用して精度スコアを簡単に取得できます。
以下に示すように、Pythonを使用して混同行列の要素から計算することもできます。
精度 精度メトリックは、識別された陽性サンプルの正しい割合を把握するのに役立ちます。たとえば、私たちのモデルでは、結果が 80 回正であると想定し、その 80 回のうちモデルが正しかった回数を正確に計算します。 次のように計算することもできます。
想起 リコール指標は、すべてのグラウンドトゥルースの正例のうち、モデルが正しく識別できた正例の割合を理解するのに役立ちます。 たとえば、データ内に 100 個の陽性サンプルがあると仮定すると、モデルがこれらの 100 個のサンプルのうちいくつを正しくキャプチャできたかを計算します。 以下のように計算することもできます。
確率を出力として持つモデルの場合、しきい値を調整してから、関連する混同行列やその他のプロパティを設定することが常に良い方法です。 さまざまなしきい値の適合率-再現率曲線をプロットし、ユースケースの感度に基づいてしきい値を選択できます。
F1スコア F1 は、精度スコアと再現率スコアを組み合わせて、さまざまなモデルを直接比較するのに役立つ単一の数値を取得します。 これは P と R の調和平均と考えることができます。調和平均は、他の方法とは異なり、非常に大きな値には影響されないため使用されます。 ターゲットが偏ったデータセットを扱う場合、通常は精度ではなく F1 の使用を検討します。 次のように計算できます。
AUC-ROC AUC-ROC は、バイナリ分類問題で非常によく使用される評価メトリックの 1 つです。 これは、TPR(真偽率)をy軸に、FPR(偽偽率)をx軸にプロットした曲線です。TPRとFPRは次のように定義されます。 お気づきかもしれませんが、TPR と Recall は、正しく分類した正しいサンプルの数など、同じ表現をしています。 一方、FPR は、誤分類された負の例の割合です。 ROC プロットは、各しきい値での分類器のパフォーマンスを要約します。 したがって、各しきい値に対して、TPR と FPR の新しい混同行列値が得られ、最終的に ROC 2 次元空間内の点になります。 ROC 曲線の下の AUC (曲線下面積) 値が 1 に近いほど、モデルは優れています。 つまり、一般に、AUC が高い各しきい値では、当社のモデルは他のモデルよりも優れたパフォーマンスを発揮します。 次のように計算できます。
精度 @ k Precision@k は、マルチラベル分類設定でよく使用されるメトリックの 1 つです。 この下で、特定の例の上位 k 個の予測を計算し、これらの k 個の予測のうち実際に真のラベルであるものがいくつあるかを数えます。 Precision@kは以下のように計算されます。 Precision@k = (k からの正しい予測の数) / (k 内の項目の数)
ログ損失 バイナリ分類の問題がある場合には、ログ損失は非常に有効です。 これは、予測が実際のラベルからどれだけ離れているかに基づいて予測の不確実性を考慮した確率を出力するモデルがある場合に使用されます。 次のように計算できます。
データセットのバランスが取れていない場合は、クラスの重みを追加して、多数クラスに比べて少数クラスのエラーにペナルティを課すこともできます。コードでは、w1 と w2 はそれぞれ正クラスと負クラスの重みに対応します。
補足: クロスエントロピーと呼ばれるものを使用すると、これをマルチクラス設定に簡単に拡張できます。 ブライアースコア Brier スコアは通常、タスクが本質的にバイナリ分類である場合に使用されます。 それは単に実際の値と予測値の差を二乗したものです。 N 個のサンプル グループについて、平均をとります。 次のように計算できます。
この記事では、問題の性質に基づいて機械学習分類モデルを評価する際に、すべてのデータ サイエンティストが念頭に置く必要がある一般的な評価メトリックをいくつか紹介しました。 |
<<: 嫌がらせ電話をかけてきた相手は実はAIロボットだった?
>>: 20年後には、すべての仕事の半分が人工知能に置き換えられるのでしょうか?これらの「高リスク産業」とは何でしょうか?
[[361168]] IDCは2019年9月の時点で、2023年までに人工知能技術への支出が3倍以上...
[[221404]] 3月3日午後9時30分、全国人民代表大会の代表でテンセント会長の馬化騰氏が黒...
独自の人工知能システムを構築するにはどうすればよいでしょうか?多くのことと同様に、答えは「それは状況...
ブラウザに住むアーティストが開発した、ニューヨーク発のAIカメラアプリが人気を集めている。もしスティ...
概要2014年にWeChatが紅包機能を開始した後、多くの企業が独自の紅包機能の開発を開始しました。...
著者 | プリタム・ボルドロイ徐潔成編纂暗号通貨は死んだのか?この質問に対する答えは、誰が答えるかに...
データ分析は現代社会において常に重要なツールであり、本質を理解し、パターンを発見し、意思決定を導くの...
人工知能は、特にソフトウェア開発の効率性の向上において、ソフトウェア開発を改善・加速し、プロジェクト...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
アクセンチュアのアナリストは、2020 年に企業がより多くのイノベーションを獲得するのはクラウド プ...
平等な代表から AI 法制へ AI の倫理基準を改善するには、テクノロジーにおける平等な代表と、EU...
[[395002]] 01 人工知能の3つのピーク人工知能の発展は3つのピークを経験しました。最初...
大規模言語モデル (LLM) の推論には通常、かなり遅い推論プロセスである自己回帰サンプリングの使用...
さまざまなスマート電子製品の普及により、ほとんどの人が知能についてある程度理解するようになりました。...