機械学習のパフォーマンスを最適化するために必要な 6 つの指標

機械学習のパフォーマンスを最適化するために必要な 6 つの指標

実行している機械学習の種類に応じて、モデルのパフォーマンスを測定するために使用できるメトリックは多数あります。 この記事では、分類モデルと回帰モデルのパフォーマンス メトリックを確認し、どのメトリックをより最適化できるかについて説明します。 最初に解決しようとしている問題に応じて、確認する指標が異なる場合があります。

機械学習メトリクスの例

分類問題の最適化

分類表の例

1. 真陽性(リコール)

真陽性率 (リコールとも呼ばれる) は、バイナリ/非バイナリ分類問題で推奨されるパフォーマンス メトリックです。 ほとんどの場合 (常にではないにしても)、1 つのクラスを正しく予測することにのみ関心があります。 たとえば、糖尿病を予測する場合、ある人が糖尿病ではないことを予測するよりも、糖尿病であるかどうかを予測することに重点を置くことになります。 この場合、陽性クラスは「この人は糖尿病です」、陰性クラスは「この人は糖尿病ではありません」です。 これは単に陽性クラスを予測する精度です(これは精度パフォーマンスの指標ではありません。詳細については、以下の 4 番を参照してください)。

2. ROC曲線(受信者動作特性曲線)

ROC 曲線は、さまざまなしきい値 (特定のクラスに分類される可能性) での分類モデルのパフォーマンスを示します。 真陽性率と偽陽性率をプロットします。 しきい値を下げると、偽陽性率が犠牲になって真陽性率が上がり、逆もまた同様です。

3. AUC(曲線下面積)

AUC は「ROC 曲線の下の領域」とも呼ばれます。 簡単に言えば、AUC は正しい分類の可能性を示します。 AUC が高いほど、モデルが優れていることを示します。

4. 正確性

デフォルトでは、正確さが最初に注意を払うべき点です。 しかし、真のデータ サイエンティストは、正確さが誤解を招く可能性があることを知っています。 より良い言い方は、すべてのクラスを予測する平均精度です。 True Stats Rate で述べたように、これは最も理想的な指標です。 精度は、真陽性と真陰性の合計の平均として算出されます。 不均衡な分類問題では、ほとんどの場合、負のクラスが正のクラスよりも多く表されるため、真陰性率が高くなる可能性が高くなります。 そうすると、精度は、誰にとっても興味のない、ネガティブなクラスの正確な予測に偏ることになります。

機械学習における回帰最適化

回帰プロットの例

5. エラー

エラーは R の次に見落とされることが多く、回帰直線に対する適合値の精度(つまり、適合値と良好な適合直線の間の平均距離)について詳しく教えてくれます。 これは、モデルの信頼区間と予測区間を計算するときに特に重要です。 応答変数の自然単位を使用するため、解釈が容易になります。一方、R には単位がなく、0 から 1 の間のみです。

誤差には、平均絶対誤差や二乗平均平方根誤差など、さまざまな種類があります。各エラーにはそれぞれ長所と短所があり、モデルを評価するには個別に処理する必要があります。

6. R2

現在、「標準誤差」は重要ですが、R は優れた回帰モデルの事実上の尺度となっています。 これは、モデルが従属変数と独立変数の間の分散を説明していることを示しています。 R が高いほどモデルは良くなりますが、高すぎると (99% に近いと)、過剰適合のリスクが生じることがあります。 相関関係と因果関係の議論により、R が不合理に高い値になる可能性があるため、R は誤解を招く可能性があります。

ユーザーの目標はモデルのパフォーマンスに影響を与えるので、慎重に選択してください。

分類問題では精度が必ずしも良い指標とは限らず、R は回帰には最適ではない可能性があります。 これらは、特に技術に詳しくない利害関係者にとって、間違いなく最も理解しやすいものです (これが、そもそもモデルを構築する最大の理由かもしれません)。 より良いアプローチとしては、さまざまなパフォーマンス メトリックを考慮し、最初の目標について考えることが考えられます。 モデルのパフォーマンスは常にユーザーの目標によって決まります。 ある人の観点から見るとパフォーマンスが悪いと思われても、別の人にとってはそうではないかもしれません。

<<:  人工知能の主な発展とその原動力

>>:  ML プロジェクトを実行するときに、タスクが多数あり、些細な場合はどうすればよいでしょうか?このセルフチェックリストはあなたの心を整理するのに役立ちます

ブログ    
ブログ    

推薦する

...

生成 AI、その開発は持続可能か?

シャム・ナンダン・ウパディヤイノアが編集制作:51CTO テクノロジースタック(WeChat ID:...

AIが産業のデジタル変革をどのように促進するか

多くの産業企業は実際に必要な量よりも多くのデータを保有していますが、人工知能への取り組みは期待を下回...

Facebook、AIが著作権侵害を正確に識別できるようにソースデータ拡張ライブラリを公開: 100以上の拡張方法が提供される

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

PyTorch を使って完全な NeRF をゼロから構築する

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

キャラクター AI は私たちのやり取りの方法をどのように変えるのでしょうか?

Persona AI は、人々がチャットボットと対話する方法に革命をもたらします。ニューラル言語モ...

...

清華大学、DeepMindなどは、既存の小サンプル学習法は安定的かつ効果的ではないと指摘し、評価フレームワークを提案した。

評価基準の違いにより、統一基準に基づく既存の小規模学習法の公平な比較が大きく妨げられており、この分野...

...

MSRAがACM TOMM 2017最優秀論文賞を受賞: 複雑でプロフェッショナルなグラフィックデザイン作業をAIに任せよう

豊富な写真と美しいレイアウトで記事を作成、編集する方法に悩んだことはありませんか?あるいは、芸術的な...

ソゴウ・チャン・ボー:インテリジェントな運用とメンテナンスは代替ではなくアップグレードです

[51CTO.com オリジナル記事] 「初夏、あなたはついに貴重な年次休暇を楽しむ機会を得ました。...

人工知能は職場のつながりとコラボレーションを変革できる

世界の人工知能(AI)市場は2027年までに2,670億ドルに達すると予想されています。しかし、テク...

ケンブリッジ大学チームは約50年後に初めて量子スピン液体を検出し、その研究はサイエンス誌に掲載された。

[[439547]]一部の研究者は、量子コンピューターがいつの日かデジタル暗号の解読や薬剤の設計な...

大規模モデルにおける幻覚軽減技術の包括的調査

大規模言語モデル (LLM) は、多数のパラメーターとデータを備えたディープ ニューラル ネットワー...

ラスベガスの「チャイナナイト」:中国の人工知能が外国人に人生への疑問を抱かせ始める!

CES は世界最大かつ最も影響力のある消費者向け電子機器展示会です。米国時間1月8日、ラスベガスで...