AIと機械学習の詐欺を見抜くための7つの原則

この記事は、公開アカウント「Reading the Core」（ID: AI_Discovery）から転載したものです。

「AI」や「機械学習」が新しいホットワードとして登場したため、ビジネスリーダー、起業家、エンジェル投資家、中間管理職、ハッカソン審査員、または「テクノロジー」関連の人であっても、誰かが「AI製品」、「機械学習ソフトウェア」、またはその他の流行語の派手な組み合わせを「販売」しようとするという状況に直面する可能性があります。

このような状況に陥った場合、正しい判断を下すための専門知識が足りないと感じることがあるかもしれません。

自分の立場を守り、恐れないでください。次の 7 つの常識的なヒントは、シグナルをキャッチし、レトリックを見抜き、詐欺や嘘を見抜くのに役立ちます。

[[330730]]

1. 「私たちは AI を使って…」

アインシュタインは「何かを簡単に説明できないなら、十分に理解していないということだ」と言いました。

誰かが「AI」という包括的な概念について話す場合は注意してください。それは派手な売り込みである可能性があります。もちろん、顧客を怒らせないように、苦痛で複雑な詳細を省略した可能性もあります。

疑わしい点はそのまま受け入れて、さらに深く掘り下げて、どの機械学習モデルが使用されたのかを詳しく知り、類推しながら説明してもらいます。

次のような質問をすることができます。

他のオプションではなくこのオプションを選択する理由は何ですか?
このデータに対してこのソリューションが他のソリューションよりも優れているのはなぜですか?
同様の問題を解決した人はいますか? もしそうなら、どのようなアプローチをとりましたか?
他のアプローチ（モデル/アルゴリズム/テクニック）を試しましたか？結果は現在のソリューションとどう違うのですか？（可能であれば、証拠としてチャートを提供してください）

最初からすべての答えを知る必要はありませんが、できるだけ明確にするために質問する必要があります。類推で説明できない機械学習の概念にはまだ出会ったことがありません。したがって、あまりにも多くの技術的な詳細について話すのが難しすぎると思われる場合は、さらに説明を求めてください。このような注意深いレビューは、理解を深めるだけでなく、プログラムの背後にある考え方を示すことにもなります。

2. ゴミを入れればゴミが出る

[[330731]]

画像出典: https://media.tenor.com

「神以外では、私は（良い）データだけを信頼します。」 — エドワーズ・デミング

高品質のデータがあればこそ、優れたモデルが得られます。したがって、機械学習モデルのトレーニングに使用するデータの品質を検証する必要があります。「品質」を定義するのは難しいですが、トレーニングデータの品質を把握する簡単な方法は、次の質問をすることです。トレーニングデータは、モデルが「現実世界」で処理するデータとどの程度類似し、代表的であるか。

機械学習モデルがいかに優れていて最先端のものであっても、トレーニングに使用されるデータの質が低ければ、結果は非常に悪いものになります。

3. 適者生存

1990 年代から 2000 年代初頭にかけて、電子メールの受信トレイのスパムフィルターは、スペルの誤りやその他の兆候を探し、迷惑メールを自動的にスパムフォルダーに振り分けていました。

最近、スパマーはより賢くなり、スパムを検出することがより困難になっています。今日の電子メールサービスプロバイダーは、この傾向に適応し、スパムを正確に識別するために、より高度な機械学習モデルを採用する必要があります。

[[330732]]

画像ソース: unsplash

私たちが理解しなければならないことの 1 つは、時代が変わり、入力データが反復されるときに、機械学習モデルを新しいデータで再トレーニングしたり、障害なくより優れたモデルに置き換えたりできるかどうかです。顧客が購入したプランに「有効期限」があるかどうかを知ることは重要です。

4. 正しい基準で正しいものを測定する

[[330733]]

画像ソース: unsplash

精度は、機械学習モデルの分類パフォーマンスを測定するための非常に一般的な指標です。たとえば、猫と犬の写真を分類する機械学習モデルの場合、96% の精度は優れています。これは、猫と犬の写真 100 枚のうち、モデルが 96 枚を正しく推測できたことを意味します。

ここで、銀行が不正取引の特定に同じ基準を適用するとします。不正取引は非常にまれであるため、不正検出機能は簡単に 96% の精度を達成できます。しかし、不正取引を特定するには、96%を正しく特定するだけでは不十分です。むしろ、誤り率を減らす必要があります。不正取引の4%を誤認すると、大きな損害が発生します。

銀行詐欺の例では、偽陰性率の方が精度率よりもモデルのパフォーマンスを示す指標として優れています。さまざまな問題の要件に応じて、精度の代わりに、精度、再現率、特異度、F1 値などの他の基準を使用できます。適切な指標を使用しているか注意し、可能であれば複数の指標を使用する必要があります。

5. もっと、もっと、もっと！

一般的に言えば、他の条件が同じであれば、トレーニングに利用できるデータが多いほど、特にディープラーニングモデルの場合、モデルのパフォーマンスは向上します。それは、SAT の準備をしている高校生のようなものです。たくさん練習し、さまざまな問題を練習すれば、SAT で良い成績を収められる可能性が高くなります。

[[330734]]

画像ソース: unsplash

（十分な）データを得る前に理論を立てるのは大きな間違いです。あらゆる機械学習モデルにトレーニングに十分なデータがあることを確認することが重要です。どのくらいのデータがあれば十分でしょうか? 多ければ多いほど良いです! 理想的には、データは信頼できるソースから取得し、最大限に活用する必要があります。

6. 説明可能性

機械学習では、優れたモデルパフォーマンスを目指すことと、特にパフォーマンスの低いモデルの場合、モデル操作を簡潔に説明できることの間でバランスを取ることがよくあります。一般的に言えば、複雑なデータの場合、モデルが洗練され複雑であればあるほど、より良い結果が得られます。ただし、これらのモデルはより複雑であるため、入力データが出力結果に与える影響を説明することはより困難です。

たとえば、非常に複雑な機械学習モデルを使用して製品の販売量を予測するとします。モデルに入力されるデータは、テレビ、新聞、ラジオの広告費です。この複雑なモデルは非常に正確な売上予測を提供できますが、テレビ、ラジオ、新聞の 3 つのプロモーションチャネルのうちどれが売上に最も大きな影響を与えるか、またどれに投資する価値があるかを説明することはできません。

一方、より単純なモデルはそれほど正確ではないかもしれませんが、どのチャネルに投資する価値があるかを説明できる可能性があります。顧客は、モデルのパフォーマンスと解釈可能性のバランスに注意する必要があります。これは、解釈可能性とパフォーマンスのバランスをどのように取るかは目的によって異なるため、モデルを使用する人がその決定を下す必要があるため重要です。

7. それで…あなたの長所と短所は何ですか?

画像出典: https://i2.wp.com

これは企業の面接でよく聞かれる質問です。長所と短所に関する質問は、機械学習ソリューションを評価する際に非常に役立ちます。誰かが機械学習ソリューションを推奨した場合は、その制限について必ず尋ねてください。