データ詐欺師はどこにでもいる。いわゆる「万能薬」を暴く方法

この記事は公開アカウント「Reading Core Technique」（ID: AI_Discovery）から転載したものです。

データアナリスト、機械学習/人工知能エンジニア、統計学者、これらの肩書きは印象的でしょうか。しかし、騙されないように注意してください。高額な給与の誘惑に負けて、多くのデータ詐欺師が彼らの中に潜んでいます。これらの詐欺師は、法を遵守するデータ専門家の良い評判を台無しにします。

[[349988]]

データ詐欺師は、目立つ場所に隠れるのが非常に上手いので、会社内に隠れていることに気付かないかもしれません。しかし、幸いなことに、何を探せばよいかわかっていれば、簡単に見分けることができます。最初の手がかりは、分析と統計がまったく異なる分野であることを理解していないことです。

さまざまな分野

統計学者はデータを超えた内容を推測するように訓練され、アナリストはデータセット内の内容を調査するように訓練されます。つまり、アナリストはデータに含まれるものに基づいて結論を導き出し、統計学者はデータに含まれないものに基づいて結論を導き出します。アナリストは適切な質問（仮説生成）を行うのを手伝い、統計学者は適切な答え（仮説検定）を得るのを手伝います。

2 つのアイデンティティを持つ魔法の「ハイブリッド」も存在しますが、同時に両方の役割を演じることはありません。なぜでしょうか? データサイエンスの基本原則は、不確実性に対処する場合、仮説生成と仮説テストに同じデータポイントを使用できないということです。データが限られている場合、不確実性により統計と分析のどちらかを選択する必要があります。

統計がなければ、あなたが形成した意見が正しいかどうかを知る方法はありません。分析がなければ、手探りで進むことしかできず、未知の未知を把握することはほぼ不可能です。

難しい選択です！インスピレーション（分析）に目を向け、新しい発見が成り立つかどうかを知る満足感を諦めるか、それとも、（データなしでユーティリティルームで自分で考えた）自分が選んだ質問が、これから得られる厳密な答え（統計）に値するものであることを冷や汗をかきながら祈るか？

後知恵を売り物にする人々

詐欺師がこの状況から抜け出す方法は、それに目をつぶり、ポテトチップスがエルヴィスのように見えることに気づき、この事実に驚いたふりをすることです。 (統計的仮説検定の論理は、要するに次のようになります。データは私たちの考えを変えるほど驚かせるものでしょうか? すでにデータを見たことがあるのに、どうしてそれに驚かされるのでしょうか?)

あなたの意見では、写真の雲とポテトチップスはウサギのように見えますか、それともエルヴィスのように見えますか？それとも大統領のように見えますか？

詐欺師がパターンを発見し、それに触発されて、同じデータを同じパターンでテストし、1 つまたは 2 つの妥当な p 値で理論を確認する結果を生成する場合、詐欺師は実際にあなたを（そしておそらく自分自身をも）騙していることになります。データを見る前に仮説を確定しない限り、このような p 値は意味を持ちません。

詐欺師はアナリストや統計学者のやり方を、その理由をあまり理解せずに真似し、データサイエンスの分野全体に悪い評判を与えています。

真の統計学者は常に慎重に行動する

統計学者は厳密な推論に関して神秘的な評判を得ているため、データサイエンスの分野では「何でも屋」がかつてないほど多く登場しています。この欺瞞は、特に疑いを持たない被害者がそれがすべて方程式とデータに関するものだと考えている場合には、簡単には見破れません。データセットはデータセットですよね？違います。データセットをどのように使用するかによって異なります。

これらの詐欺師は皆、詐欺師の特徴を備えており、彼らを見つけるにはたった 1 つの手がかりだけが必要です。詐欺師は後知恵を持っています。つまり、データ内に存在することがすでにわかっている現象を数学を使って再発見するのに対し、統計学者は先見性のあるテストを提供します。

ペテン師とは異なり、優れたアナリストは心の広さの典型であり、観察された現象には複数の異なる説明があるかもしれないという注意と刺激的な洞察を常に組み合わせます。一方、優れた統計学者は慎重に決定を下します。

アナリストはインスピレーションをもたらす

アナリストはすべての責任を負っているわけではなく、データに含まれる内容に基づいて結論を導き出す責任があります。見たことのない物事について意見を述べたいのであれば、それは別の仕事です。彼らはアナリストの帽子を脱いで、統計学者のヘルメットをかぶるべきだ。結局のところ、正式な職名が何であれ、両方の業界でキャリアを積むことができないというルールはありません。必要に応じてそうすることができますが、混同しないでください。

詐欺師が仮説をテストする方法

統計が得意だからといって分析が得意というわけではありませんし、その逆もまた同様です。誰かが反対のことを言ったら、自分で考えてください。もしこの人が、あなたが研究したデータについて統計的な推論ができると言ったら、もう一度自分自身に問いかけてみてください。彼はおそらく嘘つきだ。

誇張された説明の背後に隠された

現実世界でデータ詐欺師を観察すると、彼らは観察したデータを「説明」するために派手な話をでっち上げるのが好きだということが分かるでしょう。話が学術的に聞こえるほど良いので、彼らは事後にデータに（過度に）当てはめることなど気にしません。

詐欺師がこんなことをするのは完全なるデタラメです。彼らがデータ以外の何かについて話していることを認識しているという証拠がないという事実は、どんな方程式や修辞法をもってしても埋め合わせることはできない。彼らの派手な説明に騙されないでください。統計的推論の場合は、データを見る前に慎重に判断を下さなければなりません。

これは、配られたカードを見て、手札にどんなカードがあるかを予測する「超能力」を披露するのと同じです...どんなカードを持っていても、彼らはそれを予測することができます。彼らの甘い言葉に備えてください。あなたの表情を見れば、あなたが握っている手が正確に分かります。これは後知恵バイアスであり、データサイエンスではどこにでも見られます。

アナリストは「これはあなたが今プレイしたダイヤのクイーンです」と言います。統計学者は「ゲームが始まる前に、この紙に仮説を書き留めました。さあ、始めてみましょう。データを観察し、私の仮説が正しいかどうか確認しましょう」と言います。嘘つきは「あなたがダイヤのクイーンをプレイするだろうと分かりました。なぜなら…」と言います。

機械学習は、「事前にこれを呼び出し続けて、結果を確認します。そして、それを繰り返します。効果的な戦略に合わせて応答を調整する場合があります。ただし、これをすべて手動で追跡するのは面倒なので、アルゴリズムを使用して実行します。」と言います。

あなたの生活から詐欺師をブロックする

処理するデータがあまり多くない場合は、統計と分析のどちらかを選択する必要があります。幸いなことに、大量のデータをお持ちの場合は、詐欺に遭うことなく独自の分析と統計を使用できる絶好の機会があります。また、「データアンバンドリング」と呼ばれる優れた計画で詐欺師から身を守ることもできます。これは、データサイエンスにおける最も強力なアイデアだと思います。

詐欺師から身を守るには、一部のテストデータが詐欺師の手の届かないところにあることを確認し、その他すべてを分析データとして扱うだけです。心から受け入れる可能性のある理論に直面したときに、これを使用して決定を下し、その後、秘密のテストデータをオンにして、その理論がでたらめであるかどうかを確認します。

人々が慣れ親しんでいた時代から、「スモールデータ」の時代へと文化的に大きな変化が起こり、自分が何かを知っているかもしれないと人々に簡単に納得させるためには、自分が何を知っているのかをどのようにして知ったのかを説明しなければなりません。

機械学習/AIについても同様です

機械学習/AI の専門家を装った詐欺師は簡単に見破られます。悪いエンジニアは、その見分け方ですぐにわかります。彼らは、出荷に失敗する「ソリューション」を繰り返し構築しようとします。 (早期の警告サインとしては、業界標準のプログラミング言語やライブラリの経験不足が挙げられます。)

しかし、うまく機能しているように見えるシステムを構築する人はどうでしょうか? 何かが怪しいかどうか、どうすればわかるでしょうか? ここでも同じ原則が当てはまります! 詐欺師は陰険で、モデルの作成に使用したデータを使用して、そのモデルがいかに優れているかを見せつけます。非常に複雑な機械学習システムを構築した場合、それが機能するかどうかをどうやって知るのでしょうか? これまでに見たことのない新しいデータで機能することを証明できない限り、知ることはできません。

細かく分析するのに十分なデータがある場合、プロジェクトを正当化するためにきちんとした公式を変更する必要はありません (これは、科学だけでなく、どこでも見られる古い習慣です)。

統計を取るか謙虚になるか

経済学者ポール・サミュエルソンの言葉を引用すると、「ペテン師たちは過去 5 回の景気後退のうち 9 回を正確に予測した」という。

私はデータ詐欺師に対して我慢できません。エルヴィスに似たポテトチップスを「知っている」としても、何の意味があるのでしょうか? あなたの意見がオリジナルの「ポテトチップス」と一致しているかどうかは誰も気にしません。どれだけ大袈裟な説明をされても、私は感動しません。このアイデアの本当のテストは、この理論/モデルが、これまでに見たことのない新しい「チップ」全体に適用できるかどうか（そして今後も適用し続けられるかどうか）を確認することです。

データサイエンスの専門家へのアドバイス

データサイエンスの専門家の皆さん、ここでのユーモアを理解している人たちに真剣に受け止めてもらいたいのであれば、個人的な偏見を裏付けるために複雑な方程式を使うのはやめてください。あなたが何を提供できるか見てみましょう。あなたの理論やモデルを「知っている」人々に、それを感動的な詩として見てもらいたいのであれば、ぜひ新しいデータセットを使った素晴らしいプレゼンテーションを行ってください。

リーダーへのアドバイス

リーダーは、データ関連の「洞察」が新しいデータに対してテストされていない限り、それを真剣に受け止めようとしません。労力をかけたくないですか? 分析に固執しますが、洞察に頼らないでください。洞察は不安定で、信頼性が確認されていません。

さらに、企業が大量のデータを保有している場合、データのセグメント化を科学文化の中核部分にし、統計専用のテストデータへのアクセスを制御することでインフラストラクチャに適用しても害はありません。これは「買い占め」を未然に防ぐ良い方法です。

データが小さすぎて分割できない場合、データ詐欺師だけがひらめきに厳密に従い、数学的手法を使用してデータ内に存在することがすでにわかっている現象を再発見し、驚くべき発見が統計的に有意であると宣言します。これが後知恵です。この点が、彼らを偏見のないアナリストや注意深い統計学者と区別するものです。

十分なデータがある場合は、データをセグメント化する習慣を身につけ、元のデータパイルのさまざまなサブセットを個別に分析してカウントするようにしてください。こうすれば、詐欺に遭うことなく二重のメリットが得られます!

<<: バッチ正規化の呪い

>>: 顔認識がまた失敗しました。アクセス制御システムは引き続き使用できますか?

左手にビッグデータ、右手に人工知能。これらのプログラマーは、パンデミック中に何をしたのでしょうか?

データ詐欺師はどこにでもいる。いわゆる「万能薬」を暴く方法

左手にビッグデータ、右手に人工知能。これらのプログラマーは、パンデミック中に何をしたのでしょうか?

嫌がらせ電話をかけてきた相手は実はAIロボットだった？

試験形式がAIベースになったとき、「AI+教育」の関係をどうバランスさせるのか？

オンラインショッピングデータに基づくスマートドアロック「ショッピングガイド」

ソフトウェア開発における人工知能: 自動化と最適化

人工知能は正面の顔に基づいて複数の横顔を生成し、生成的敵対ネットワークを使用して多角度の側面顔を生成します。

「電子ミバエ」がマスク氏を警戒させた！その背後には、コンピューターで実行できる13万個のニューロンからなる脳全体の地図がある。

推薦する

具現化された知能の新時代！ VLAは、UIナビゲーションとロボット操作を備えた最強の基本モデルMagmaを歓迎します

ChatGPT が突然大きなバグを発見しました!フル機能のGPT-4は無料で使用でき、ネットユーザーは大喜びしている

2020年職場のAIスキルランキング：TensorFlowが人気上昇、Pythonが最も人気、マーケティング部門も学習中

2024 年に向けた 6 つの生成 AI 予測

テンセントクラウドのフルリンクAI開発者サービスシステムがAIと産業の融合を加速

人工知能は地球規模の気候危機に対処するために何ができるでしょうか?

大手モデルサークルは「GPU が貧弱」について熱く議論している。Google の計算能力は他のすべての企業を合わせたよりも高いことが明らかになり、スタートアップに打撃を与えている。

アリババDAMOアカデミーが新しいオープンソースフレームワークを開設：プライバシー保護コンピューティングの分野に参入し、フェデレーテッドラーニングが大手プレーヤーを迎える

Googleの研究ディレクターはスタンフォード大学で教鞭をとり、「人工知能：現代的アプローチ」の著者でもある。

米国の改正規則：自動運転車は人間の制御を必要としない

ハンドルとペダルがない？アップルは2025年までに自動運転車を発売する予定