この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。 データ アナリスト、機械学習/人工知能エンジニア、統計学者、これらの肩書きは印象的でしょうか。しかし、騙されないように注意してください。高額な給与の誘惑に負けて、多くのデータ詐欺師が彼らの中に潜んでいます。これらの詐欺師は、法を遵守するデータ専門家の良い評判を台無しにします。
データ詐欺師は、目立つ場所に隠れるのが非常に上手いので、会社内に隠れていることに気付かないかもしれません。しかし、幸いなことに、何を探せばよいかわかっていれば、簡単に見分けることができます。最初の手がかりは、分析と統計がまったく異なる分野であることを理解していないことです。 さまざまな分野 統計学者はデータを超えた内容を推測するように訓練され、アナリストはデータセット内の内容を調査するように訓練されます。つまり、アナリストはデータに含まれるものに基づいて結論を導き出し、統計学者はデータに含まれないものに基づいて結論を導き出します。アナリストは適切な質問(仮説生成)を行うのを手伝い、統計学者は適切な答え(仮説検定)を得るのを手伝います。 2 つのアイデンティティを持つ魔法の「ハイブリッド」も存在しますが、同時に両方の役割を演じることはありません。なぜでしょうか? データ サイエンスの基本原則は、不確実性に対処する場合、仮説生成と仮説テストに同じデータ ポイントを使用できないということです。データが限られている場合、不確実性により統計と分析のどちらかを選択する必要があります。 統計がなければ、あなたが形成した意見が正しいかどうかを知る方法はありません。分析がなければ、手探りで進むことしかできず、未知の未知を把握することはほぼ不可能です。 難しい選択です!インスピレーション(分析)に目を向け、新しい発見が成り立つかどうかを知る満足感を諦めるか、それとも、(データなしでユーティリティ ルームで自分で考えた)自分が選んだ質問が、これから得られる厳密な答え(統計)に値するものであることを冷や汗をかきながら祈るか? 後知恵を売り物にする人々 詐欺師がこの状況から抜け出す方法は、それに目をつぶり、ポテトチップスがエルヴィスのように見えることに気づき、この事実に驚いたふりをすることです。 (統計的仮説検定の論理は、要するに次のようになります。データは私たちの考えを変えるほど驚かせるものでしょうか? すでにデータを見たことがあるのに、どうしてそれに驚かされるのでしょうか?) あなたの意見では、写真の雲とポテトチップスはウサギのように見えますか、それともエルヴィスのように見えますか? それとも大統領のように見えますか? 詐欺師がパターンを発見し、それに触発されて、同じデータを同じパターンでテストし、1 つまたは 2 つの妥当な p 値で理論を確認する結果を生成する場合、詐欺師は実際にあなたを(そしておそらく自分自身をも)騙していることになります。データを見る前に仮説を確定しない限り、このような p 値は意味を持ちません。 詐欺師はアナリストや統計学者のやり方を、その理由をあまり理解せずに真似し、データサイエンスの分野全体に悪い評判を与えています。 真の統計学者は常に慎重に行動する 統計学者は厳密な推論に関して神秘的な評判を得ているため、データサイエンスの分野では「何でも屋」がかつてないほど多く登場しています。この欺瞞は、特に疑いを持たない被害者がそれがすべて方程式とデータに関するものだと考えている場合には、簡単には見破れません。データセットはデータセットですよね?違います。データセットをどのように使用するかによって異なります。 これらの詐欺師は皆、詐欺師の特徴を備えており、彼らを見つけるにはたった 1 つの手がかりだけが必要です。詐欺師は後知恵を持っています。つまり、データ内に存在することがすでにわかっている現象を数学を使って再発見するのに対し、統計学者は先見性のあるテストを提供します。 ペテン師とは異なり、優れたアナリストは心の広さの典型であり、観察された現象には複数の異なる説明があるかもしれないという注意と刺激的な洞察を常に組み合わせます。一方、優れた統計学者は慎重に決定を下します。 アナリストはインスピレーションをもたらす アナリストはすべての責任を負っているわけではなく、データに含まれる内容に基づいて結論を導き出す責任があります。見たことのない物事について意見を述べたいのであれば、それは別の仕事です。彼らはアナリストの帽子を脱いで、統計学者のヘルメットをかぶるべきだ。結局のところ、正式な職名が何であれ、両方の業界でキャリアを積むことができないというルールはありません。必要に応じてそうすることができますが、混同しないでください。 詐欺師が仮説をテストする方法 統計が得意だからといって分析が得意というわけではありませんし、その逆もまた同様です。誰かが反対のことを言ったら、自分で考えてください。もしこの人が、あなたが研究したデータについて統計的な推論ができると言ったら、もう一度自分自身に問いかけてみてください。彼はおそらく嘘つきだ。 誇張された説明の背後に隠された 現実世界でデータ詐欺師を観察すると、彼らは観察したデータを「説明」するために派手な話をでっち上げるのが好きだということが分かるでしょう。話が学術的に聞こえるほど良いので、彼らは事後にデータに(過度に)当てはめることなど気にしません。 詐欺師がこんなことをするのは完全なるデタラメです。彼らがデータ以外の何かについて話していることを認識しているという証拠がないという事実は、どんな方程式や修辞法をもってしても埋め合わせることはできない。彼らの派手な説明に騙されないでください。統計的推論の場合は、データを見る前に慎重に判断を下さなければなりません。 これは、配られたカードを見て、手札にどんなカードがあるかを予測する「超能力」を披露するのと同じです...どんなカードを持っていても、彼らはそれを予測することができます。彼らの甘い言葉に備えてください。あなたの表情を見れば、あなたが握っている手が正確に分かります。これは後知恵バイアスであり、データ サイエンスではどこにでも見られます。 アナリストは「これはあなたが今プレイしたダイヤのクイーンです」と言います。統計学者は「ゲームが始まる前に、この紙に仮説を書き留めました。さあ、始めてみましょう。データを観察し、私の仮説が正しいかどうか確認しましょう」と言います。嘘つきは「あなたがダイヤのクイーンをプレイするだろうと分かりました。なぜなら…」と言います。 機械学習は、「事前にこれを呼び出し続けて、結果を確認します。そして、それを繰り返します。効果的な戦略に合わせて応答を調整する場合があります。ただし、これをすべて手動で追跡するのは面倒なので、アルゴリズムを使用して実行します。」と言います。 あなたの生活から詐欺師をブロックする 処理するデータがあまり多くない場合は、統計と分析のどちらかを選択する必要があります。幸いなことに、大量のデータをお持ちの場合は、詐欺に遭うことなく独自の分析と統計を使用できる絶好の機会があります。また、「データ アンバンドリング」と呼ばれる優れた計画で詐欺師から身を守ることもできます。これは、データ サイエンスにおける最も強力なアイデアだと思います。 詐欺師から身を守るには、一部のテスト データが詐欺師の手の届かないところにあることを確認し、その他すべてを分析データとして扱うだけです。心から受け入れる可能性のある理論に直面したときに、これを使用して決定を下し、その後、秘密のテスト データをオンにして、その理論がでたらめであるかどうかを確認します。 人々が慣れ親しんでいた時代から、「スモール データ」の時代へと文化的に大きな変化が起こり、自分が何かを知っているかもしれないと人々に簡単に納得させるためには、自分が何を知っているのかをどのようにして知ったのかを説明しなければなりません。 機械学習/AIについても同様です 機械学習/AI の専門家を装った詐欺師は簡単に見破られます。悪いエンジニアは、その見分け方ですぐにわかります。彼らは、出荷に失敗する「ソリューション」を繰り返し構築しようとします。 (早期の警告サインとしては、業界標準のプログラミング言語やライブラリの経験不足が挙げられます。) しかし、うまく機能しているように見えるシステムを構築する人はどうでしょうか? 何かが怪しいかどうか、どうすればわかるでしょうか? ここでも同じ原則が当てはまります! 詐欺師は陰険で、モデルの作成に使用したデータを使用して、そのモデルがいかに優れているかを見せつけます。非常に複雑な機械学習システムを構築した場合、それが機能するかどうかをどうやって知るのでしょうか? これまでに見たことのない新しいデータで機能することを証明できない限り、知ることはできません。 細かく分析するのに十分なデータがある場合、プロジェクトを正当化するためにきちんとした公式を変更する必要はありません (これは、科学だけでなく、どこでも見られる古い習慣です)。 統計を取るか謙虚になるか 経済学者ポール・サミュエルソンの言葉を引用すると、「ペテン師たちは過去 5 回の景気後退のうち 9 回を正確に予測した」という。 私はデータ詐欺師に対して我慢できません。エルヴィスに似たポテトチップスを「知っている」としても、何の意味があるのでしょうか? あなたの意見がオリジナルの「ポテトチップス」と一致しているかどうかは誰も気にしません。どれだけ大袈裟な説明をされても、私は感動しません。このアイデアの本当のテストは、この理論/モデルが、これまでに見たことのない新しい「チップ」全体に適用できるかどうか(そして今後も適用し続けられるかどうか)を確認することです。 データサイエンスの専門家へのアドバイス データ サイエンスの専門家の皆さん、ここでのユーモアを理解している人たちに真剣に受け止めてもらいたいのであれば、個人的な偏見を裏付けるために複雑な方程式を使うのはやめてください。あなたが何を提供できるか見てみましょう。あなたの理論やモデルを「知っている」人々に、それを感動的な詩として見てもらいたいのであれば、ぜひ新しいデータセットを使った素晴らしいプレゼンテーションを行ってください。 リーダーへのアドバイス リーダーは、データ関連の「洞察」が新しいデータに対してテストされていない限り、それを真剣に受け止めようとしません。労力をかけたくないですか? 分析に固執しますが、洞察に頼らないでください。洞察は不安定で、信頼性が確認されていません。 さらに、企業が大量のデータを保有している場合、データのセグメント化を科学文化の中核部分にし、統計専用のテスト データへのアクセスを制御することでインフラストラクチャに適用しても害はありません。これは「買い占め」を未然に防ぐ良い方法です。 データが小さすぎて分割できない場合、データ詐欺師だけがひらめきに厳密に従い、数学的手法を使用してデータ内に存在することがすでにわかっている現象を再発見し、驚くべき発見が統計的に有意であると宣言します。これが後知恵です。この点が、彼らを偏見のないアナリストや注意深い統計学者と区別するものです。 十分なデータがある場合は、データをセグメント化する習慣を身につけ、元のデータ パイルのさまざまなサブセットを個別に分析してカウントするようにしてください。こうすれば、詐欺に遭うことなく二重のメリットが得られます! |
>>: 顔認識がまた失敗しました。アクセス制御システムは引き続き使用できますか?
既存の大規模言語モデル、画像生成モデルなどは、少数のモーダルデータに対してのみ動作し、人間のように物...
11月15日、OpenAIは突然、ChatGPT Plusの新規ユーザー登録を停止すると発表しました...
2020年まで残り1ヶ月となりました。最近、オンライン教育ウェブサイトのUdemyは、受講生のコース...
アナリストの Mike Leone 氏は、オープンソースから規制の変化まで、生成 AI の今後を予測...
12月15日、第1回テンセントクラウド+コミュニティ開発者会議で、テンセントクラウドの副社長である王...
インフレは世界的な問題であり、気候変動によって悪化しています。これは、異常気象の頻度と深刻度が増した...
ある夜、目が覚めると、大手モデルサークルが「GPU-Poor」という言葉について熱く議論しているのに...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
スタンフォード大学は10月11日、Googleリサーチディレクターのピーター・ノーヴィグ氏がスタンフ...
米道路交通安全局(NHTSA)は木曜日、自動運転車メーカーに対し、衝突基準を満たすために完全自動運転...
スペインの新聞「ヴァングアルディア」によると、アップルは2025年にハンドルもペダルもない自動車を発...