データサイエンスにおける強力な思考

データサイエンスにおける強力な思考

統計学の入門コースを受講したことがあるなら、データ ポイントは理論を刺激したりテストしたりするために使用できますが、両方に使用することはできないことをご存知でしょう。それはなぜでしょうか。

[[274975]]

図1

人間はあらゆるものの中にパターンを見つけるのが得意です。 真モード、偽モード、名前付きモード。 私たちはポテトチップスにエルヴィスの顔を見つけることができるような生き物です。 パターンと洞察を同一視する傾向がある場合は、データ パターンには次の 3 種類があることを覚えておいてください。

  1. データセット内外に存在するパターン/事実
  2. データセットにのみ存在するパターン/事実
  3. 想像の中にのみ存在するパターン/事実

図2: データパターンは(1)サンプル全体に存在するか、(3)xkcdのみに存在する可能性がある

データ内のパターンは、(1) 関心対象の集団全体に存在する場合もあれば、(2) サンプルのみに存在する場合もあれば、(3) 自分の頭の中だけに存在する場合もあります。

どちらがより便利であるかは、あなたの目標によって異なります。

1. インスピレーションを求める

純粋なインスピレーションを求めているなら、これらはすべて非常に適しています。アポフェニア(無関係なものの間に誤ってつながりや意味を知覚する人間の傾向)という用語のアポフェニーの風変わりな定義でさえ、あなたの創造性を刺激することができます。 創造性には決まった答えはありません。必要なのは、データを見て楽しむことだけです。 創造性はボーナスです。プロセスであまり時間を無駄にしないようにしてください。

2. 事実に忠実であること

政府があなたに課税したいとき、あなたの財務データ以外の年間のパターンについては気にしません。 事実に基づいた決定とは、借金の状況を確認し、昨年のデータを分析して、取るべきアプローチを決定することです。負債額については事実に基づいて判断されますが、その判断を行う方法は昨年のデータを分析することです。つまり、データを見て、数式を使用して評価します。手元にあるデータに対して記述統計を実行するだけで済みます。最初の 2 つのモードでは、これが非常にうまく実行されます。

3. 不確実な状況での意思決定

テンセントビデオ:統計的思考-1-統計データとは何か

ユーチューブ: https://youtu.be/OJt-k9h9pmk

時には、理想と現実の間にギャップが生じます。決定を下すために必要なすべての情報が揃っていない場合は、不確実な状況の中で方向性を見つけ、合理的な行動方針を選択する必要があります。

それが統計学であり、不確実性についての考え方を変える科学です。その目的は、欠点に遭遇したときに突然終了するのではなく、知識の限界を打ち破るイカロスのような飛躍を生み出すことです。

これがデータサイエンスの中心的な課題です。不十分なデータにどう対処するかということです。

崖のような障害物を離れる前に、現実で使用できるモデルがそれを突破できることを当然期待するでしょう。言い換えれば、パターンが本当に役立つためには、汎用的でなければなりません。

図3: 出典: xkcd

3 つのタイプのうち、不確実な状況で意思決定を行う場合、最初の (一般化可能な) モデルのみが安全です。 残念ながら、データには他の種類のパターンも見つかります。これがデータ サイエンスの中心的な問題、つまりデータが十分でない状況にどのように対処するかという問題です。

4. 一般化

データから無駄なパターンを抽出するのは純粋に人間の仕事だと考えているなら、それは間違いです。注意しないと、機械があなたに代わって同じ愚かなことを自動的に行うようになります。

ML/AI の重要な点は、発生する新しい状況について正しい一般化を行うことです。

機械学習は、アルゴリズムでデータ内のパターンを見つけ、そのパターンを使用してまったく新しいデータに対して適切な決定を下すことによって、多くの類似した決定を下す方法です。 ML/AI の用語では、一般化とは、モデルがこれまでに見たことのないデータに対してどれだけうまく機能するかを指します。 パターンベースのアプローチが古いデータでしか機能しないのであれば、何の役に立つでしょうか? ML/AI の重要な点は、発生する新しい状況に一般化できることです。

図4

そのため、リストの最初のパターンだけが機械学習に適しています。これは信号の一部であり、残りは単なるノイズです(古いデータにのみ存在し、モデルの一般化を妨げるもの)。

  • シグナル: データセット内およびデータセット外に存在するパターン。
  • ノイズ: データセット内にのみ存在するパターン。

実際、機械学習では、「オーバーフィッティング」とは、新しいデータよりも元のノイズに対してより適切に機能するソリューションを取得することを指します。機械学習で私たちが行うことのほとんどすべては、過剰適合を避けることです。

5. 適切なモデルを見つける

あなた (またはあなたのマシン) がデータから想像を絶するパターンを抽出したと仮定すると、それはどのようなパターンでしょうか? それは、関心のあるオブジェクトに存在する実際の現象 (「信号」) でしょうか、それとも現在のデータセットの特異性 (「ノイズ」) でしょうか。データセットにアクセスしたときにどのようなパターンが見つかったかをどのように判断できますか?

利用可能なすべてのデータを調べても行き詰まり、パターンが他の場所に存在するかどうかがわかりません。統計的仮説検定に対する分析アプローチは、発生する予期しない状況に依存し、データ内の既存のパターンから発生する可能性のある予期しない状況をシミュレートした結果は大きく異なる可能性があります。

[[274978]]

図5

これは、雲の中にウサギの形を見つけて、同じ雲を使ってすべての雲がウサギのように見えるかどうかをテストするようなものです。あなたの理論をテストするために、いくつかの新しい雲が必要になることを願っています。

  • 理論や疑問を裏付けるために使われたデータポイントは、同じ理論を検証するために使うことはできない。
  • データを見る前に質問する
  • 数学は常識に対する対抗手段になったことは一度もない。

ここで結論に達しました。 インスピレーションを求めてデータセットを使い果たした場合、そのデータセットを使ってインスピレーションの元となった理論を厳密にテストすることはできなくなります (数学をどれだけうまく使っても、それが基本的な常識に反することは決してありません)。

6. 難しい選択をする

つまり、選択する必要があるということです。データセットが 1 つしかない場合は、自分自身に「十分に考え、すべての統計的仮説検定を設定し、慎重かつ厳密なアプローチを取ったか、それともインスピレーションを得るためにデータをマイニングしただけか」と問いかける必要があります。

ここでの問題は、データセットが 1 つしかなく、複数必要になることです。データが大量にある場合は、ハッカー攻撃をシミュレートして、あなたの思考を混乱させます。

[[274979]]

図6

7. ユニークなテクニック

データ サイエンスで優れた成果を上げるには、データを分割して 1 つのデータセットを (少なくとも) 2 つのデータセットに変換するだけで済みます。次に、1 つをインスピレーションに使用し、もう 1 つを厳密なテストに使用します。最初にインスピレーションを与えたパターンが、あなたの意見に影響を与える可能性がなかったデータにも存在する場合、それはより有望な選択肢となるでしょう。そのパターンは、あなたがデータを掘り出そうとしている猫砂の中の物質のようなものです。

両方のデータセットに同じ現象が存在する場合、それはおそらくこれらのデータセットのどこにでも存在する普遍的な現象です。

8. 素晴らしい

吟味されない人生に生きる価値がないなら、次の 4 つの言葉が生きるためのルールになります。「データを細かく分析する」

誰もがデータを共有すれば、世界はより良い場所になるでしょう。より良い質問(分析から)に対して、より良い答え(統計から)が得られるようになります。人々がデータ分割を必須の習慣にしない唯一の理由は、前世紀にはそれがほとんどの人にとって手の届かない贅沢だったからです。データセットは非常に小さかったため、分割しようとするとおそらく何も残らないでしょう。 (データサイエンスの歴史について詳しくは、こちらをご覧ください。)

図7

データを、誰もがインスピレーションを得るために掘り下げることができる探索データセットと、探索フェーズで発見された「洞察」を専門家が厳密に確認するために後で使用できるテスト データセットに分割します。

データを分割する習慣を身につけなければ、20 世紀に留まってしまうかもしれません。

大量のデータがあるのにセグメント化されていないデータセットを見ている場合、ボトルネックは古い観点によるものである可能性があります。誰もが古い考え方に慣れすぎていて、時代の変化についていくことを忘れています。

9. 機械学習はデータの断片化の産物である

結局のところ、ここでの考え方は単純です。 1 つのデータセットを使用して理論を形成し、順序を定め、それを実行し始めることで、まったく新しいデータセットで自分が何について話しているかを理解していることを証明します。

データ セグメンテーションは、より健全なデータ文化を実現するための最もシンプルで迅速なソリューションです。

これは、統計で安全を保つ方法であり、過剰適合した ML/AI によって食い尽くされるのを避ける方法です。 実際、機械学習の歴史はデータの断片化の歴史です。

10. データサイエンスにおける最良のアイデアの適用方法

データ サイエンスの最高のアイデアを活用するには、一部のテスト データを詮索好きな人の手の届かない場所に保管し、残りのデータを完全に分析するだけです。

データ サイエンスで勝つには、データを分割して 1 つのデータセットを (少なくとも) 2 つに変換するだけです。

調査した情報を超えて実用的な洞察を提供していると思われる場合は、秘密のテスト データを使用して結論を​​確認します。 とても簡単です!

概要:データ サイエンスには、強力な論理的思考、時代の流れに遅れない洞察力、そして一連の干渉情報を破棄する勇気と注意が必要です。機械でさえ、人間の脳から独立して動作することはできません。機械も、理論と正確なモデルのサポートによる継続的な探索を必要とします。これは本当に簡単な作業ではありません。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<:  人工知能の第三の冬が来るのか?

>>:  最初にサンプルが多すぎますか? 5つのサンプリングアルゴリズムを数分で実行できます

推薦する

ビッグデータ処理における人工知能の活用方法

人工知能はビッグデータを処理するための最も理想的かつ効果的な方法です。私たちの世界はビッグデータに浸...

最高裁判所も顔認識の乱用に対して行動を起こした。

生体認証技術である顔認証は、非接触、非強制、同時性などの特徴から、ますます広く利用され、人々の生活の...

プレミアリーグファンに朗報:AIはチームの勝率とゴール時間を予測できるのか?

[[423663]] 2021-22シーズンのイングランド・プレミアリーグが開幕し、初日にアーセナ...

2024年に人工知能はどこへ向かうのでしょうか?

2023年はテクノロジー分野にとって波乱に富んだ年であり、言語学習モデルが爆発的に増加し、人工知能...

...

あなたの顔データはどこに保存されますか?

AI顔変換ソフト「ZAO」やMegviiのキャンパス顔認識をめぐる論争に続き、17万件の顔データが...

ガートナー: 2019 年新興テクノロジー ハイプ サイクル

2019 年新興テクノロジー ハイプ サイクルでは、今後 5 ~ 10 年でビジネス、社会、人々の生...

...

...

インテリジェントな世界は加速していますが、真の人工知能 (AI) から私たちはどれくらい離れているのでしょうか?

人工知能は新しい概念でもなければ、単なる仕掛けでもありません。何十年も前から提案されてきました。真の...

GPT-4はMITの学位を取得できない、MITの研究チームは「不正行為」と反応したが、ネットユーザーはそれを信じない

数日前、「大規模言語モデルを使用した MIT 数学および EECS カリキュラムの調査」と題された論...

機械学習初心者必読: 6 つのシンプルで実用的なアルゴリズムと学習曲線

01 機械学習アルゴリズム1. 分類アルゴリズムこれは教師あり学習法です。 K 最近傍法、決定木、単...

倉庫ロボットの収益は2030年までに510億ドルを超える

倉庫業界では、パンデミックによる受注量の増加と労働力不足を考慮して、自動化の取り組みを強化している。...

...

AIドローンレースが人間のチャンピオンに勝利、ネイチャー誌が表紙:AlphaGoの成果を現実世界にもたらす

AIは再び人間の世界チャンピオンを破り、ネイチャー誌の表紙を飾りました。 AlphaGo が前回囲碁...