データサイエンスについて知っておくべきこと: 10 の重要な概念 + 22 のグラフ

データサイエンスについて知っておくべきこと: 10 の重要な概念 + 22 のグラフ

01 バイアスと分散のトレードオフ

これは、機械学習における最も重要な理論の中で常に上位にランクされる概念です。機械学習(ディープラーニングを含む)のほぼすべてのアルゴリズムは、バイアスと分散の適切なバランスを実現しようと努めており、この図は、この 2 つの間の相反する関係を明確に説明しています。

02 ジニ不純度とエントロピー

ジニ係数 (均質性の欠如の尺度) とエントロピー係数 (ランダム性の尺度) は、どちらも決定木におけるノードの不純度の尺度です。

これら 2 つの概念にとってさらに重要なのは、特定のシナリオで適切なメトリックを選択できるように、それらの関係を理解することです。

ジニ不純度係数は通常、エントロピーよりも計算が簡単です (エントロピーには対数の計算が含まれるため)。

03 精度と再現率曲線

精度-再現率曲線は、さまざまなしきい値に対する精度と再現率のトレードオフを示します。曲線の下の領域が大きいほど、再現率と精度が高く、精度が高いほど誤報率が低くなり、再現率が高いほど誤報率が低くなります。

ニーズに応じて適切なしきい値を選択するのに役立ちます。たとえば、タイプ 1 のエラーを減らすことが目標であれば、高い精度を選択する必要がありますが、タイプ 2 のエラーを最小限に抑えることが目標であれば、再現率が高くなるようなしきい値を選択する必要があります。

  • 精度の分母は変数です。つまり、偽陽性(陽性として分類された陰性例)の数は毎回変化します。
  • 再現率の分母は定数です。これは真の値の合計数を表すため、常に同じままになります。

そのため、下の図では、Precision が最後に変動しているのに対し、Recall は全体を通して安定しています。

04 ROC曲線

ROC 曲線は、すべての分類しきい値における分類モデルのパフォーマンスを示すグラフです。

この曲線は 2 つのパラメータをプロットします。

真陽性率 誤報率

この曲線の下の領域は AUC と呼ばれ、パフォーマンス メトリックとしても使用できます。 AUC が高いほど、モデルは優れています。

05 肘のカーブ

K-means アルゴリズムで最適なクラスター数を選択するために使用されます。 WCSS (クラスター内二乗和) は、特定のクラスター内の各ポイントと重心の間の二乗距離の合計です。 WCSS を K (クラスター数) 値でプロットすると、グラフはエルボのように見えます。

クラスターの数が増えると、WCSS 値は減少し始めます。 K = 1のとき、WCSS値は最大となる。 

063つの土地

これは、高次元データに対して主成分分析を実行した後、各主成分によって説明される変動の割合を視覚化するのに役立ちます。モデルに考慮する主成分の適切な数を選択するために、通常はこのグラフをプロットし、全体の分散の十分なパーセンテージを与える値を選択します。

07線形回帰曲線とロジスティック回帰曲線

線形に分離可能なデータの場合、線形回帰またはロジスティック回帰を実行できます。どちらも決定境界曲線/線として使用できます。ただし、ロジスティック回帰の場合、通常はクラスが 2 つしかないため、値が低から高まで非常に均等に上昇する直線の決定境界を持つことは、急勾配が十分でないため機能しない可能性があり、突然の値の上昇後に多くの重要な高値または低値が得られ、誤分類になってしまいます。したがって、確率が高から低に遷移する「境界」領域は実際には存在しません。したがって、通常はシグモイド変換を適用して、極端では滑らかで中間ではほぼ直線になるシグモイド曲線に変換します。

08サポートベクターマシン(幾何学的理解)

09標準正規分布規則(z分布)

平均 0、標準偏差 1 の特殊正規分布。

経験則によれば、正規分布から観測されるデータの 99.7% は平均値の 3 標準偏差以内に収まります。このルールによれば、データの 68% は 1 標準偏差以内、95% は 2 標準偏差以内、99.7% は 3 標準偏差以内になります。 10 スチューデントの T 分布 T 分布 (スチューデントの T 分布とも呼ばれる) は、正規分布曲線とほぼ同じように見える分布のグループですが、より短く、より幅広くなっています。サンプル数が少ない場合は、正規分布ではなく T 分布を使用します。サンプルサイズが大きくなるほど、t 分布は正規分布に近づきます。実際、30 個のサンプルの後、T 分布は正規分布とほぼ同じになります。

要約する

私たちは、意思決定や適切なモデルの選択の基盤となる、小さいながらも重要な概念に数多く遭遇することがあります。この記事で述べた重要な概念は、関連する図で表すことができます。これらの概念は非常に重要であり、一目でその意味を理解する必要があります。上記の概念を習得したら、次の図が何を表しているかを説明してみてください。

<<:  アクセシブルな旅行はより安全です! ByteDanceの研究成果がCVPR2022 AVAコンペティションで優勝

>>:  エッジAIの夢と課題

推薦する

OpenAIがGPTストアを正式に開始

1月11日、リーダーシップの混乱を経験した後、人工知能スタートアップOpenAIは製品とサービスのプ...

オンラインレビューの 7 分の 1 は偽物です。人工知能は役に立つでしょうか?

目視で観察すると、コメント欄は中国文学の巨匠の密度が比較的高く、侮辱やおどけのレベルも比較的高く、A...

5Gの商用化は加速し続け、自動運転との統合における価値が強調される

私の国が2019年に5Gを正式に開始してから2年以上が経ちました。 2021年に入り、わが国の5G開...

GPT-4 はグラフィカル推論を実行できないのですか? 「手放す」後も、正解率は33%にとどまる

GPT-4 のグラフィカル推論能力は人間の半分以下?米国のサンタフェ研究所の調査によると、 GPT-...

AI受験者が発狂!上級数学試験の正解率は81%で、競争試験のスコアはコンピュータドクターのスコアよりも高い。

上級数学の試験で悪い成績を取ることは、多くの人にとって悪夢です。高度な数学は AI ほど得意ではない...

機械学習におけるよくある間違い

序文エンジニアリングでは、キーバリューストアを構築する方法が複数あり、それぞれの設計では使用パターン...

Python データ分析の基礎: 外れ値の検出と処理

機械学習において、異常検出と処理は比較的小さな分野、または機械学習の副産物です。一般的な予測問題では...

スタートアップにハイエンド AI を実装するにはどうすればよいでしょうか?

【51CTO.comオリジナル記事】 [[193891]] 人工知能は、1956 年のダートマス会...

...

人工知能: キャリア開発のための3つの戦略

ビジネスに AI を導入するには、テクノロジーとスキルだけでは不十分です。いくつかの戦略を導入するこ...

空から地上へ、そしてついに無人機が海へ

[[251878]]数日前、もう一つの非常に興味深い広告が私の注意を引きました。それはトルコのテクノ...

父親が8歳の娘にディープラーニングを説明する:11の事実

「ニューラル ネットワークは数を数えるのと同じくらい簡単です」、「畳み込み層は単なるバット シグナル...

...

ベンチマーク: 14 のソートアルゴリズムと PHP 配列

この記事では、PHP で記述されたソートアルゴリズムのテストについて紹介します。ソートアルゴリズムは...

AIが物流とサプライチェーン管理をどう変えるか

今日の急速に変化し、ますますグローバル化が進む世界では、物流およびサプライ チェーン業界は、世界中で...