データサイエンスの面接で知っておくべき 10 の機械学習の概念

データサイエンスの面接で知っておくべき 10 の機械学習の概念

この記事は公式アカウント「Reading the Core」(ID: AI_Discovery)から転載されているので、興味のある方はどうぞ。

ご存知のように、データ サイエンスと機械学習では、無限の量の情報と知識を提供する必要があります。 そうは言っても、ほとんどの企業はいくつかの中核となるアイデアだけをテストしています。 これは、これら 10 個の概念がより複雑なアイデアや概念の基礎となるためです。

[[350910]]

それでは、始めましょう!

1. 教師あり学習と教師なし学習

非常に基本的なことなので、なぜわざわざこれを入れたのかと不思議に思うかもしれません。 しかし、この 2 つの違いを本当に理解し、その違いを伝えることができることが重要だと思います。

教師あり学習では、ターゲット変数が既知であるラベル付きデータセットで学習します。

教師なし学習は、ラベル付けされた結果を参照せずに入力データから推論を導き、パターンを見つけるために使用されます。つまり、ターゲット変数はありません。

これで、2 つの違いがわかったので、機械学習モデルが教師あり学習か教師なし学習かがわかるようになり、また、特定のシナリオで教師あり学習アルゴリズムと教師なし学習アルゴリズムのどちらが必要かもわかるようになりました。

たとえば、顧客がシリアルを購入したかどうか、次に牛乳を購入する必要があるかどうかを予測したい場合、教師あり学習アルゴリズムと教師なし学習アルゴリズムのどちらが必要ですか?

2. バイアスとバイアスのトレードオフ

バイアスと分散のトレードオフを理解するには、バイアスと分散が何であるかを知る必要があります。

バイアスは、モデルの仮定を単純化することによって生じる誤差です。 たとえば、単純な線形回帰を使用してウイルスの指数関数的増加をモデル化すると、バイアスが高くなります。

分散とは、異なるトレーニング データを使用した場合に予測値が変化する量を指します。 言い換えれば、トレーニング データに重点​​を置くモデルでは、分散が大きくなります。

さて、バイアスと分散のトレードオフは、本質的に、特定の機械学習モデルにおけるバイアスの量と分散の間に逆の関係があることを示しています。 つまり、モデルのバイアスを減らすと分散が増加し、逆もまた同様です。 ただし、特定の量のバイアスと分散によって合計エラーが最小になる最適ポイントが存在します (以下を参照)。

> バイアス分散トレードオフの図(著者作成)

3. 正規化

最も一般的なタイプの正規化方法は、L1 と L2 と呼ばれます。 L1 正則化と L2 正則化はどちらも、トレーニング データの過剰適合を減らすために使用される方法です。

L2 正則化 (リッジ回帰とも呼ばれます) は、残差の二乗とラムダの二乗の傾きの合計を最小化します。 この追加の項は「リッジ回帰ペナルティ」と呼ばれます。 これにより、モデルのバイアスが増加し、トレーニング データへの適合性が低下しますが、分散も減少します。

リッジ回帰ペナルティを傾きの絶対値に置き換えると、Lasso 回帰、つまり L1 正則化が得られます。

L2 は堅牢性は劣りますが、安定したソリューションを持ち、常にソリューションとなります。 L1 はより堅牢ですが、ソリューションは不安定であり、複数のソリューションが存在する可能性があります。

4. クロスバリデーション

クロス検証は、本質的には、新しい独立したデータセット上でモデルのパフォーマンスを評価するために使用される手法です。

クロス検証の最も単純な例は、データをトレーニング データ、検証データ、テスト データの 3 つのカテゴリに分割することです。トレーニング データを使用してモデルを構築し、検証データを使用してハイパーパラメータを調整し、テスト データを使用して最終モデルを評価します。

これが次のポイント、つまり機械学習モデルの評価指標につながります。

5. 評価指標

機械学習モデルを評価するために選択できるメトリックは多数あり、選択するメトリックは最終的に問題の種類とモデルの目標によって異なります。

回帰モデルを評価する場合、重要な指標には次のものが含まれます。

  • R 二乗: 従属変数の分散の割合が独立変数の分散によってどの程度説明されるかを示す尺度。 簡単に言えば、係数は傾向を推定しますが、R 二乗は最もよく適合する線の周りの分散を表します。
  • 調整済み R 平方: モデルに追加された独立変数ごとに、R 平方値は常に増加します。そのため、独立変数が多いモデルは、実際にはそうでなくても、より適合しているように見える場合があります。 したがって、調整済み R2 は各追加独立変数を補正し、各指定変数が偶然を超えてモデルを改善する範囲でのみ増加します。
  • 平均絶対誤差 (MAE): 絶対誤差は予測値と実際の値の差です。 したがって、平均絶対誤差は絶対誤差の平均です。
  • 平均二乗誤差 (MSE): 平均二乗誤差 (MSE) は MAE に似ていますが、予測値と実際の値の差の二乗を平均する点が異なります。

分類モデルのメトリックには次のものが含まれます。

  • 真陰性: モデルが陰性クラスを正しく予測した結果。
  • 偽陽性 (タイプ 1 エラー): モデルが陽性クラスを誤って予測します。
  • 偽陰性 (タイプ 2 エラー): モデルが陰性クラスの結果を誤って予測します。
  • 精度: モデルが正しい予測の割合に相当します。
  • 思い出してください: 「実際の陽性のうち、正しく識別された割合はどれくらいですか?」という質問に答えてみてください。
  • 精度: 「正しい識別率は何ですか?」という質問に答えようとします。
  • F1 スコア: テスト精度の尺度であり、精度と再現率の調和平均です。 最高スコアは 1 (完全な精度と再現率)、最低スコアは 0 です。全体として、これはモデルの精度と堅牢性を測る指標となります。
  • AUC-ROC 曲線は、モデルが複数のクラスをどれだけうまく区別できるかを示す分類問題のパフォーマンス指標です。 AUC が高いほど、モデルの精度が高いことを示します。

6. 次元削減

次元削減は、データセット内の特徴の数を削減するプロセスです。 これは主に、モデルの分散 (オーバーフィッティング) を減らしたい場合に重要です。

最も一般的な次元削減手法の 1 つは、主成分分析 (PCA) です。 最も単純な意味では、PCA は高次元データ (例: 3 次元) をより小さな空間 (例: 2 次元) に投影することを意味します。 これにより、モデル内の元の変数はすべて保持されながら、次元の低いデータ(3 次元ではなく 2 次元)が生成されます。

PCA は、必要なメモリを削減し、アルゴリズムを高速化するための圧縮目的や、データの要約を容易にするための視覚化目的で使用されることがよくあります。

7. データの準備

データ準備とは、生データをクリーンアップし、より使いやすい状態に変換するプロセスです。 面接では、データ セットを整理するために実行した手順のいくつかを列挙するよう求められる場合があります。

データ準備における最も一般的な手順は次のとおりです。

  • 外れ値をチェックし、必要に応じて削除する
  • 欠損データの補完
  • カテゴリデータのエンコード
  • データを正規化または標準化する
  • 機能エンジニアリング
  • データのアンダーサンプリングまたはオーバーサンプリングによるデータの不均衡に対処する

8. ブートストラップサンプリング

ブートストラップ サンプリング法は非常にシンプルな概念であり、AdaBoost や XGBoost などのより高度な機械学習アルゴリズムの構成要素となります。

技術的には、ブートストラップ サンプリング法は、復元抽出法によるランダム サンプリングを使用する再サンプリング法です。

わかりにくいように思えても心配しないでください。図を使って説明しましょう。


初期サンプルとして 3 つの観測値があるとします。 ブートストラップ サンプリング法を使用して、3 つの観測値からなる新しいサンプルも作成します。 各観測値が選択される可能性は等しく (1/3) です。 この場合、2 番目の観測値はランダムに選択され、新しいサンプルの最初の観測値になります。


別の観測をランダムに選択した後、緑の観測を選択しました。


最後に、黄色の観測値が再度ランダムに選択されます。 ブートストラップ サンプリングでは、復元抽出によるランダム サンプリングが使用されることに注意してください。 これは、すでに選択された観測が再度選択される可能性が高いことを意味します。

これがブートストラップサンプリングの真髄です。

9. ニューラルネットワーク

すべてのデータサイエンスの仕事にディープラーニングが必要なわけではありませんが、需要は間違いなく高まっています。 したがって、ニューラル ネットワークとは何か、どのように機能するかについて基本的な理解を深めておくとよいでしょう。

最も基本的なレベルでは、ニューラル ネットワークは本質的に数式のネットワークです。 1 つ以上の入力変数を受け取り、方程式のネットワークを通じて 1 つ以上の出力変数を導出します。


ニューラル ネットワークには、入力層、1 つ以上の隠し層、および出力層があります。 入力層は、x1、x2、…、xn として示される 1 つ以上の特徴変数 (または入力変数または独立変数) で構成されます。 隠し層は、1 つ以上の隠しノードまたは隠しユニットで構成されます。 ノードは、上の画像にある円の 1 つにすぎません。 同様に、出力変数は 1 つ以上の出力単位で構成されます。


冒頭で述べたように、ニューラル ネットワークは方程式のネットワークに過ぎません。 ニューラル ネットワークの各ノードは、線形関数と活性化関数の 2 つの関数で構成されます。 ここで少し混乱するかもしれませんが、今のところは線形関数を最もよく適合する直線として考えてください。 また、活性化関数は、数字を 1 または 0 にする電灯のスイッチのようなものだと考えてください。

10. アンサンブル学習、バギング、ブースティング

最も優れた機械学習アルゴリズムの中にはこれらの用語を組み合わせたものもあるため、アンサンブル学習、バギング、ブースティングが何であるかを理解することが重要です。

アンサンブル学習は、複数の学習アルゴリズムを組み合わせた手法です。 単一のアルゴリズムのみを使用する場合よりも高い予測性能を実現することが目的です。

バギングは、ブートストラップ集約とも呼ばれ、元のデータセットのブートストラップされたサンプルを使用して、同じ学習アルゴリズムの複数のモデルをトレーニングするプロセスです。 次に、上記のランダム フォレストの例と同様に、すべてのモデルの出力に対して投票が行われます。

> 袋詰めプロセス(著者作成)

ブースティングはバギングのバリエーションであり、個々のモデルが順番に構築され、前のモデルが反復されます。 具体的には、前のモデルで誤分類されたデータ ポイントが、次のモデルで強調されます。 これは、モデルの全体的な精度を向上させるために行われます。 このプロセスをよりわかりやすく示す図を以下に示します。

> ブースティングプロセス(著者作成)

最初のモデルが構築されたら、2 番目のブートストラップ サンプルに加えて、誤分類/予測されたポイントを取得して、2 番目のモデルをトレーニングします。 次に、テスト データセットにアンサンブル モデル (モデル 1 と 2) を使用してプロセスを続行します。

<<:  顔認識:攻撃の種類となりすまし防止技術

>>:  セキュリティ | 機械学習の「データ汚染」を 1 つの記事で理解する

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

2つのセッションでは人工知能技術が注目を集めました。AI技術はこれらの業界で導入されています

近年、人工知能がブームを迎えており、人々は合理的な分析と思考を通じて、人工知能の波をどのように利用し...

Geek+がダブル11の結果を発表:中国最大のインテリジェント倉庫ロボットネットワークが72時間で811万件の注文を配達

中国・北京(2019年11月21日) – 世界的に有名な知能ロボット企業であるG​​eek+は、今年...

...

Python プログラミングにおける 3 つの一般的なデータ構造とアルゴリズム

Python には、リスト、セット、辞書など、非常に便利な組み込みデータ構造が多数あります。ほとんど...

データサイエンスが音楽業界に革命を起こす

デジタル時代において、データは音楽業界が音楽を制作し、配信し、聴衆とつながる方法において強力な指揮者...

...

自動運転は「終焉」に向かっている

技術導入への困難な道のりは、特定の客観的な法則に従わなければならず、それはいかなる利害関係者の意見に...

人工知能が本格的に登場し、企業はその挑戦に挑む準備ができている

多くの企業は、短期的には利益が見込めないため、AIパイロットプロジェクトを推進できず、AIプロジェク...

人気の機械学習や人工知能が金融業界で障害にぶつかるのはなぜでしょうか?

[[211551]]機械学習と人工知能は、過去数年間で精度において驚異的な進歩を遂げました。 しか...

研究により、ディープラーニングAIは乳がんリスクの予測に優れていることが判明

放射線学誌に掲載された新しい研究によると、ディープラーニングと呼ばれる高度な人工知能は、一般的に使用...

ビル・ゲイツ:人工知能に国境を簡単に引いてはいけない

[[260361]]新華社によると、ビル&メリンダ・ゲイツ財団の共同議長ビル・ゲイツ氏は最近スタンフ...

アリババの顔認識セキュリティ技術が3Dマスク攻撃を防ぐ特許を取得

[[334032]]顔認識と 3D テクノロジーが融合したとき、最終的な勝者は誰になるでしょうか? ...

「業界最強」と称されるアリトン・イー・チエンウェン、国内No.1大型モデルを目指す

どの時代にもメインテーマがあり、次の10年の主なテーマはAIです。 ChatGPTの登場以来、中国で...

清華大学・黄敏烈氏:GoogleのAI人格は本当に目覚めたのか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

人工知能が都市景観をどう変えるのか

人工知能 (AI) とディープラーニングはあらゆるところに存在し、今や都市の景観を一変させる可能性を...