機械学習における線形代数の理解に役立つ 10 の例

機械学習における線形代数の理解に役立つ 10 の例

線形代数は、ベクトル、行列、線形変換を扱う数学の分野です。

これは機械学習の重要な基盤であり、アルゴリズムの動作を記述する記号からコード内でのアルゴリズムの実装まですべてがこの分野の研究範囲に含まれます。

線形代数は機械学習の分野に不可欠な要素ですが、両者の密接な関係は説明されないことが多く、ベクトル空間や特定の行列演算などの抽象的な概念を使用することでしか説明できません。

この記事を読むと、次のことが分かります。

  • 表形式のデータセットや画像などのデータ構造を操作するときに線形代数を使用する方法。
  • ワンホットエンコーディングや次元削減など、データ準備で使用される線形代数の概念。
  • 深層学習、自然言語処理、推奨システムなどのサブフィールドにおける線形代数表記法と手法の詳細な使用。

始めましょう。

機械学習の 10 の例は次のとおりです。

  • データセットとデータファイル
  • 画像と写真
  • ワンホットエンコーディング
  • 線形回帰
  • 正規化
  • 主成分分析
  • 特異値分解
  • 潜在的意味解析
  • レコメンデーションシステム
  • ディープラーニング

1. データセットとデータファイル

機械学習では、データセットにモデルを適合させます。

これは表形式の数値のセットであり、各行は観測のセットを表し、各列は観測の特徴を表します。

たとえば、次のデータはアイリス データ セットの一部です。

データセットのアドレス: http://archive.ics.uci.edu/ml/datasets/Iris

  1. 5.1,3.5,1.4,0.2,アイリス・セトサ
  2. 4.9,3.0,1.4,0.2,アイリス・セトサ
  3. 4.7,3.2,1.3,0.2,アヤメ
  4. 4.6,3.1,1.5,0.2,アイリス・セトサ
  5. 5.0,3.6,1.4,0.2,アイリスセトサ

このデータは実際には行列であり、線形代数における重要なデータ構造です。

次に、データは入力データと出力データに分割され、教師あり機械学習モデル(測定値や花の品種など)に適合され、行列(X)とベクトル(y)が生成されます。ベクトルは線形代数におけるもう一つの重要なデータ構造です。

各行の長さは同じ、つまり各行のデータ数は同じなので、データはベクトル化されていると言えます。これらの行は、一度にすべてまたはバッチでモデルに入力することができ、固定幅の行を想定するようにモデルを事前構成できます。

2. 画像と写真

おそらく、コンピューター ビジョン アプリケーションで画像や写真を処理することに慣れているでしょう。

使用する各画像自体は、固定の幅と高さのテーブル構造であり、各セルには白黒画像の場合は 1 ピクセル値、カラー画像の場合は 3 ピクセル値が設定されます。

写真も線形代数行列の一種です。

切り抜き、拡大縮小、せん断などの画像関連の操作は、線形代数の記号と操作を使用して記述されます。

3. ワンホットエンコーディング

機械学習ではカテゴリデータが使用されることがあります。

これは、分類問題のクラス ラベルまたはカテゴリ入力変数である可能性があります。

カテゴリ変数をエンコードして、特定のテクニックで操作したり学習したりしやすくするのは一般的です。ワンホットエンコーディングは、カテゴリ変数の一般的なエンコーディングです。

ワンホットエンコーディングは、データセット内の各カテゴリを表す列と各例を表す行を持つテーブルを作成することとして理解できます。列内の特定の行のカテゴリ値にチェックまたは「1」の値を追加し、他のすべての列に「0」の値を追加します。

たとえば、3 行の color 変数:

  1. ...

これらの変数は次のようにコード化できます。

  1. 赤、緑、青
  2. 1、0、0
  3. 0、1、0
  4. 0、0、1
  5. ...

各行はバイナリ ベクトルとしてエンコードされ、ベクトルには「0」または「1」のいずれかの値が割り当てられたものになります。これは、線形代数のサブフィールド全体であるスパース表現の例です。

4. 線形回帰

線形回帰は、変数間の関係を記述するために使用される従来の統計手法です。

この方法は、機械学習において、より単純な回帰問題の数値を予測するためによく使用されます。

線形回帰の問題を記述して解決する方法は多数あります。線形回帰の問題は、各入力変数を乗じて合計すると、出力変数の最適な予測が得られる係数のセットを見つけることです。

機械学習ツールまたは機械学習ライブラリを使用したことがある場合、線形回帰問題を解決する最も一般的な方法は、線形回帰の行列分解法 (LU 分解や特異値分解など) を使用して解決される最小二乗最適化です。

線形回帰方程式を要約する一般的な方法でも、線形代数表記法が使用されます。

  1. y = A . b

ここで、y は出力変数、A はデータセット、b はモデル係数です。

5. 正規化

機械学習を適用する場合、問題を解決するために最善のスキルを引き出す、最もシンプルで実行可能なモデルを求めることがよくあります。

多くの場合、より単純なモデルの方が、特定の例から未知のデータまで一般化するのに優れています。

回帰法や人工ニューラル ネットワークなど、係数を伴う多くの方法では、より単純なモデルでは一般に係数の値が小さくなります。

モデルをデータに適合させるときに係数の値を最小化するためによく使用される手法は、正則化と呼ばれます。一般的な実装には、L2 形式と L1 形式の正則化があります。

これら 2 つの形式の正規化は、実際には係数ベクトルの大きさまたは長さの尺度であり、ベクトルノルムと呼ばれる線形代数法から直接導出されます。

6. 主成分分析

通常、データセットには多数の列があり、その数は数十、数百、数千、またはそれ以上になる場合があります。

多くの機能を持つデータをモデリングするのは困難です。さらに、無関係な特徴を含むデータから構築されたモデルは、最も関連性の高いデータでトレーニングされたモデルよりも劣ることがよくあります。

データのどの特徴が関連していて、どの特徴が関連していないかを知ることは困難です。

データセット内の列の数を自動的に減らすことは次元削減と呼ばれ、おそらく最も一般的な方法は主成分分析 (略して PCA) です。

この方法は、機械学習で、視覚化とモデリングのために高次元データの投影を作成するために使用されます。

PCA 法の中核は線形代数の行列分解法であり、固有値分解を使用することがありますが、より一般的な実装では特異値分解 (SVD) を使用できます。

7. 特異値分解

もう一つの一般的な次元削減法は、特異値分解法 (略して SVD) です。

上で述べたように、この方法の名前が示すように、これは線形代数の分野からの行列分解法です。

この方法は線形代数において幅広い用途があり、特徴選択、視覚化、ノイズ低減などに直接適用できます。

機械学習で SVD が使用されるシナリオは 2 つあります。

8. 潜在意味解析

自然言語処理として知られる、テキストデータを処理する機械学習のサブフィールドでは、文書は多くの場合、単語の出現の大きなマトリックスとして表現されます。

たとえば、マトリックスの列は語彙内の既知の単語、行は文、段落、ページ、またはテキストのドキュメントであり、マトリックス内のセルには単語の出現回数、つまり頻度のラベルが付けられます。

これはテキストのスパース行列表現です。この疎行列には、特異値分解などの行列分解法を適用することができ、行列表現の最も関連性の高い部分を抽出できます。この方法で処理されたドキュメントは、比較やクエリが容易になり、教師あり機械学習モデルの基礎として機能します。

この形式のデータ準備は、潜在的意味解析 (略して LSA) と呼ばれ、潜在的意味索引 (LSI) とも呼ばれます。

9. 推薦システム

製品の推奨を含む予測モデリングの問題は、機械学習のサブフィールドである推奨システムと呼ばれます。

たとえば、Amazon でのあなたの購入履歴やあなたに似た顧客の購入履歴に基づいて本をおすすめしたり、Netflix でのあなたの視聴履歴やあなたに似たユーザーの視聴履歴に基づいて映画やテレビ番組をおすすめしたりします。

レコメンデーション システムの開発には、主に線形代数の手法が使用されます。簡単な例としては、ユークリッド距離やドット積などの距離メトリックを使用して、疎な顧客行動ベクトル間の類似性を計算することが挙げられます。

特異値分解などの行列分解法は、クエリ、検索、比較のためにアイテムとユーザー データの有用な部分を抽出するために、レコメンデーション システムで広く使用されています。

10. ディープラーニング

人工ニューラル ネットワークは、脳内の情報処理の要素にヒントを得た非線形機械学習アルゴリズムであり、その有効性はさまざまな問題、特に予測モデリングで実証されています。

ディープラーニングは、新しい手法とより高速なハードウェアを使用した人工ニューラル ネットワークの最近の復活であり、非常に大規模なデータセット上で、より大規模でより深い (より多くのレイヤー) ネットワークを開発およびトレーニングすることを可能にします。ディープラーニング手法は、機械翻訳、写真キャプション作成、音声認識など、さまざまな難しい分野で常に最先端の結果を達成しています。

ニューラル ネットワークの実行には、線形代数データ構造の乗算と加算が含まれます。ディープラーニング手法は、複数の次元に拡張され、ベクトル、行列、さらには入力と係数のテンソルを処理できます。テンソルは、2 次元を超える行列です。

線形代数は、名前に「テンソル」という単語が含まれる Google の TensorFlow Python ライブラリなどの行列表現を通じて実装されるディープラーニング手法を記述する上で中心的な役割を果たします。

オリジナルリンク: https://machinelearningmastery.com/examples-of-linear-algebra-in-machine-learning/

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  救急室のAIにはもう少し人間的なケアが必要

>>:  2018年、ブロックチェーンは監査人の仕事を破壊するでしょうか?

ブログ    

推薦する

人間に一歩近づく | MIT×UMichが物体の空間関係を理解できる人工知能を研究

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

あなたの孤独をAIが見抜く:その精度はなんと94%

[[344787]]あなたは本当に「孤独」ですか?かつて宇宙規模で流行したこの「国際孤独度スケール...

人工知能とモノのインターネットはどこへ向かうのでしょうか?

モノのインターネットは私たちの日常生活を再構築するのに役立つテクノロジーですが、IoT がその可能性...

...

ブロックチェーンと人工知能、統合開発の「win-winゲーム」

[[259445]]ブロックチェーンと人工知能はどちらも今話題になっています。クールな「ブラックテ...

GPT-4+物理エンジンは拡散モデルをサポートし、現実的で一貫性のある合理的なビデオを生成します。

拡散モデルの出現により、テキスト生成ビデオ技術の開発が促進されましたが、このような方法は通常、計算コ...

業界の開発者にとって朗報です! Baidu PaddlePaddle のディープラーニング機能が Inspur AI サーバーに導入

8月28日、北京で開催されたAICC 2019人工知能コンピューティングカンファレンスで、Baidu...

AIは教育業界にどのような影響を与えるのでしょうか?これら6つの側面について学ぶ

人工知能は、SFの世界のものから、私たちの日常生活に影響を与える重要な技術へと変化しました。現在、多...

...

教育は新世代の人工知能の発展を積極的に支援すべきである

[[250135]]習近平総書記は中国共産党中央委員会政治局第9回集団学習会で、人工知能は新たな科学...

教育ロボットとベテラン教師の戦い:学習の効率を高めるのはどちらでしょうか?

[51CTO.com]地理的制約と教師の制約により、中国では質の高い教育資源が常に極めて不足してい...

音声認識システムが裁判にかけられる

舒城県裁判所杭埠法廷は最近、建設工事契約紛争事件の審理に法廷音声認識システムを使用した。これは、杭埠...

2018 年の 15 大テクノロジー トレンド、テクノロジーに関して正しい方向に進んでいますか?

[[216696]]一般的に言えば、未来そのものを予測することは難しいため、技術動向を明確に予測す...

「人工知能+教育」はどのような機会と課題をもたらすのでしょうか?

人工知能がどのような新しい形で登場するかが話題になっている一方で、教育分野では新たな一連の変化が起こ...