次元削減アルゴリズムについて: PCA主成分分析

次元削減アルゴリズムについて: PCA主成分分析

機械学習の分野では、生データから特徴を抽出する際に、高次元の特徴ベクトルが得られることが多いです。これらの多機能高次元空間には、ある程度の冗長性とノイズが含まれています。そのため、次元削減を通じてデータの内部特性を見つけ出し、特徴表現能力を向上させ、モデルのトレーニングコストを削減したいと考えています。 PCA は古典的な次元削減アルゴリズムであり、線形、教師なし、グローバルな次元削減方法です。

1. PCAの原則

PCA の原理は線形マッピングです。簡単に言えば、高次元空間のデータを低次元空間に投影し、多くの情報を含む主成分を保持し、データの説明に重要でない二次情報を無視します。直交属性空間内のサンプルの場合、すべてのサンプルを適切に表現するために超平面をどのように使用できますか? このような超平面が存在する場合、次の 2 つのプロパティが必要です。

  • すべてのサンプル点と超平面間の距離は最短である
  • この超平面上のサンプル点の投影は可能な限り離れている

上記の 2 つの特性は、主成分分析の 2 つの同等の導出、つまり PCA 最小二乗誤差理論と PCA 最大分散理論です。この記事では、主に最大分散理論について説明します。 PCA の次元削減操作は、データの分散度が最も大きい方向 (分散が最も大きい方向) を第 1 主成分として選択し、第 2 主成分は第 1 主成分と直交する 2 番目に分散が大きい方向を選択します。このプロセスは、k 個の主成分が見つかるまで繰り返されます。

データ ポイントは主成分の方向で最も離散的であり、主成分ベクトルは互いに直交します。

2. PCAアルゴリズムの実装手順

1. すべてのデータ特徴を中央揃えして正規化し、サンプルの重心が原点になるように移動し、異なる特徴値の影響を排除して、統一された次元に変換します。

2. サンプルの共分散行列を計算する

共分散は、2 つのランダム変数の結合分布間の線形相関の度合いを測る尺度です。

3. 共分散行列の固有値と固有ベクトルを解く

注:1。対称マトリックスの固有ベクトルは相互に直交し、ドット製品は0。2。 2番目の最大の固有値に対応する固有ベクトルなど、最大の投影方向のスペース。同時に、主成分ベクトルの投影の分散を満たし、kの選択を決定する総分散の99%以上を説明します。

3. 次元削減のPython実装

1. 環境を設定し、関連パッケージをインポートする

2. データの読み取り

3. 特徴とラベルの列を読み取り、中心化と正規化を実行し、主成分の数を選択し、最初の2つの主成分の分散の合計が95%を超える

4. 次元削減後の機能を視覚化します。水平軸と垂直軸は 2 つの主成分を表し、色は結果のラベル分類を表します。その後の分析とモデリングは、主成分に基づいて実行できます。

以上でPCA主成分分析は終了です。この記事では、サンプルポイントの投影を超平面上でできるだけ分離するという導出原理について説明します。興味のある方は、サンプルポイントと超平面の距離が最短になるという別の同等の導出を学習してください。

<<:  単一のニューロンでも DNN 機能を実現でき、画像分類の精度は 98% です。

>>:  ウクライナ、写真を通じて殺害されたロシア兵の家族を発見?顔認識が初めて軍事紛争で大規模に使用され、大きな論争を巻き起こしている

ブログ    

推薦する

...

「AI+教育」は偽のトリックか本物のスキルか?本質は依然としてAIの能力のテスト

近年、教育業界の資金のほとんどは「AI+教育」を追い求めています。現在、「AI+教育」分野では、さま...

ウクライナ、写真を通じて殺害されたロシア兵の家族を発見?顔認識が初めて軍事紛争で大規模に使用され、大きな論争を巻き起こしている

報道によると、ウクライナが使用している顔データベースは、米国に本社を置くテクノロジー企業の「Clea...

旅行業界における機械学習と AI: 5 つの重要な業界ユースケース

旅行を計画していると想像してください。 数十年前であれば、旅行先や宿泊施設の選択肢を調べたり、航空券...

...

...

IDCの予測: 今年のAI市場規模は1565億ドルに達し、前年比12.3%増となる

市場調査会社IDCは、2020年の世界の人工知能市場の規模は2019年に比べて12.3%増加すると予...

上級アーキテクトが初めて秘密を明かす:Toutiao の推奨アルゴリズムの原理を 3 分で学ぶ

[[217643]]現在、アルゴリズムの配布は、情報プラットフォーム、検索エンジン、ブラウザ、ソーシ...

これほど長い時間が経ったのに、なぜ物流ロボットは何千もの家庭に導入されていないのでしょうか?

先日終了したCESで、ドイツのコンチネンタルAGは、新しい物流ロボット、荷物配達ロボット犬「ANYM...

2023年に人工知能とデータサイエンスについて知っておくべきこと

人工知能とデータサイエンスは、2023 年に最もエキサイティングで影響力のある 2 つのテクノロジー...

エンタープライズ AI の 4 つのトレンド: 現在地と今後の方向性

[[275946]]ビッグデータダイジェスト制作出典: フォーブス編纂者:張大毓人工知能は従来の産業...

...

2018 年までに世界を変える 9 つのテクノロジーをご紹介します。

編集者注: 有名なベストセラー作家のバーナード・マー氏は最近、「2018 年に私たちの世界を定義する...

Zhihu の Bridge Platform は、ビジネス機能を強化するコンテンツ運用プラットフォームをどのように構築するのでしょうか?

1. キーワードZhihu、Bridge、コンテンツ プール、コンテンツ管理プラットフォーム、コン...

AI時代の「ハードコアプレイヤー」になりたいなら、これらの8つの予測を知っておく必要があります

概要: ディープラーニングは、想像もできない形で社会や個人の生活に大きな影響を与えます。今後数年間で...