機械学習: 具体的なカテゴリーは何ですか?プロジェクトのプロセスはどのようなものですか?

機械学習: 具体的なカテゴリーは何ですか?プロジェクトのプロセスはどのようなものですか?

機械学習と人工知能は近年最もホットなキーワードの 1 つであるはずです。今日は機械学習の基礎知識をいくつか紹介します。何か間違っている点がありましたら、ご訂正いただければ幸いです。

[[383223]]

01 機械学習の定義

機械学習について話す前に、まず人間の学習行動とは何かを明確にしましょう。

まとめると、人間は過去の経験からルールを獲得し、それを新しい類似のシナリオに適用する、これが人間の学習行動であると言えます。

同様に、機械学習とは、機械をトレーニングおよび学習し、大量のデータから固有の特徴を見つけ、新しい事柄について判断を下せるようにすることを指します。

02機械学習の分類

機械学習のカテゴリにはどのようなものがありますか? 分類方法によって、サブカテゴリも異なります。整理してみると、主に以下のような概要図があります。

(1)学習目標による分類

機械学習の目的は何でしょうか? 簡単に言えば、機械学習を通じてどのような結果を達成したいかということです。

学習目標に応じて、主に回帰問題、分類問題、ソート問題の 3 つのカテゴリに分けられます。

  • 回帰問題: 対象が連続変数である問題を解きます。たとえば、身長に基づいて体重を予測する場合、体重は連続変数になります。
  • 分類問題: 解決すべき問題は、離散ラベルの問題です。たとえば、人が男性か女性かを予測するなどです。
  • ソートの問題: モデルはオブジェクトのソートされたリストを出力します。

(2)学習データの特性に応じた分類

前述のように、機械学習には基礎となるトレーニング データが必要です (そうでなければ、機械は学習できません)。トレーニングデータの特性に応じて、主に次の 2 つのカテゴリに分類されます。

  • 教師あり学習: 既存のトレーニング サンプルを使用して最適なモデルをトレーニングし、このモデルを使用してすべての入力を対応する出力にマッピングし、出力に対して簡単な判断を下して予測と分類の目的を達成し、未知のデータを予測および分類する機能を実現します。一般的な教師ありアルゴリズムには、線形回帰アルゴリズム、BP ニューラル ネットワーク アルゴリズム、決定木、サポート ベクター マシン、KNN などがあります。
  • 教師なし学習: トレーニング サンプルのラベル情報は不明です。目標は、ラベルのないトレーニング サンプルを学習することでデータの固有の特性と法則を明らかにし、さらなるデータ分析の基礎を提供することです。このタイプの学習タスクで最も研究され、広く使用されているのは「クラスタリング」です。クラスタリングの目的は、類似したものをグループ化することであり、これは主にサンプルとグループ間の距離を計算することによって実現されます。ディープラーニングと PCA はどちらも教師なし学習のカテゴリに分類されます。一般的な教師なしアルゴリズムには、密度推定、異常検出、階層的クラスタリング、EM アルゴリズム、K-Means アルゴリズム、DBSCAN アルゴリズムなどがあります。

(3)モデルの複雑さによる分類

モデルの複雑さに応じて、線形モデルと非線形モデルの 2 つのカテゴリに分けられます。

  • 線形モデル: 決定境界は直線です。たとえば、ロジスティック回帰モデル。
  • 非線形モデル: 決定境界は直線ではありません。たとえば、ニューラル ネットワーク モデル。

(4)モデル機能による分類

モデルの機能に応じて、主に識別モデルと生成モデルに分けられます。

  • 判別モデル: 予測のためにデータから決定関数 f(x) または条件付き確率分布 P(y|x) を直接学習するモデル。与えられた入力 x に対してどのような出力 y を予測するかを扱います。一般的な k 最近傍法、パーセプトロン、決定木、ロジスティック回帰、線形回帰、最大エントロピー モデル。
  • 生成モデル: データから入力と出力の結合確率分布 P(x, y) を学習し、事後確率分布 P(y|x) を計算して予測するモデル。一般的な生成モデルには、ナイーブベイズと隠れマルコフ (EM アルゴリズム) が含まれます。

03機械学習の基本プロセス

機械学習プロジェクトの主なプロセスは次のとおりです。

(1)データ前処理

データクリーニングとは、データセット内のノイズデータや無関係なデータを検出して削除し、欠損データを処理して、空白のデータドメインや知識背景のホワイトノイズを除去することです。

(2)データのセグメンテーション

機械学習では、通常、すべてのデータはトレーニング データ セット、検証データ セット、テスト データ セットの 3 つの部分に分割されます。それらの機能は

  • トレーニングデータセット: 機械学習モデルの構築に使用
  • 検証データセット: モデルの構築を支援し、構築プロセス中にモデルを評価するために使用され、モデルの偏りのない推定値を提供し、モデルのハイパーパラメータを調整します。
  • テストデータセット: トレーニングされた最終モデルのパフォーマンスを評価するために使用

データを分割する方法については後ほど共有します。

(3)特徴エンジニアリング

特徴構築とは、元のデータから物理的に重要ないくつかの特徴を手動で見つけることを指します。生データを観察し、問題の潜在的な形やデータ構造について考えるには時間がかかります。データに対する感受性と機械学習の実践経験は、特徴の構築に役立ちます。

機械学習について私が言いたいことは以上です。皆様、引き続きご注目ください〜

<<:  考えてみると恐ろしいですね!人工知能は、成功率70%で人間の行動を操作することを学習したと疑われている。

>>:  人工知能によって仕事が置き換えられた後、一般の人々は何をすべきでしょうか?

ブログ    
ブログ    

推薦する

ロボティックプロセスオートメーションが人々の働き方をどのように変えているのか

[[422319]] RPA は人々の働き方をどのように変えるのでしょうか?今日、さまざまな業界の組...

...

安全性は小さな問題ではありません。これがAI時代に彼らが選択することです

AI時代においては、セキュリティを早急に再定義する必要があります。人工知能やモノのインターネットなど...

...

人々は長い間、運転免許試験に悩まされてきました。自動運転は、その苦しみを緩和できるのでしょうか?

運転するには運転免許証を持っていることが前提条件であり、運転免許証を取得するには運転免許試験を受ける...

アクセシブルな旅行はより安全です! ByteDanceの研究成果がCVPR2022 AVAコンペティションで優勝

最近、CVPR2022の各競技の結果が次々と発表されました。ByteDanceの知能創造AIプラット...

学問に戻りましょう!シュム氏は清華大学の非常勤教授として、コンピュータビジョンとグラフィックスの博士課程の学生を募集する。

[[317132]]出典:中国ビジネスニュースマイクロソフトの元副社長、ハリー・シャム博士が学界復...

...

GPT-4V でさえ解明できない未来推論の解決策があります!華中科技大学と上海理工大学出身

マルチモーダル大規模言語モデルは、強力な画像理解および推論機能を発揮します。しかし、現在の観察に基づ...

ディープラーニングと靴を組み合わせると、誰かがそれを使ってストレスレベルを検出しようとします。ワイヤレス操作、84%の精度

ビッグデータダイジェスト制作著者: カレブ現代人の生活プレッシャーはますます大きくなっていると言わざ...

...

...

人工知能(AI)の開発と応用の観点から見たアルゴリズムテストのテスト戦略

人工知能の発展と応用に伴い、AI テストは徐々に私たちの視野に入ってきました。従来の機能テスト戦略は...

2021年の新ドローンの在庫

[[441702]]時は経つのが早く、2021年も過ぎ去りつつあります。今年を振り返ると、疫病の影響...

IEEEの論文では、画像強調を実現するための放射状変換を提案している

[[202259]]最近、「少量のデータによるニューラル ネットワークのトレーニング - ドラフト」...