機械学習とは何ですか?

機械学習は人工知能 (AI) のサブセットです。これは、コンピューターを明示的にプログラミングするのではなく、データから学習し、経験に基づいて改善するようにコンピューターをトレーニングすることに重点を置いています。機械学習では、アルゴリズムは大規模なデータセット内のパターンと相関関係を見つけ、その分析に基づいて最適な決定と予測を行うようにトレーニングされます。機械学習アプリケーションは使用すればするほど向上し、アクセスできるデータが増えるにつれて精度も高まります。機械学習の応用は、家庭、ショッピングカート、エンターテイメントメディア、ヘルスケアなど、あらゆる場所で行われています。

人工知能と機械学習の関係図

ニューラルネットワークとは何ですか?
人工ニューラルネットワーク (ANN) は、生物学的脳のニューロンに基づいて構築されました。人工ニューロンはノードと呼ばれ、複数の層にまとめられ、並列に実行されます。人工ニューロンはデジタル信号を受信すると、それを処理し、接続されている他のニューロンに信号を送信します。人間の脳と同様に、神経強化によりパターン認識、専門知識、全体的な学習能力が向上します。

ディープラーニングとは何ですか?
このタイプの機械学習は、多くの層のニューラルネットワークと大量の複雑で分散したデータを必要とするため、「ディープラーニング」と呼ばれます。ディープラーニングを実現するために、システムはネットワーク内の複数のレイヤーを使用して、より高度な出力を抽出します。たとえば、自然画像を処理してグロリオサを探すように設計されたディープラーニングシステムは、最初のレイヤーで植物を識別します。神経層を進むにつれて、花を認識し、次にデイジーを認識し、最後にグロリオサデイジーを認識します。ディープラーニングのアプリケーションの例としては、音声認識、画像分類、薬物分析などがあります。

機械学習はどのように機能するのでしょうか?
機械学習は、さまざまなアルゴリズム技術を使用するさまざまな種類の機械学習モデルで構成されます。データの性質と望ましい結果に応じて、教師あり学習、教師なし学習、半教師あり学習、ブースト学習の 4 つの学習モデルのいずれかを使用できます。各モデルでは、使用中のデータセットと予想される結果に応じて、1 つ以上のアルゴリズム手法を適用できます。機械学習アルゴリズムの基本的な目的は、物事を分類し、パターンを見つけ、結果を予測し、インテリジェントな決定を下すことです。複雑で予測不可能なデータの場合、アルゴリズムを 1 つずつ使用したり、組み合わせて使用したりして、最高の精度を実現できます。

機械学習プロセスの仕組み

教師あり学習とは何ですか?
教師あり学習は、4 つの機械学習モデルの最初のものです。教師あり学習アルゴリズムでは、例を通して機械に学習させます。教師あり学習モデルは、「入力」データと「出力」データのペアで構成され、出力には目的の値のラベルが付けられます。たとえば、機械にデイジーとパンジーの違いを教えるという目標があるとします。バイナリ入力データペアは、デイジーの画像とパンジーの画像で構成されます。この特定のペアの理想的な結果は Daisy を選択することなので、これが正しい結果として事前に識別されます。

システムはアルゴリズムを通じて、時間の経過とともにこのすべてのトレーニングデータをコンパイルし、関連する類似点、相違点、その他の論理ポイントを識別し始めます。最終的には、デイジーかパンジーかという質問に対する答えをシステムが独力で予測できるようになります。これは、子供に一連の問題を解くための答えを与え、それからその計算を見せて論理を説明するように求めるのと同じです。教師あり学習モデルは、製品推奨エンジンや、一日のさまざまな時間帯に最速のルートを予測する Waze などの交通分析アプリケーションなど、私たちが毎日使用する多くのアプリケーションで使用されています。

教師なし学習とは何ですか?
教師なし学習は、機械学習モデルの 4 つのタイプのうちの 2 番目です。教師なし学習モデルでは、答えの鍵はありません。マシンは、ラベルも構造化もされていない大量の受信データを調査し、アクセス可能なすべての関連データを使用してパターンと相関関係を識別し始めます。多くの点で、教師なし学習は人間が世界を観察する方法をモデルにしています。私たちは直感と経験を駆使して物事をまとめます。物事の例に遭遇するにつれて、それらを分類して識別する能力はより正確になります。機械にとって、「経験」は、機械に入力されるデータの量と機械が利用できるデータの量によって定義されます。教師なし学習アプリケーションの一般的な例としては、顔認識、遺伝子配列分析、市場調査、サイバーセキュリティなどが挙げられます。

半教師あり学習とは何ですか?
半教師あり学習は、機械学習モデルの 4 つのタイプのうちの 3 番目です。理想的には、すべてのデータはシステムに入力される前に構造化され、ラベル付けされます。しかし、これは明らかに実現不可能なので、大量の生の非構造化データがある場合、半教師あり学習が実行可能なソリューションになります。このモデルでは、ラベルのないデータセットを拡張するために、少量のラベル付きデータを入力します。本質的に、ラベル付けされたデータはシステムを機能させる役割を果たし、学習速度と精度を大幅に向上させることができます。半教師あり学習アルゴリズムは、ラベル付きデータの関連するプロパティを分析して、それをラベルなしデータに適用するように機械に指示します。
しかし、この MIT Press の研究論文で詳細に検討されているように、このモデルには、ラベル付けされたデータの欠陥がシステムによって学習され、複製されるというリスクが伴います。半教師あり学習を最も効果的に活用している企業は、ベストプラクティスのプロトコルを確実に導入しています。半教師あり学習は、音声および言語分析、複雑な医学研究 (タンパク質分類など)、高度な不正検出に使用されます。

強化学習とは何ですか?
強化学習は、機械学習モデルの 4 番目のタイプです。教師あり学習では、機械に解答の鍵が与えられ、すべての正解の間の相関関係を見つけることで学習します。強化学習モデルには解答キーは含まれませんが、許可されたアクション、ルール、および潜在的な最終状態のセットを入力として受け取ります。アルゴリズムの目的が固定またはバイナリである場合、マシンは例を通じて学習できます。ただし、望ましい結果が変動する場合、システムは経験と報酬を通じて学習する必要があります。強化学習モデルでは、「報酬」は数値であり、システムが収集しようとするものとしてアルゴリズムにプログラムされます。
多くの点で、このモデルはチェスの遊び方を誰かに教えることに似ています。もちろん、すべての可能な動きを見せることは不可能です。代わりに、ルールを説明し、練習を通じてスキルを強化します。報酬はゲームに勝つことだけでなく、相手の駒を奪うことでも得られます。強化学習の応用には、オンライン広告、コンピュータゲーム開発、高額株式市場取引における購入者向けの自動価格入札などがあります。

機械学習の課題
データ科学者でハーバード大学卒業生のタイラー・ヴィガン氏は、著書『Spurious Correlations』の中で、「相関関係のすべてが根本的な因果関係を示しているわけではない」と指摘している。その点を説明するために、同氏はメイン州におけるマーガリン消費と離婚率の明確な相関関係を示すグラフを提供している。もちろん、この図はユーモラスな点を説明することを目的としています。しかし、さらに重要なのは、機械学習アプリケーションは人間やアルゴリズムの偏見やエラーの影響を受けやすいということです。また、学習して適応する傾向があるため、エラーや誤った相関関係がニューラルネットワーク全体に急速に広がり、結果を汚染する可能性があります。

<<: ロボット工学が産業界のデジタル革命を推進

>>: EUはAI規制のルールを強化する計画で、最も厳しい法案を発表