人工知能をより深く理解するための人工知能と機械学習の12のキーワード

人工知能（AI）技術があらゆる分野にますます大きな影響を及ぼすようになるにつれ、ニュースやレポートで「機械学習」「ディープラーニング」「拡張学習」「ニューラルネットワーク」といった言葉を耳にする機会が増えていますが、専門家でない人にとっては、これらの言葉は少し謎めいています。私たちは、読者がこの人工知能技術の意味と可能性をより明確に理解できるように、これらを含む 12 個のキーワードを整理しました。

1. 機械学習

トムミッチェル教授は、カーネギーメロン大学のコンピュータサイエンス学部および機械学習学部に勤務しています。著書『機械学習』における同教授の定義によれば、機械学習とは「経験に基づいて自動的に改善できるコンピュータプログラムを作成する方法の研究」です。機械学習は本質的に学際的であり、コンピューターサイエンス、統計、人工知能などの分野の知識を活用します。機械学習研究の主な成果は、経験に基づいて自動的に改善するのに役立つアルゴリズムです。これらのアルゴリズムは、コンピュータービジョン、人工知能、データマイニングなど、さまざまな業界で幅広く応用できます。

2. 分類

分類とは、データをさまざまなカテゴリに分類するためのモデルを構築することを意味します。これらのモデルは、アルゴリズムが学習するための事前にラベル付けされたカテゴリを含むトレーニングデータベースを入力することによって構築されます。次に、ラベルのないカテゴリのデータベースをモデルに入力し、トレーニングデータベースから学習した内容に基づいて、モデルが新しいデータのカテゴリを予測できるようにします。

これらのアルゴリズムでは明示的なカテゴリラベルが必要なので、分類は「教師あり学習」の一種です。

3. 回帰

回帰は分類と密接に関連しています。分類は個別のカテゴリを予測することですが、回帰は予測される「カテゴリ」が連続した数字で構成されている場合に役立ちます。線形回帰は回帰手法の一例です。

4. 集会

クラスタリングは、事前にラベル付けされたカテゴリやカテゴリ特徴を持たないデータを分析するために使用されます。個々のデータをグループ化する原則は、グループ内の類似性を最大化し、グループ間の類似性を最小化することです。ここでクラスタリングアルゴリズムが役立ち、非常に類似したデータを識別して 1 つのグループにまとめますが、グループ化されていないデータはそれほど類似していません。 K-means クラスタリングは、おそらくクラスタリングアルゴリズムの最も有名な例です。

クラスタリングでは事前にラベル付けされたカテゴリは必要ないため、「教師なし学習」の一種であり、アルゴリズムは例ではなく観察によって学習します。

5. 関係

関連性を説明する最も簡単な方法は、よく知られている典型的な例である「買い物かご分析」を紹介することです。ショッピングバスケット分析では、買い物客がさまざまなアイテム (物理的または仮想的) をショッピングバスケットに入れるものと想定し、さまざまなアイテム間の関連性を特定し、比較に対するサポートと信頼性の尺度を割り当てることを目標としています (編集者注: 信頼性は、母数パラメータにおけるサンプルの区間推定値を意味する統計概念です)。ここでの価値は、クロスマーケティングと消費者行動分析にあります。関連付けはマーケットバスケット分析を一般化したものであり、関連付けでは任意の属性を予測できる点を除いて分類に似ています。 Apriori アルゴリズムは最もよく知られている関連付けアルゴリズムとして知られています。

相関関係も「教師なし学習」の一種です。

ステップごとの解決と分類によってツリー構造が生成される決定木の例。画像ソース: SlideShare。

6. 決定木

決定木は、上から下へ段階的に解決される再帰的な分類器です。決定木は通常、誘導と剪定という 2 つのタスクで構成されます。誘導では、事前に分類されたデータのセットを入力として使用し、分類に最適な特徴を決定し、結果として得られた分類済みデータベースに基づいて、すべてのトレーニングデータが分類されるまで再帰的にデータベースを分類します。ツリーを構築する際の目標は、分類する機能を見つけて最も純粋なサブノードを作成し、データベース内のすべてのデータを分類するために必要な分類の数を最小限に抑えることです。この純度は情報の概念に基づいて測定されます。

完全な決定木モデルは過度に複雑で、不要な構造を含み、解釈が困難になる可能性があります。したがって、決定木をより効率的で読みやすく、より正確にするために、決定木から不要な構造を削除する「剪定」ステップも必要です。

右上の矢印: 最大マージン超平面。左下の矢印: サポートベクター。画像出典: KDNuggets.

7. サポートベクターマシン (SVM)

SVM は線形データと非線形データの両方を分類できます。 SVM の原理は、トレーニングデータを高次元に変換し、この次元での最適な間隔距離、つまり異なるカテゴリ間の境界をチェックすることです。 SVM では、これらの境界は「ハイパープレーン」と呼ばれ、サポートベクター、つまりクラスとその境界を最もよく定義するインスタンスを配置することによって区切られます。境界は超平面に平行な線であり、超平面とそのサポートベクトル間の最短距離として定義されます。

SVM の基本的な概念は、次のように要約できます。十分な次元があれば、2 つのカテゴリを分離する超平面が見つかり、それによってデータベースメンバーのカテゴリが非線形化されます。十分な回数繰り返すと、N 空間次元内のすべてのカテゴリを分離するのに十分な超平面を生成できます。

8. ニューラルネットワーク

ニューラルネットワークは、人間の脳にヒントを得たアルゴリズムです。これらのアルゴリズムが実際の人間の脳の機能をどの程度シミュレートしているかについては依然として多くの議論がありますが、これらのアルゴリズムが本当に人間の脳をシミュレートしているとは言えません。ニューラルネットワークは、相互にデータを送信し、ニューラルネットワークの「経験」に基づいて異なる関連重みを持つ、相互に接続された無数の概念的な人工ニューロンで構成されています。「ニューロン」には活性化閾値があり、個々のニューロンの重みの組み合わせが閾値に達すると、ニューロンは「発火」します。ニューロンの発火の組み合わせにより「学習」が行われます。

9. ディープラーニング

ディープラーニングは比較的新しい用語ですが、オンライン検索でこの用語が人気になる前から存在していました。この用語は、他のさまざまな分野で大きな成功を収めたことから、研究と産業界の両方で有名になりました。ディープラーニングは、ディープニューラルネットワーク技術（複数層の隠しニューロンを持つニューラルネットワークアーキテクチャ）を応用して問題を解決します。ディープラーニングは、データマイニングと同様に、機械学習アルゴリズムの独特なタイプであるディープニューラルネットワークアーキテクチャを使用するプロセスです。

10. 強化学習

「強化学習」を最もよく表しているのは、ケンブリッジ大学の教授であり、マイクロソフトの研究科学者でもあるクリストファー・ビショップ氏です。彼はそれを「強化学習とは、与えられた状況で最も適切な行動を見つけて報酬を最大化することです」と一文でまとめています。強化学習では、明確な目標は与えられず、機械は試行錯誤を通じて学習しなければなりません。古典的なマリオゲームを例に挙げてみましょう。強化学習アルゴリズムは、継続的な試行錯誤を通じて、特定の動作、つまり特定のゲームボタンがプレイヤーのゲームパフォーマンスを向上させることができることを判断できます。ここで、試行錯誤の目的は、ゲームパフォーマンスを最適化することです。

各ラウンドで異なるデータをテストに使用した K レイヤー相互検証の例 (青はトレーニングデータ、黄色はテストデータ)。各ラウンドの検証精度がボックスの下に表示されます。最終的な検証精度は、10 回のテストラウンドの平均です。画像ソース: GitHub。

11. K層クロスチェック

クロス検証は、データベース内の K レイヤーのうち 1 つを削除し、K から 1 を引いたすべてのレイヤーでトレーニングを行い、残りの K レイヤーでテストすることによってモデルを構築する方法です。このプロセスは K 回繰り返され、そのたびに異なるレイヤーのデータを使用してテストが行われ、エラー結果が統合モデルで結合され、平均化されます。この目的は、可能な限り最も正確な予測モデルを生成することです。

12. ベイジアン

確率について議論する場合、最も主流の考え方は 2 つあります。古典的な確率論は、ランダムなイベントの頻度に焦点を当てています。対照的に、ベイズ理論では、確率の目的は不確実性を定量化し、追加データが利用可能になると確率を更新することであるとしています。これらの確率を真の値まで拡張すると、さまざまな程度の確実性を持つ「学習」が得られます。

<<: 中国の人工知能コンピューティングパワーレポート：インターネット産業への投資が最も多く、都市ランキングでは杭州が1位

>>: 皆を置き去りにする！紅河の人工知能交通違反画像処理プラットフォームが市場にデビュー