機械学習アルゴリズムの基礎知識

機械学習アルゴリズムの基礎知識

利用できるアルゴリズムは多数あります。難しいのは、さまざまな種類の方法があり、それらの方法に拡張もあるという事実です。これにより、何が正統なアルゴリズムであるかを区別することがすぐに難しくなります。この記事では、この分野で遭遇するアルゴリズムについて考え、区別するための 2 つの方法を紹介したいと思います。

[[114409]]

アルゴリズムを分類する最初の方法は、学習方法に基づいており、2 番目の方法は、形式と機能の類似性に基づいています(類似した動物をグループ化するのと同じように) 。どちらのアプローチも有用です。

学習方法

アルゴリズムは、経験、環境、または入力データと呼ばれるものとの相互作用に基づいて、さまざまな方法で問題をモデル化できます。機械学習や人工知能の教科書では、まずアルゴリズムがどのように学習するかを考えるのが一般的です。

アルゴリズムの主な学習方法と学習モデルはわずかしかありません。それらを 1 つずつ紹介し、いくつかのアルゴリズムと、それらが解決するのに適した問題の種類を例として示します。

  • 教師あり学習:入力データはトレーニング データと呼ばれ、スパム/非スパムや一定期間の株価などの既知のラベルまたは結果を持ちます。モデルのパラメータはトレーニング プロセスを経る必要があり、その過程でモデルは予測を行う必要があります。予測が一致しない場合は、修正が必要になります。

  • 教師なし学習: 入力データにはラベルや既知の結果がありません。モデルは、入力データに存在する構造を推測することによって構築されます。このような問題の例としては、関連ルールの学習やクラスタリングが挙げられます。アルゴリズムの例としては、 AprioriアルゴリズムやK-meansアルゴリズムなどがあります。

  • 半教師あり学習:入力データは、ラベル付きデータとラベルなしデータの両方で構成されます。適切な予測モデルは存在しますが、予測を行う際に基礎となる構造を発見してデータを整理できる必要があります。このような問題には分類や回帰が含まれます。一般的なアルゴリズムには、ラベルのないデータをどのようにモデル化するかについていくつかの仮定を行う他の柔軟なモデルの一般化が含まれます。

  • 強化学習:入力データは環境からのインセンティブとしてモデルに提供され、モデルはそれに応答する必要があります。フィードバックは、教師あり学習のようにトレーニング プロセスから得られるのではなく、環境からの罰または報酬として得られます。典型的な問題はシステムとロボットの制御です。アルゴリズムの例としては、 Q学習や時間差分学習などがあります

大量のデータを処理し、ビジネス上の意思決定をモデル化する場合、教師あり学習と教師なし学習が一般的に使用されます。現在、注目されている話題は半教師あり学習です。これは、たとえば、データセットは大きいがラベル付けされたデータはほとんど含まれていない画像分類に使用されます。

アルゴリズムの類似性

通常、アルゴリズムは機能と形式の類似性に基づいて区別されます。たとえば、ツリー構造やニューラル ネットワーク メソッドなどです。これは物事を分類するのに便利な方法ですが、完璧ではありません。それでも、ニューラル ネットワークにヒントを得た方法とインスタンス ベースの方法の両方である学習ベクトル量子化など、いくつかのアルゴリズムは、いくつかのカテゴリに簡単に分類できます。アルゴリズム名の中には、解決する問題を説明するものや、回帰やクラスタリングなどの特定のアルゴリズムのクラスの名前であるものもあります。このため、さまざまなソースからさまざまなカテゴリに分類されたアルゴリズムが表示されます。機械学習アルゴリズム自体と同様に、完璧なモデルは存在せず、十分なモデルのみが存在します。

このセクションでは、最も直感的にわかる方法で、多くの一般的な機械学習アルゴリズムをリストします。カテゴリもアルゴリズムも包括的ではありませんが、代表的なものであり、分野全体の一般的な理解に役立つと思います。ここに記載されていないアルゴリズムまたはアルゴリズムのクラスを見つけた場合は、コメントで共有してください。始めましょう。

回帰分析

回帰は、まずモデルの予測誤差の尺度を決定し、次にこの尺度を使用して変数間の関係を繰り返し最適化するモデリング手法です。回帰法は統計学の主要な応用であり、統計的機械学習に分類されます。これは少し混乱を招きます。なぜなら、回帰は問題のクラスとアルゴリズムのクラスを指すために使用できるからです。実際には、回帰はプロセスです。以下にいくつか例を挙げます。

  • 通常の最小二乗法

  • ロジスティック回帰

  • ステップワイズ回帰

  • 多変量適応回帰スプライン(MARS)

  • 局所多項式回帰フィット(LOESS)

例に基づく方法

インスタンスベースの学習モデルは、モデルにとって重要または必要であると見なされるトレーニング データ内のインスタンスに基づいて意思決定の問題をモデル化します。このような方法では通常、例のデータベースを構築し、何らかの類似性基準に基づいて新しいデータをデータベースと比較して、最適な一致を見つけて予測を行います。そのため、インスタンスベースの方法は、「勝者総取り」方式やメモリベースの学習とも呼ばれます。このアプローチは、既存のインスタンスの表現とインスタンス間の類似性の測定に重点を置いています。

  • K近傍法(kNN)

  • ベクトル量子化の学習(LVQ)

  • 自己組織化マップ(SOM)

正規化手法

これは、複雑度の高いモデルにペナルティを課し、一般化に適したより単純なモデルを優先する別のアプローチ (通常は回帰分析) の拡張です。ここでいくつかの正規化方法を挙げるのは、これらの方法が人気があり、強力で、他の方法に比べて簡単に改善できることが多いためです。

  • リッジ回帰

  • ラッソアルゴリズム(LASSO)

  • 弾性ネットワーク

決定木学習

決定木アプローチは、データ内の属性の実際の値に基づいて決定を下す意思決定プロセスをモデル化します。特定のレコードに対する予測が可能になるまで、決定はツリーを分岐します。分類や回帰の問題では、データを使用して決定木をトレーニングします。

  • 分類と回帰ツリー(CART)

  • 反復二分木生成3 (ID3)

  • C4.5アルゴリズム

  • カイ二乗自動インタラクティブビュー(CHAID)

  • 単層決定木

  • ランダムフォレスト

  • 多変量適応回帰スプライン(MARS)

  • 勾配ブースティングマシン(GBM)

ベイジアンアルゴリズム

ベイズ法は、ベイズの定理を分類および回帰問題に明示的に適用するアルゴリズムです。

  • ナイーブベイズアルゴリズム

  • AODEアルゴリズム

  • ベイジアン信念ネットワーク(BBN)

カーネル法

最も有名なカーネル関数法は、人気のあるサポート ベクター マシン アルゴリズムであり、これは実際には一連の方法です。カーネル関数法は、入力データを高次元ベクトル空間にマッピングする方法に関係しており、特定の分類問題や回帰問題をより簡単に解決できます。

  • サポートベクターマシン(SVM)

  • ラジアル基底関数(RBF)

  • 線形判別分析(LDA)

クラスタリング手法

回帰と同様に、クラスタリングは問題のクラスと方法のクラスの両方を表します。クラスタリング手法は、一般的に、モデリング手法(重心ベースまたは階層型)に応じて分類されます。すべての方法は、データの固有の構造を使用して、データを最も共通性の高いカテゴリに分類しようとします。

  • K平均法

  • 期待最大化(EM)

相関ルール学習

相関ルール学習は、観測データ内の変数間の関係を最もよく説明するルールを抽出するアルゴリズムのクラスです。これらのルールにより、大規模な多次元データ セット内の重要かつ商業的に有用な関連性を発見することができ、それをさらに活用することができます。

  • アプリオリアルゴリズム

  • エクラアルゴリズム

人工ニューラルネットワーク

人工ニューラル ネットワークは、その構造機能が生物学的ニューラル ネットワークにヒントを得たアルゴリズムです。これらは、回帰問題や分類問題で一般的に使用されるパターン マッチング方法のクラスですが、実際には、この大規模なサブクラスには、さまざまな種類の問題を解決できる数百のアルゴリズムとそのバリエーションが含まれています。古典的で人気のある方法には以下のものがあります (私はディープラーニングをこのカテゴリから分離しました)。

  • パーセプトロン

  • バックプロパゲーションアルゴリズム

  • ホップフィールドニューラルネットワーク

  • 適応マッピング(SOM)

  • ベクトル量子化の学習(LVQ)

ディープラーニング

ディープラーニング手法は、安価で冗長なコンピューティング リソースを活用する人工ニューラル ネットワークの最新の改良です。このタイプの方法は、はるかに大規模で複雑なニューラル ネットワークを構築しようとします。前述のように、多くの方法は、大規模なデータ セット内の非常に限られたラベル付きデータに基づいて、半教師あり学習の問題を解決します。

  • 制限付きボルツマンマシン(RBM)

  • ディープビリーフネットワーク(DBN)

  • 畳み込みニューラルネットワーク

  • カスケードオートエンコーダ(SAE)

次元削減法

クラスタリング手法と同様に、次元削減手法は、データに固有の構造を利用してデータを要約または説明しようとしますが、より少ない情報を使用して教師なしの方法で行われます。これは、高次元データを視覚化したり、後続の教師あり学習のためにデータを簡素化したりするのに役立ちます。

  • 主成分分析(PCA)

  • 部分最小二乗回帰(PLS)

  • サーモンマップ

  • 多次元尺度法(MDS)

  • 投影の追求

アンサンブル法

アンサンブル法は、独立してトレーニングされた複数の弱いモデルを組み合わせ、その予測を何らかの方法で組み合わせて全体的な予測を生成するものです。サブモデルとして使用する学習モデルの種類を選択し、その結果をどのように統合するかに多くの努力が注がれてきました。これは非常に強力なため、人気のある技術クラスです。

  • ブースティング

  • 袋詰め

  • アダプティブブースティング(AdaBoost)

  • ブレンディング

  • 勾配ブースティングマシン(GBM)

  • ランダムフォレスト

これは、最適曲線積分の例です。弱いメンバーは灰色の線で表示され、アンサンブル予測は赤で表示されます。この図は、温度/オゾンデータと、局所多項式説明回帰適合(LOESS)を使用したモデルから導出された曲線を示しています

画像はパブリックドメインでライセンスされており Wikipedia より提供されています。

この機械学習アルゴリズムの概要の目的は、現在存在するアルゴリズムの概要を説明し、今後遭遇する可能性のあるアルゴリズムに関連するツールを提供することです。

この投稿に添付されているリソースは、ご想像のとおり、機械学習アルゴリズムに関するその他の優れたリストです。あまり圧倒される必要はありません。多くのアルゴリズムを知ることは有用ですが、いくつかの重要なアルゴリズムを深く理解し、効果的に実行することも非常に有用です。

この記事は、36 Big Data Translation Team の darker005 が翻訳し、36 Big Data が編集しました。この記事を転載する場合は当サイトの許可が必要であり、翻訳者、出典(36ビッグデータ)、このページへのリンクを記載してください。オリジナルリンク: http://www.36dsj.com/?p=8911

<<:  プログラマーが知っておくべき10の基本的な実用的なアルゴリズムとその説明

>>:  世界を支配するトップ 10 のアルゴリズムをご存知ですか?

ブログ    
ブログ    

推薦する

...

...

...

2021年11月のドローン業界の最新動向を3分で振り返る

現在、人工知能や5Gなどの技術の助けを借りて、我が国のドローン開発は急速な成長の軌道に乗っています。...

...

人工知能は諸刃の剣です。EUは利益を促進し、害を避けるための規制を導入しました。

近年、交通と環境に対する要求が継続的に高まっており、わが国の新エネルギー自動車は急速な発展を遂げてい...

自動運転、顔認識…人工知能の時代が到来。私たちはどう対応すべきか?

2016年以降、人工知能がニュースに登場する頻度が高まっています。実は、理工系女子の私にとって、子...

人工知能はサイバー犯罪をより容易かつ頻繁にしている、と研究が指摘

8月10日、サイバーセキュリティ企業SlashNextが発見した一連の証拠から、違法目的で開発された...

生成 AI とその使用例とは何ですか?

生成 AI は私たちの働き方を変える運命にある驚異的な技術ですが、それは何を実現できるのでしょうか。...

Daguan Data: NLP の概要と自動テキスト分類アルゴリズムの詳細な説明

自然言語処理は人工知能の分野で常に重要なトピックであり、2018年も話題となりました。大量のテキスト...

さようなら鉄丼!もう一つの業界が混乱に陥っています!中国建設銀行が正式に発表

[[231600]]無人スーパー、無人運転…これらはもう珍しいことではない「無人銀行」って聞いたこと...

AIに取り組んでいる学部生がオンラインでクラッシュ:GitHubモデルの実行に3か月かかり、難しすぎる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機密コンピューティングが生成型AIの導入を確実にする方法

生成 AI は、新しい製品、ビジネス、業界、さらには新しい経済に情報を提供することができます。しかし...

AIと宇宙技術が日常生活をどう改善するか

衛星から都市計画まで、人工知能の進歩は新たな洞察をもたらしています。 [[270081]]宇宙技術と...