図解機械学習: 誰でも理解できるアルゴリズムの原理

図解機械学習: 誰でも理解できるアルゴリズムの原理

機械学習の話題は誰もが話題にするほど普及していますが、それを完全に理解している人はほとんどいません。インターネット上の機械学習に関する記事の中には、理解しにくいものや理論的すぎるもの、あるいは人工知能、データサイエンス、将来の仕事の魔法についての漠然とした紹介でいっぱいのものなどがあります。
そこで、この記事の著者である vas3k は、簡潔な言葉とわかりやすい図解を使用して、読者が機械学習を理解しやすくしています。この記事では、難解な理論的導入を捨て、機械学習における実際的な問題、効果的な解決策、わかりやすい理論に焦点を当てています。プログラマーでもマネージャーでも、この記事はあなたのためのものです。
AIの範囲
AIにはどのような分野が含まれており、さまざまな技術用語とどのような関係があるのでしょうか。実際、私たちにはさまざまな判断方法があり、AI のカテゴリの区分は一意ではありません。たとえば、最も「一般的な」理解は、次の図のようになるかもしれません。
あなたはこう思うかもしれません:

  • 人工知能は生物学や化学と同様に、包括的な知識の分野です。
  • 機械学習は人工知能の非常に重要な部分ですが、唯一の部分ではありません。
  • ニューラル ネットワークは、現在非常に人気のある機械学習の一種ですが、他にも優れたアルゴリズムは存在します。

しかし、ディープラーニングはニューラルネットワークに関するものなのでしょうか?もちろん、必ずしもそうとは限りません。たとえば、周志華教授の Deep Forest は、微分不可能なコンポーネントに基づく最初のディープラーニング モデルです。したがって、より科学的な区分は次のようになります。

機械学習の下には表現学習があり、これは機械学習を使用して表現自体をマイニングするすべての方法をまとめたものです。データ機能を手動で設計する必要がある従来の ML と比較して、このタイプの方法では、有用なデータ機能を自ら学習できます。ディープラーニング全体も一種の表現学習であり、レイヤーごとのモデルを通じて単純な表現から複雑な表現を構築します。
機械学習ロードマップ<br /> 面倒な場合は、完全な技術ロードマップを参照してください。

現在の主流の分類によれば、機械学習は主に次の 4 つのカテゴリに分類されます。

  • 古典的な機械学習;
  • 強化学習;
  • ニューラルネットワークとディープラーニング。
  • アンサンブル法;

古典的な機械学習<br /> 従来の機械学習は、多くの場合、教師あり学習と教師なし学習の 2 つのカテゴリに分けられます。

教師あり学習<br /> 分類では、モデルには常にメンター、つまり対応する特徴の注釈が必要であり、これによりマシンはこれらの注釈に基づいてさらに分類することを学習できます。すべてを分類することができ、ユーザーを興味に基づいて分類したり、記事を言語と主題に基づいて分類したり、音楽をジャンルに基づいて分類したり、電子メールをキーワードに基づいて分類したりできます。
スパムフィルタリングでは、ナイーブベイズアルゴリズムが広く使用されてきました。実際、ナイーブベイズはかつて最もエレガントで実用的なアルゴリズムであると考えられていました。

サポート ベクター マシン (SVM) は、最も人気のある古典的な分類方法です。また、写真や文書内の植物の外観など、存在するすべてのものを分類するためにも使用されます。サポート ベクター マシンの背後にある考え方も非常にシンプルです。次の図を例に挙げてみましょう。データ ポイント間のマージンが最大となる 2 本の線を描画しようとします。

教師あり学習 — 回帰<br /> 回帰は基本的に分類ですが、予測されるターゲットはカテゴリではなく数値です。たとえば、走行距離で計算される自動車価格、時間で計算される交通量、企業の成長で計算される市場需要などです。予測対象が時間に依存する場合、回帰は非常に適した選択肢です。

教師なし学習<br /> 教師なし学習は 1990 年代に発明され、「未知の特徴に基づいてターゲットをセグメント化し、機械に最善の方法を選択させる」と説明できます。
教師なし学習 - クラスタリング<br /> クラスタリングは、事前定義されたクラスを使用しない分類の一種です。持っている靴下の色をすべて覚えていないときに、色ごとに分類するようなものです。クラスタリング アルゴリズムは、特定の特性に基づいて類似のオブジェクトを見つけ、それらを 1 つのクラスターにマージしようとします。

教師なし学習 - 次元削減

「特定の機能を高レベルの機能に組み合わせる」

断片化された機能を使用するよりも、抽象的なものを使用する方が常に便利です。たとえば、三角形の耳、長い鼻、大きな尻尾を持つすべての犬を、「牧羊犬」という素敵な抽象的な概念にまとめることができます。
たとえば、テクノロジーに関する記事には専門用語が多く含まれ、政治ニュースには政治家の名前が最も多く含まれています。これらの特徴的な単語や冠詞を新しい特徴に組み合わせて、それらの潜在的な関連性を維持したい場合、SVD は良い選択です。

教師なし学習 - 相関ルール学習

「注文フローの特徴的なパターンの分析」

ショッピングカートの分析、マーケティング戦略の自動化など。たとえば、顧客がビール6本パックを持ってレジに近づくとき、その途中にピーナッツを置くべきでしょうか?もしそうなら、これらの顧客はどのくらいの頻度で購入に来るでしょうか?ビールピーナッツが完璧な組み合わせなら、他に何が素晴らしい組み合わせになるでしょうか?

現実の世界では、すべての大手小売業者が独自の専用ソリューションを持っており、最も技術的に進歩したものは「推奨システム」と呼ばれるものです。
アンサンブル法「団結は力なり」、この古い格言は、機械学習の分野における「アンサンブル法」の基本的な考え方をよく表現しています。アンサンブル法では、通常、複数の「弱いモデル」をトレーニングして、それらを組み合わせて強力な方法にすることを期待します。さまざまな古典的な ML コンテストでは、勾配ブースティング ツリーやランダム フォレストなどの最高の結果のほとんどは、アンサンブル手法です。
一般的に言えば、統合方法の「組み合わせ方法」は、スタッキング、バギング、ブースティングの 3 つの主要なタイプに分けられます。
下の図に示すように、スタッキングでは通常、異種の弱学習者を考慮します。弱学習者は最初に並列でトレーニングされ、その後「メタモデル」を介して結合され、異なる弱モデルの予測結果に基づいて最終的な予測結果が出力されます。

バギング法では通常、均質な弱学習者を考慮し、これらの弱学習者を互いに独立して並行して学習し、何らかの決定論的な平均化プロセスに従ってそれらを組み合わせます。すべての弱学習者が決定木モデルであると仮定すると、結果として得られるバギングはランダム フォレストになります。

ブースティング法では通常、均質な弱学習者を考慮しますが、その考え方は「分割統治」です。これらの弱い学習者を高度に適応的な方法で順次学習し、後続の弱いモデルは、前の弱いモデルによって誤分類されたデータの学習に重点を置きます。
これは、データの一部に焦点を当てたさまざまな弱い分類器を使用して「分割統治」の効果を達成することと同じです。以下に示すように、ブースティングは異なるモデルを直列に組み合わせるパラダイムです。 XGBoost や LightGBM などの有名なライブラリやアルゴリズムはすべて、ブースティング方式を使用しています。

現在、ナイーブベイズからブースティング法まで、古典的な機械学習の主な分野はすでに利用可能です。読者がより体系的かつ詳細に理解したい場合、Li Hang 教授の「統計学習法」と Zhou Zhihua 教授の「機械学習」は、中国語のチュートリアルとして最適です。
もちろん、このブログでは、強化学習やディープラーニングなども紹介されており、人工知能に興味はあるが関連分野を専攻していない読者に非常に適した内容となっています。生き生きとしたイラストと相まって、非常に優れた科学普及記事と言えるでしょう。このシンプルでわかりやすい物語スタイルにご興味がおありの方は、ブログで詳しくお読みいただけます。

参考リンク:
https://vas3k.com/blog/machine_learning/

<<:  AIOps が IT 管理を変革する方法

>>:  素人の私でも、機械学習コミュニティのこれらの問題が分かります

ブログ    

推薦する

技術革新は「プロトタイプ」で止まるわけにはいかない…

[[270666]] [51CTO.com クイック翻訳] 昨今、クラウドコンピューティング、ブロ...

この遠隔操作脳実験は成功したが、ネットユーザーを怖がらせた

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

研究に特化したChatGPTプラットフォーム:回答は完全に論文から取得され、無料で使用できます

より専門的な情報を入手する必要がある場合、文献を調べることはしばしば「頭痛の種」となる作業です。結局...

杭州妻殺害事件解決、警察AIも貢献

7月25日、杭州公安局は「杭州人妻殺害事件」について記者会見を開き、捜査結果を発表した。ネットユーザ...

Github が絶賛: モザイクテキスト = 無意味、AI があなたの思考をすべて見抜く、オープンソースに

「この写真をフォトショップで加工しましょう!」 「いいですよ、でもこの段落は検閲しないと面倒なことに...

2019年の人工知能の5つの主要な発展傾向

人工知能が開発を加速「中国人工知能産業市場展望及び投資戦略計画分析報告書」の統計によると、2017年...

...

...

江長建、世界初のサイボーグと対談 - JD Smart Community 2.0 全国ローンチカンファレンス ライブプレビュー

[[374688]] 「半オーク」「半魚」… SF映画、漫画、おとぎ話では、それは驚くことではありま...

アリババの無人車が路上試験を開始、BATの3大巨頭が同じ舞台に集結

テンセントと百度の自動運転車はアリババを上回っており、自動運転分野でのBATの戦いがまもなく始まるか...

集団雷雨!自動化された攻撃により、主要な言語モデルを1分で脱獄できる

大規模な言語モデル アプリケーションが直面する 2 つの主要なセキュリティ上の脅威は、トレーニング ...

【専門家がここにいるエピソード3】大量ログ分析とインテリジェントな運用・保守

1. AIOpsとインテリジェントログセンター1.1 AIOps の 5 つのレベルインテリジェント...

すべては応用のため!九張雲記DataCanvas大型モデルシリーズ成果発表!

11月21日、北京で「基礎を築き、力をつけ、未来へスマートに進む」九張雲済DataCanvasビッ...

Transformer の再考: 反転がより効果的になり、現実世界の予測のための新しい SOTA が出現

トランスフォーマーは、ペアワイズ依存関係を記述し、シーケンス内のマルチレベル表現を抽出できるため、時...