この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。 機械学習は、データサイエンスの分野で最も重要なサブフィールドの 1 つです。機械学習という用語は、1959 年に IBM の研究者であるアーサー・サミュエルによって初めて使用されました。それ以来、機械学習の分野は多くの人々の間で大きな関心を集めてきました。 データ サイエンスの旅を始めるとき、おそらく最初に遭遇するサブフィールドは機械学習です。機械学習とは、実行中に情報を収集することで継続的に学習し、改善するコンピューター アルゴリズムの集合を表すために使用される名前です。 機械学習アルゴリズムはすべて何らかのデータに基づいています。最初に、アルゴリズムに「トレーニング データ」が入力され、特定の問題を解決するための直感が構築されます。アルゴリズムが学習段階を通過すると、獲得した知識を使用して、さまざまなデータ セットに基づいて同様の問題を解決できるようになります。 一般的に、機械学習アルゴリズムは次の 4 つのカテゴリに分類されます。
上記の各アルゴリズムには特定の目標があります。たとえば、教師あり学習は、トレーニング データの範囲を拡大し、それを使用して将来のデータや新しいデータを予測することを目的としています。一方、教師なしアルゴリズムは、データを整理してフィルタリングし、意味を理解するために使用されます。 各カテゴリには、特定のタスクを実行するために設計されたさまざまな特定のアルゴリズムがあります。この記事では、すべてのデータ サイエンティストが知っておくべき 5 つの重要なアルゴリズムを紹介し、機械学習の基礎について説明します。 1. 回帰 回帰アルゴリズムは、独立変数が従属変数にどの程度影響を与えるかを理解するために、さまざまな変数間の可能な関係を見つけるために使用される教師ありアルゴリズムです。回帰分析は方程式として考えることができます。たとえば、方程式 y = 2x + z があり、y が従属変数、x と z が独立変数であるとします。回帰分析は、x と z が y の値にどの程度影響するかを調べることです。 より高度で複雑な問題にも同じロジックが適用されます。さまざまな問題に対して、多くの種類の回帰アルゴリズムが存在します。最もよく使用される上位 5 つは、おそらく次のとおりです。
2. 分類 機械学習における分類とは、事前に分類されたトレーニング データセットに基づいて項目をカテゴリに割り当てるプロセスです。分類は教師あり学習アルゴリズムの一種と考えられています。これらのアルゴリズムは、トレーニング データの分類結果を使用して、新しい項目が定義されたカテゴリのいずれかに分類される確率を計算します。分類アルゴリズムのよく知られた例としては、受信メールをスパムか非スパムかに分類することが挙げられます。 分類アルゴリズムには多くの種類がありますが、最も一般的に使用されるものは次のとおりです。
画像出典: Google 3. 統合 アンサンブル アルゴリズムは、2 つ以上の他の機械学習アルゴリズムの予測を組み合わせて、より正確な結果を生成します。結果は、投票または結果の平均化によって組み合わせることができます。投票は通常分類に使用され、平均化は回帰に使用されます。 アンサンブル アルゴリズムには、バギング、ブースティング、スタッキングの 3 つの基本的なタイプがあります。
4. クラスタリング クラスタリング アルゴリズムは、同じクラスター内のポイントが異なるクラスター内のポイントよりも互いに類似するようにデータ ポイントをグループ化するために使用される、教師なしアルゴリズムのグループです。クラスタリング アルゴリズムには 4 つの種類があります。
5. 関係 関連付けアルゴリズムは、特定のデータ セット内で特定の項目が同時に発生する確率を検出するために使用される教師なしアルゴリズムであり、主にマーケット バスケット分析に使用されます。最も一般的に使用される関連付けアルゴリズムは Apriori です。 Apriori アルゴリズムは、トランザクション データベースでよく使用されるマイニング アルゴリズムです。 Apriori は、頻繁に使用されるアイテムセットをマイニングし、それらのアイテムセットからいくつかの関連ルールを生成するために使用されます。 たとえば、牛乳とパンを買う人は、卵も買う可能性が高いです。これは、各顧客の過去の購入履歴から導き出すことができます。次に、アルゴリズムはこれらのアイテムが一緒に購入される頻度を計算し、その信頼レベルの特定のしきい値に基づいて関連ルールを形成します。 画像出典: Google 機械学習は、データサイエンスの最もよく知られ、最も研究されているサブフィールドの 1 つです。より高い精度とより速い実行速度を実現するために、新しい機械学習アルゴリズムも常に開発されています。使用されるアルゴリズムに関係なく、一般的には、教師ありアルゴリズム、教師なしアルゴリズム、半教師ありアルゴリズム、ブースティング アルゴリズムの 4 つのカテゴリのいずれかに分類できます。各アルゴリズムには異なる目的があります。 これらのアルゴリズムは十分に研究され、広く使用されているため、実装方法ではなく、使用方法を理解するだけで済みます。よく知られている Python 機械学習モジュール (ScikitLearn など) のほとんどには、これらのアルゴリズムのすべてではないにしても、ほとんどの定義済みバージョンが含まれています。 原理を理解したら、すぐに使い方をマスターして使い始めましょう。 |
>>: トランスワープテクノロジーの孫元浩氏が「中国の人工知能起業家30人」の一人に選出
カスタマーサービスに電話すると、ロボットはプログラムに従ってプロンプトを出すだけで、ユーザーが望む情...
1956年にコンピューターの専門家ジョン・マッカーシーが「人工知能」という言葉を作り出して以来、わず...
TechCrunchのウェブサイト、北京時間9月25日によると、多くの競合他社と同様に、Micro...
前回の記事「エントリーレベルのデータベースのアルゴリズム [I]」では、いくつかのデータ アルゴリズ...
人工知能(AI)とモノのインターネット(IoT)の組み合わせにより、自律走行車やスマートウェアラブル...
IBM は、NASA の衛星データに基づいて構築された watsonx.ai 地理空間インフラストラ...
あなたの目の前に表示されている画像の人物は現実には存在しません。実は、機械学習モデルによって作成され...
実のところ、誰もが詐欺防止を必要としているわけではありません。金融機関が最新の犯罪手法に追いつこうと...
2018 年は過去のものとなりましたが、AI は依然として今年の主要なテクノロジー トレンドの 1...
製造業の企業は顧客に最高の製品とサービスを提供することを目指しており、最終的な目標は顧客を満足させ、...
マイクロロボットは極めて狭い空間でも移動できますが、これは人間や従来のロボットでは不可能なことです。...
[51CTO.com からのオリジナル記事]人工知能は近年非常に人気の高い技術です。99 歳から歩け...
2018年12月8日、中国国家管弦楽団コンサートホールで、中国工業情報化出版メディアグループが主催し...