AI、機械学習、ディープラーニングの謎を解く

ディープラーニング、機械学習、人工知能 — これらの流行語は分析の未来を表しています。この記事では、実際の例を通して機械学習とディープラーニングとは何かを説明します。今後の記事では、垂直的なユースケースについて検討します。目標は、データサイエンティストになることではなく、機械学習で何ができるかをより深く理解してもらうことです。機械学習が開発者にとってますます利用しやすくなり、データサイエンティストがドメインエキスパート、アーキテクト、開発者、データエンジニアと連携して作業することが多くなるにつれて、機械学習で何が可能かを誰もが詳しく理解することが重要になります。あなたのビジネスが生み出すあらゆる情報は、付加価値をもたらす可能性があります。この投稿と今後の投稿は、皆さんが独自のデータを見直して新たな機会を発見するきっかけとなることを目的としています。

[[350183]]

人工知能とは何ですか?

人工知能の歴史を通じて、その定義は絶えず書き換えられてきました。人工知能は包括的な用語です (この概念は 50 年代に遡ります)。機械学習は AI のサブセットであり、ディープラーニングは機械学習のサブセットです。

1985年、私がNSAでインターンをしていた頃、人工知能も非常にホットな話題でした。 NSA では、AI エキスパートシステムに関する MIT のビデオコースも受講しました。エキスパートシステムは、ルールエンジン内のエキスパートの知識を取得します。ルールエンジンは金融や医療などの業界で広く使用されており、最近ではイベント処理にも使用されていますが、データが変更されると、ルールの更新と維持が非常に困難になります。機械学習の強みは、データから学習し、データに基づいた確率的予測を提供できることです。

過去 10 年間で分析はどのように変化しましたか?

ハーバードビジネスレビューのトーマスダベンポート氏によると、分析テクノロジーは過去 10 年間で大きな変化を遂げました。コモディティサーバーを介したより強力で安価な分散コンピューティング、ストリーミング分析、機械学習技術の向上により、企業はより多くのさまざまな種類のデータを保存および分析できるようになりました。

Apache Spark などのテクノロジーは反復アルゴリズムを使用し、反復にわたってメモリにデータをキャッシュし、軽量のスレッドを使用することで、分散データの並列処理をさらに高速化します。

グラフィックスプロセッシングユニット (GPU) は、マルチコアサーバー上の並列処理を高速化します。 GPU は、複数のタスクを同時に処理するように特別に設計された、数千のより小型で効率的なコアで構成された超並列アーキテクチャを備えています。一方、CPU は、順次シリアル処理に最適化された少数のコアで構成されています。潜在的なパフォーマンスの点では、Cray -1 から多数の GPU を搭載した今日のクラスターへの進化は、コストのほんの一部で、これまでに製造された最速のコンピューターの約 100 万倍のパフォーマンスを実現します。

機械学習とは何ですか?

機械学習では、アルゴリズムを使用してデータ内のパターンを検出し、それらのパターンを認識するモデルを使用して新しいデータに関する予測を行います。

一般的に、機械学習は、教師あり学習、教師なし学習、その中間の 3 つのタイプに分けられます。教師あり学習アルゴリズムはラベル付きデータを使用し、教師なし学習アルゴリズムはラベルなしデータ内のパターンを検出します。半教師あり学習では、ラベル付きデータとラベルなしデータを混合して使用します。強化学習は、フィードバックに基づいて報酬を最大化するようにアルゴリズムをトレーニングします。

教師あり学習

教師ありアルゴリズムではラベル付きデータを使用します。この場合、入力とターゲットの結果またはラベルの両方がアルゴリズムに提供されます。

教師あり学習は、予測を行うことができるモデルを構築するため、予測モデリングまたは予測分析とも呼ばれます。予測モデリングの例としては、分類と回帰が挙げられます。分類では、既知の項目のラベル付けされた例 (不正かどうかがわかっている取引など) に基づいて、項目がどのクラスに属するか (取引が不正かどうかなど) を識別します。ロジスティック回帰は、確率（たとえば詐欺の確率）を予測します。線形回帰は、不正行為の量などの数値を予測します。

カテゴリの例としては次のようなものがあります。

クレジットカード詐欺検出（詐欺ではなく詐欺）。
クレジットカード申し込み（信用度良好、信用度不良）。
スパム検出（スパム、スパムではない）。
テキスト感情分析（幸せ、不幸）。
患者のリスク（高リスク患者、低リスク患者）を予測します。
腫瘍を悪性か非悪性かに分類します。

ロジスティック回帰 (またはその他のアルゴリズム) の例には次のものがあります。

過去の不正な自動車保険請求と、請求者の年齢、請求額、事故の深刻度などの請求の特性に基づいて、詐欺の可能性を予測します。
患者の特徴を考慮して、うっ血性心不全の可能性を予測します。

線形回帰の例としては次のようなものがあります。

過去の自動車保険の不正請求と、請求者の年齢、請求額、事故の深刻度などの請求の特性に基づいて、不正の金額を予測します。
過去の不動産販売価格と住宅の特徴（平方フィート数、寝室数、場所など）に基づいて住宅の価格を予測します。
過去の近隣の犯罪統計に基づいて犯罪率を予測します。

他にも教師あり学習アルゴリズムと教師なし学習アルゴリズムは存在しますが、ここではすべてを取り上げることはしませんが、各カテゴリから 1 つずつ詳しく説明します。

分類例: デビットカード詐欺

分類では、既知のラベルと事前に決定された特性を持つデータのセットを取得し、この情報に基づいて新しいデータにラベルを付ける方法を学習します。機能は、あなたが尋ねる「はい」か「いいえ」の質問です。タグはこれらの質問に対する答えです。

デビットカード詐欺の例を見てみましょう。

何を予測したいのでしょうか?

デビットカード取引が不正であるかどうか。
詐欺はラベル（真または偽）です。

予測を行うために使用できる「はい/いいえ」の質問または属性は何ですか?

今日支出された金額は過去の平均よりも多いですか?
これらの取引は今日複数の国で行われていますか?
今日の取引数は過去の平均よりも多いですか?
過去 3 か月と比べて、今日の新規加盟店タイプは増加していますか?
本日、リスクカテゴリコードを持つ複数の販売店で購入を行いましたか?
過去の PIN の使用と比べて、現在では変わった署名はありますか?
過去 3 か月と比べて新たな購入活動はありますか?
過去 3 か月と比べて、現在は外国人の購入が増えていますか?

分類モデルを構築するには、分類に最も貢献する有用な特徴を抽出する必要があります。

決定木

決定木は、入力された特徴に基づいてクラスまたはラベルを予測するモデルを作成します。これは、各ノードで機能を含む質問を評価し、その回答に基づいて次のノードへのブランチを選択することによって機能します。デビットカード詐欺を予測するための意思決定ツリーは次のようになります。機能の質問はノードであり、回答の「はい」または「いいえ」は子ノードへのツリー内のブランチです。 (実際のツリーにはさらに多くのノードがあることに注意してください。)

質問 1: 24 時間のコストは平均よりも高いですか?

はい

質問 2: 現在、高リスクの販売業者からの取引は多くありますか?

詐欺の可能性 = 90%
不正でない確率 = 50%

決定木は視覚化と解釈が容易なため人気があります。アルゴリズムとアンサンブル法を組み合わせることで、モデルの精度を向上させることができます。アンサンブルの例としては、決定木の複数のランダムなサブセットを結合するランダムフォレストアルゴリズムがあります。

教師なし学習

教師なし学習は記述分析とも呼ばれ、事前に提供されたラベル付きデータはありません。これらのアルゴリズムは、入力データ内の類似点やパターンを検出します。教師なし学習の例としては、購入データに基づいて類似の顧客をグループ化することが挙げられます。

クラスタリング

クラスタリングでは、アルゴリズムが入力インスタンス間の類似性を分析して、入力インスタンスをカテゴリにグループ化します。クラスタリング使用例には次のようなものがあります。

検索結果のグループ化。
類似の顧客をグループ化します。
類似した患者をグループ化します。
テキスト分類。
ネットワークセキュリティの異常検出 (クラスター内の相違点や外れ値の検出)。

K 平均アルゴリズムはデータを K 個のクラスターにグループ化し、各データポイントはクラスター中心に最も近い平均を持つクラスターに属します。

クラスタリングの一例としては、製品やサービスをより適切にカスタマイズするために顧客をセグメント化したい企業が挙げられます。顧客は、人口統計や購入履歴などの特性に基づいてグループ化できます。より価値のある結果を得るために、教師なしクラスタリングは教師あり学習と組み合わせられることがよくあります。たとえば、この銀行顧客 360 ユースケースでは、顧客はまずアンケートの回答に基づいてセグメント化されます。次に、顧客グループを分析し、ユーザーポートレートでラベルを付けます。これらのタグは、顧客 ID を介して、アカウントの種類や購入したコンテンツなどの機能にリンクされます。最後に、ラベル付けされた顧客に教師あり機械学習を適用し、調査ユーザープロファイルと銀行取引行動をリンクして、深い洞察を提供できるようになりました。

ディープラーニング

ディープラーニングとは、入力と出力の間にあるノードの「隠し層」で構成されたネットワークである多層ニューラルネットワークを指す用語です。ニューラルネットワークにはさまざまなバリエーションがありますが、このニューラルネットワークチートシートで詳しく学ぶことができます。改良されたアルゴリズム、GPU、超並列処理 (MPP) により、数千の層を持つニューラルネットワークが可能になりました。各ノードは入力データと重みを受け取り、出力層に到達して信頼値の誤差を計算するまで、次の層のノードに信頼値を出力します。勾配降下法と呼ばれるプロセスでバックプロパゲーションを行うことで、エラーがネットワークを通じて再度送り返され、重みが調整されてモデルが改善されます。このプロセスは何千回も繰り返され、結果として生じたエラーに基づいてモデルの重みが調整され、エラーがこれ以上削減できなくなるまで続きます。

このプロセスでは、各レイヤーがモデルの最適な特徴を学習します。これには、特徴を事前に決定する必要がないという利点があります。しかし、これはモデルの決定が解釈できないという欠点も意味します。意思決定を説明することは重要であるため、研究者はディープラーニングというブラックボックスを理解するための新しい方法を開発しています。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<: 人工知能技術は若者の雇用にどのような影響を与えるでしょうか?

>>: RFID技術によるスマート製造