機械学習について誰もが知っておくべきこと

この記事では、機械学習の知識を広め、機械学習で何ができるのか、どのように行うのかを簡単に紹介します。以下はその翻訳です。

ここ数か月間、私は人工知能、特に機械学習について多くの意思決定者と話し合ってきました。幹部の何人かは、投資家から機械学習に関する戦略やそれをどこで活用しているかについて質問を受けた。では、なぜこのテクノロジーの話題が突然、企業の役員会議室で議論されるようになったのでしょうか?

コンピューターは人間に代わって問題を解決することになっています。従来のアプローチは、必要なプログラムを「書く」こと、つまり、問題解決アルゴリズムをコンピューターに教えることです。アルゴリズムは、レシピのように、問題を解決するプロセスを詳細に記述します。多くのタスクはアルゴリズムを使用して記述できます。たとえば、小学校では、数字を足すアルゴリズムを学びました。この種のアルゴリズムを迅速かつ完璧に実行することに関しては、コンピューターは人間よりも優れています。

ただし、この問題解決プロセスには限界があります。猫の写真をどうやって認識するのでしょうか? この一見単純なタスクをアルゴリズムで説明するのは困難です。ちょっと立ち止まって、このことについて考えてみましょう。簡単な説明（「足が4本ある」や「目が2つある」など）でも欠点があります。それらの特徴が隠れていたり、写真に猫の一部しか写っていなかったりするからです。足や目を識別するという課題に直面した場合、それは猫を識別するのと同じくらい難しいでしょう。

ここで機械学習が力を発揮します。コンピュータは、問題を解決するためのアルゴリズムを開発するのではなく、例を使用してアルゴリズム自体を学習します。サンプルを使用してコンピューターをトレーニングします。猫を識別する例では、大量の注釈付き猫の写真を使用してシステムをトレーニングする必要があります (教師あり学習)。このようにして、アルゴリズムは進化し、成熟し、最終的には見慣れない画像の中の猫を認識できるようになります。

実際、この場合、コンピューターは通常、古典的なプログラムを学習せず、ネットワーク内のエッジの重みなどのモデル内のパラメーターさえも学習しません。この原理は、私たちの脳（ニューロンで構成されている）の学習プロセスに例えることができます。脳と同様、従来のプログラムとは異なり、エッジ重みを持つこのネットワークは人間が理解するのはほぼ不可能です。

このような状況において、ディープラーニングとして知られる人工ニューラルネットワーク学習法は大きな成功を収めています。ディープラーニングは機械学習の特別な種類であり、コンピューターサイエンス研究の主要分野である人工知能内の分野です。 2012年に、Googleの研究チームは16,000台のコンピューターのネットワークをトレーニングし、1,000万本のYouTube動画から猫（およびその他の物体のカテゴリ）を認識させることに成功しました。ディープラーニング技術を採用しています。

この演習に関連する問題の多くは、「数字を足す」というよりも「猫を識別する」というカテゴリに分類される傾向があり、そのため人間が書いたアルゴリズムで解くのは困難です。これらの問題は通常、画像内のオブジェクトの識別、言語内のテキストの識別、トランザクションデータ内の不正行為の識別など、何らかのデータ内のパターンを識別することが目的です。

簡単な例として、予測メンテナンスを見てみましょう。多くのセンサーがデータストリームを送信しており、場合によっては一部のマシンが故障することを想像してください。現在の課題は、障害につながるデータフローのパターンを把握することです。パターンを学習すると、通常の操作中に認識できるようになり、潜在的な障害を防ぐことができます。

機械学習の原理は新しいものではないが、現在、一般の人々の間で人気が高まっている。これには主に 3 つの理由があります。1 つ目は、アプリケーションとトレーニングに大量のデータ (「ビッグデータ」) を利用できるようになったこと、2 つ目は、特にクラウドにおいて膨大なコンピューティング能力が備わっていること、3 つ目は、多数のオープンソースプロジェクトによって、多かれ少なかれ誰もが一部のアルゴリズムを使用できるようになったことです。

機械学習は従来のプログラミングに取って代わることはできませんが、それを補完するものとなります。これまで解決が困難であった、あるいは不可能であった多くの種類の問題を解決できるツールを提供します。全体として、これは私たちに新たな機会をもたらし、既存のシステムはますます変革され、機械学習の機能が組み込まれるようになっています。

パターンに従った反復的な動作は典型的な例です。複雑な一連のメニューをクリックしてアクセスできる 100 の機能を備えたコンピュータープログラムを想像してください。ただし、毎日実際に使用する機能はそのうちの一部だけです。ユーザーが普段行う手順を観察することで、コンピューターは次の動作を予測することを学習し、操作の効率を高めることができます。これらの反復的なデータとオブジェクトを「学習」することにより、コンピューターは多くのステップを自動化し、プロセスを高速化できます。

あらゆる分野でさらなる例が見つかります。学習教材を個々の学生に合わせてカスタマイズすること（特に「大規模公開オンライン講座」、つまり MOOC）、病気の早期診断、オンラインマーケティングのターゲットグループ、顧客離れ、データ品質の問題の自動識別、出会い系サービスによるユーザープロファイルのマッチングなどです。

Spark には多くの高度なツールがあるため、Hadoop に統合され、機械学習の分野における主要なビッグデータフレームワークとなっています。 Talend もこの目標に向かって進んでおり、モデリングを通じてより高いレベルを抽象化することができます。モデリングにより複雑さを軽減できると同時に、急速に進化する敷居の高い基盤技術への依存を弱めることができます。

機械学習のアルゴリズムの詳細を真に理解する必要がある専門家はほんのわずかです。ただし、機械学習とは例からパターンを学習し、それを新しいデータセットに適用できることなど、機械学習に関連する概念を全員が理解できれば役立ちます。最終的に、機械学習は、機械が解決し、具体的には意思決定を通じて自動化できる問題のカテゴリを拡大します。これはまさにコンピュータが学習するものであり、トレーニングデータから蓄積した知識に基づいて新しいデータに関する決定を下します。一方では、自動化された意思決定を通じて、ビジネスや業界に機械学習を適用することができます。一方、私たち自身は、他のマシンが分析して自社のビジネスを最適化できるデータソースでもあります。

まとめると、次のような図を残しておきたいと思います。コンピューターは現在、明示的な指示 (数字の加算など) に従うだけでなく、例を通して学習することもできます (トレーニング例を通して猫の写真を認識するなど)。解決する問題によっては、あるアプローチが他のアプローチよりも適切な場合があります。ただし、これら 2 つのアプローチを何らかの方法で組み合わせると、最終的には自動化の機会が増える可能性があります。

<<: 機械学習ソート入門 LTR - 線形モデル

>>: これからオープンする無人コンビニや無人スーパーにはこんな7つのブラックテクノロジーが隠されている