ある日、お子さんが「お父さん、機械学習って何?」と尋ねたとします。

ある日、お子さんが「お父さん、機械学習って何?」と尋ねたとします。

お父さん、機械学習って何ですか?

答えるのは難しい!髪の毛が抜け始めた頭を掻いた後でも、お父さんはこの質問にまだ負けていました。お子さんに対して、このやや学術的な質問にはどのように答えますか?

最近、コンピュータサイエンスの博士号を持つダニエル・トゥンケラン氏がQuoraで次のような質問に答えました。

機械学習の分類問題から始めて、どの食べ物が美味しくて、どの食べ物がまずいかをコンピューターに学習させるのはいかがでしょうか。

[[208438]]

人間とは異なり、コンピューターには口がなく、食べ物を味わうことができません。したがって、多くの食品の例(ラベル付けされたトレーニング データ)を使用してコンピューターに学習させる必要があります。この項目の例には、おいしい食べ物(肯定的な例)とまずい食べ物(否定的な例)が含まれます。ラベル付けされた例ごとに、コンピューターに食品の説明(特徴)を与えました。

肯定的な例には、チョコレートアイスクリーム、ピザ、イチゴなどの「おいしい」というラベルが付けられます。アンチョビ、ブロッコリー、芽キャベツなどの悪い例には「不快」というラベルが付けられます。

実際の機械学習システムでは、おそらくさらに多くのトレーニング データが必要になりますが、概念を理解するには 3 つの肯定的な例と 3 つの否定的な例で十分です。

[[208439]]

ここで、いくつかの機能が必要です。これらのサンプルを、甘い、塩辛い、野菜の 3 つの特徴に設定してみましょう。これらはバイナリ特徴なので、各食品の各特徴には「はい」または「いいえ」の値が割り当てられます。

これらのトレーニング データを使用して、コンピューターの役割は、これらのデータから数式 (モデル) を要約することです。そうすれば、新しい食べ物に遭遇したときに、そのモデルに基づいてその食べ物がおいしいかまずいかを判断できるようになります。

1 つのモデルはポイント システム (線形モデル) です。それぞれの特性を持っている場合は一定のスコア(重み)が得られ、持っていない場合はスコアが得られません。次に、モデルは食品のポイントを合計して最終スコアを算出します。

モデルにはカットオフポイントがあります。スコアがカットオフポイントよりも高い場合、モデルは食べ物がおいしいと判断し、スコアがカットオフポイントよりも低い場合、それは美味しくないと判断されます。

トレーニング データに基づいて、モデルの特徴スコアは、甘い場合は 3、塩辛い場合は 1、カリカリの場合は 1、野菜の場合は -1 に設定される可能性があります。モデルにおけるチョコレートアイスクリーム、ピザ、イチゴ、アンチョビ、カリフラワー、芽キャベツのスコアは次のとおりです。

重み付けにより、肯定的な例のスコアはすべて 2 以上、否定的な例のスコアは 1 以下になるため、カットオフ ポイントの選択が容易になります。

常に適切な重みとカットオフポイントを見つけるのは簡単ではありません。たとえ見つかったとしても、このトレーニング データにのみ機能するモデルになり、新しい例を使用するとモデルがうまく機能しなくなる可能性があります (過剰適合)。

理想的なモデルは、トレーニング データ内で正確であるだけでなく、新しい例でも効果的です (一般化)。一般的に、単純なモデルは複雑なモデルよりも一般化が容易です (オッカムの剃刀)。

線形モデルを使用する必要はなく、決定木を構築するのも良いアイデアです。意思決定ツリーでは、「はい」または「いいえ」で答えられる質問のみを行うことができます。

トレーニング データを使用して決定木に正しい答えを出させることは難しくありません。 この例では、トレーニング データは次のように使用されます。

  • これは野菜ですか?
  • もしそうなら、味は悪いです。
  • そうでなければ甘いですか?
  • もしそうなら、それは美味しいです。
  • そうでない場合は、カリカリですか?
  • もしそうなら、それは美味しいです。
  • そうしないと味が悪くなります。

線形モデルと同様に、過剰適合を心配し、決定木を深くしすぎないようにする必要があります。つまり、これは、トレーニング データでは間違いを犯しても、新しいデータに対してはより適切に一般化されるモデルが最終的に作成される可能性があることを意味します。

子どもたちに機械学習の説明が理解できるといいな〜

<<:  デジタル経済は新たな時代へ:インターネットが主導権を握り、ビッグデータと人工知能が注目の的

>>:  金融分野で一般的に使用されているディープラーニングモデルのインベントリ

ブログ    

推薦する

サンダーソフト、AIoT産業・大学・研究のボトルネックを打破するTurboX AI Kit教育実験プラットフォームをリリース

10月12日、世界をリードするインテリジェントオペレーティングシステム製品およびテクノロジープロバイ...

胡勇 | 人工知能の時代を生き抜き、成長する

[[374681]]機械との競争から第二次機械革命へ人工知能革命は第四次産業革命と呼ばれています。第...

人工知能について、2020年に研究すべきトップ10のトレンド

いつの間にか、2019年は完全に私たちの前から去ってしまいました。過去1年を振り返ると、人工知能は間...

「人間の顔」から「犬の顔」まで、AIはペット経済にも参入するのでしょうか?

[[334871]]原題:「人間の顔認識」から「犬の顔認識」まで、人工知能はペット経済にも参入する...

COVID-19により公益事業の人工知能への移行が加速

人工知能 (AI) は、医療から自動車、小売、ファーストフードまで、考えられるほぼすべての業界で幅広...

文字列マッチングのためのKMPアルゴリズム

文字列の照合は、コンピューターの基本的なタスクの 1 つです。たとえば、「BBC ABCDAB AB...

経済の冬の後には人工知能の春が来る

企業が選択する経済発展の道は、多くの場合、時代の背景によって決まります。さまざまな経済状況下で適切な...

知っておくべき 19 の実用的なコンソール デバッグのヒント!

みなさんこんにちは、CUGGZです。ブラウザの開発者ツールは、DOM ツリー構造の表示、CSS スタ...

業界の視点: 人工知能がビジネスプロセスに革命をもたらす方法

今日、人工知能技術は、ウェアラブルデバイス、自動車、生産性アプリケーション、軍事、ヘルスケア、ホーム...

ロボットは感染症の蔓延を抑制するためにどのように役立つのでしょうか?

COVID-19の時代において、ロボット工学とテクノロジーは協力して伝染性ウイルスの拡散を防いでい...

人工知能がスマートな警察活動を可能にする

[[257520]]都市化と経済発展の加速に伴い、我が国の社会保障を構成する要素が拡大し、公安機関の...

音声認識技術は急速に発展しており、その規模は今後5年間で300億近くに達するだろう。

現在、科学技術の発展に伴い、人工知能産業は急速に成長し、あらゆる分野の変革における重要な要素となって...

Google Cloud と Hugging Face が AI インフラストラクチャ パートナーシップを締結

Google LLC のクラウド コンピューティング部門は本日、オープンソースの人工知能モデルを共有...

ByteDanceがCowClipをオープンソース化:推奨モデルのシングルカードトレーニングを最大72倍高速化可能

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...