いいえ！機械学習は単なる美化された統計ではありません。

ビッグデータダイジェスト制作

編集者: JIN、Hope、Jiang Baoshang

タイトル画像のパロディー漫画はソーシャルメディア上で急速に広まり、多くのリポストを受けており、機械学習に関する誇大宣伝が衰え始めていることを示唆しているようだ。しかし、機械学習は本当に単なる美化された統計なのでしょうか?

ハーバード大学のデータサイエンスおよび機械学習の修士であるジョー・デイヴィソン氏は、それはそれ以上のものだと考えています。

彼は、それぞれ統計学と機械学習から始め、両者の違いを比較し、人々が機械学習と人工知能を正しく理解できるようにしたいと考えました。このブログは海外のテクノロジーサイトMediumで7.4k以上の評価を受けています。

見てみましょう。

機械学習は実際には大したものではなく、古い統計手法を単に再パッケージ化したものだと考える人が増えています。

しかし、問題はそうではないということだ。

ディープラーニングを広める熱狂的な支持者がいなくなったことがわかります。科学界のトップに立つ専門家たちでさえ、今ではこの用語を使うことにあまり熱意を失っているようで、少し悔しさを感じながらも、代わりに現代のニューラルネットワークの力を軽視し、keras をインポートすることであらゆる障害を克服できるという考えを避けることを好んでいるようです。

ヤン・ルカン氏が述べたように、ディープラーニングは機械学習を凌駕して新しい流行語となったが、この態度の過剰修正は人工知能の発展、将来、実用性に対する不健全な懐疑心につながっている。さらに、AI の冬が近づいているという話もあり、過去数十年と同様に AI 研究が停滞すると予測されています。

この記事は、AI の冬に反対する議論をすることを意図したものではなく、機械学習におけるすべての進歩が他の学術グループではなく 1 つの学術グループに帰属するべきであると主張することを意図したものでもありません。この記事の目的は、機械学習を適切に評価することです。 AI の目に見える進歩は、コンピューターの大型化やデータセットの改善だけにとどまりません。ディープニューラルネットワークと関連分野における最近の成功は、機械学習が科学技術の進歩の最前線にあることを示しています。

機械学習 != 統計

「資金を調達するときには人工知能が必要です。採用するときには機械学習が必要です。タスクを実行するときにはロジスティック回帰が必要です。」

—Twitterユーザー

タイトルが示すように、この記事の主なポイントは、機械学習が単なる美化された統計ではないことを強調することです。もちろん、この「統計の美化」という考え方が形成されたのは、理由がないわけではありません。なぜなら、回帰、重み、バイアス、モデルなどの統計概念は機械学習で広く使用されているからです。

[[241471]]

さらに、多くのモデルは統計関数を近似します。分類モデルのソフトマックス出力はロジスティック回帰で構成され、画像分類器をトレーニングするプロセスはロジスティック回帰として扱われます。

この考え方は技術的な観点からは正しいものの、機械学習全体を単純に統計の付属物に還元するのは単純化しすぎです。統計学は、データの理解と解釈を扱う数学の分野です。機械学習は、単なるコンピューティングアルゴリズムの一種です (つまり、実際にはコンピューターサイエンスから生まれました)。

多くの場合、これらのアルゴリズムはデータの理解にはまったく役に立たず、説明できない予測モデルでしか限られた役割しか果たせません。強化学習などの一部のケースでは、アルゴリズムは既存のデータセットさえ使用しません。さらに、画像処理の場合、ピクセルを特徴として、画像をデータセットとして処理することは、始まりの延長にすぎません。

もちろん、これは機械学習の発展が統計学者ではなくコンピューター科学者だけによるものだということを意味するものではありません。他の研究分野と同様に、今日の機械学習の成功は複数の学術分野の共同の努力の結果であり、統計学と数学が最も貢献した分野です。

しかし、機械学習手法の威力と可能性を正しく評価するには、まず、人工知能の現代の進歩は、より大きなコンピューターとより優れたデータセットを使用した古い統計手法に過ぎないという誤解を正す必要があります。

機械学習には高度な統計知識は必要ない

[[241472]]

ここで言及しておきたいのは、機械学習を勉強している間、学部のコンピュータサイエンスのコースの一環として、ディープラーニング技術に関する素晴らしいコースを受講する幸運に恵まれたということです。私たちに割り当てられたプロジェクトの 1 つは、TensorFlow で Wasserstein GAN を実装してトレーニングすることでした。

当時、私は統計学入門という選択科目を 1 つしか履修しておらず、その内容のほとんどを忘れていたため、私の統計スキルはあまり優れていなかったようです。しかし、私は最近の生成機械学習モデルに関する論文を読み、それをゼロから実装し、MS Celebs データセットでトレーニングすることで、非常に説得力のある偽の画像を生成することができました。

コース全体を通して、私とクラスメートは、ここ数年で発明された機械学習の最新技術のみを使用して、がん組織の画像セグメンテーション、ニューラルネットワーク機械翻訳、文字ベースのテキスト生成、画像スタイル転送のトレーニングに成功しました。

しかし、私やそのクラスのほとんどの生徒に、母分散の計算方法や限界確率の定義方法を尋ねても、私たちには何も分かりませんでした。

これは、人工知能は単に古い統計手法を再発明したものに過ぎないという主張と矛盾しているように思われます。

ディープラーニングのコースでは、機械学習の専門家はコンピュータサイエンスの学部生よりも統計の基礎がしっかりしている可能性があることを認めなければなりません。それ以外にも、情報理論全般ではデータと確率に対する深い理解が求められるため、データサイエンティストや機械学習エンジニアを目指すのであれば、統計を学び、統計スキルを磨き、統計的直感を養うのがベストだと私は思います。

しかし、残る疑問は、機械学習が統計学の単なる付属物であるならば、なぜ統計学のバックグラウンドを持たない人々も機械学習の最先端の概念を深く理解できるのかということです。

[[241473]]

また、多くの機械学習アルゴリズムでは、ほとんどのニューラルネットワーク手法よりも統計と確率に関するより深い知識が必要であることも認識しておく必要がありますが、これらの手法は、統計的な色彩を減らし、通常の統計と区別するために、統計機械学習または統計学習と呼ばれることがよくあります。

同時に、近年機械学習で流行している革新的な技術の多くはニューラルネットワークの分野に属するため、機械学習は統計学ではないとも言えます。

もちろん、機械学習だけではありません。実際、機械学習をうまく応用したい人は誰でも、さまざまなデータ処理の問題に直面することになります。そのため、統計データに対する理解も必要です。これは、機械学習が統計的概念をまったく使用しないということではなく、機械学習が統計であるということでもない。

機械学習 = マッピング + 評価 + 最適化

客観的に言えば、私とクラスメートは、アルゴリズム、計算の複雑さ、最適化手法、微積分、線形代数、さらには確率についても強固な基礎を持っています。上で述べた知識はすべて私たちが取り組んでいる問題に関連しており、高度な統計ではこれらの問題を解決できないと思います。

[[241474]]

機械学習は、関数を近似するために反復的な「学習」アプローチを使用する計算アルゴリズムの一種です。ワシントン大学のコンピューターサイエンス教授であるペドロ・ドミンゴス氏は、機械学習アルゴリズムを構成する 3 つの要素として、マッピング、評価、最適化を提案しました。

表現とは、ある空間からの入力を別のより有用な空間に変換するプロセスです。畳み込みニューラルネットワークでは、生のピクセルは猫と犬を区別するのにあまり役立たないので、これらのピクセルを別の空間 (ソフトマックスから出力される論理値など) にマッピングして、解釈および評価できるようにします。
評価の本質は損失関数です。アルゴリズムはデータをより有用な空間に効果的に変換していますか? ソフトマックスの出力は、ワンホットエンコーディングの分類結果に似ていますか? 展開テキストシーケンス (テキスト RNN) に出現する次の単語を正しく予測していますか? 潜在分布は単位ガウス分布 (VAE) からどのくらい離れていますか? これらの質問に対する答えから、マッピング関数が効果的かどうかがわかります。さらに重要なのは、学習する必要がある内容が定義されることです。
最適化はパズルの最後のピースです。評価方法が決まったら、マッピング関数を最適化し、評価パラメータを改善できます。ニューラルネットワークでは、これは通常、確率的勾配降下法の何らかのバリエーションを使用して、定義された損失関数に従ってネットワークの重みとバイアスを更新することを意味します。そうすれば、世界最高の画像分類器が完成します (これは、Geoffrey Hinton が 2012 年に実現した方法です)。

画像分類器をトレーニングする場合、適切な損失関数を定義することに注意を払うだけでなく、マッピング関数の出力値が論理値であるかどうかはあまり重要ではありません。ロジスティック回帰などの統計用語は、モデル空間について議論するための便利な語彙を提供しますが、最適化の問題をデータ理解の問題として再構成するものではありません。

ディープラーニング技術

[[241475]]

ディープニューラルネットワークは、最も明白な統計の概念をさらに無視します。完全に接続されたノードは重みとバイアスで構成されており、それは問題ないように思えますが、畳み込み層の原理は何でしょうか? 活性化関数の調整? ブロックの正規化? 残差層? ランダム無視? メモリと注意のメカニズム?

これらの革新は、高性能なディープラーニングネットワークにとって重要ですが、従来の統計手法と比較できるほどのものではありません (まったく統計手法ではない可能性があるため)。

1 億個の変数の回帰、問題ないですか?

また、ディープラーニングネットワークと従来の統計モデルの違いの 1 つは、スケールできることである点も指摘しておきます。ディープニューラルネットワークの規模は膨大です。 VGG-16 ConvNet アーキテクチャには 1 億 3,800 万個のパラメーターがあります。学生が 1 億を超える変数を使用して多重線形回帰を実行すると講師に伝えたら、講師はどのように反応するでしょうか? ばかげているでしょう。 VGG-16 は多重線形回帰ではないため、機械学習手法です。

新たな境地

過去数年間、あなたはおそらく数え切れないほどの時間を論文、投稿、記事を読むことに費やし、機械学習でできることを数多く見てきたことでしょう。実際、ディープラーニングは以前のテクノロジーよりも効果的であるだけでなく、まったく新しい問題を解決するのにも役立ちます。

2012 年以前は、非構造化データや半構造化データに関連する問題は非常に困難でしたが、トレーニング可能な CNN と LSTM がこの課題において大きな進歩を遂げました。彼らは、コンピュータービジョン、自然言語処理、音声認識などの分野で非常に印象的な成果を達成し、顔認識、自動運転、人間とコンピューターの対話において大きな進歩を遂げました。

実際、ほとんどの機械学習アルゴリズムは、最終的にはモデルをデータに適合させることになり、これは統計的なプロセスと見なすことができます。宇宙船は本質的には翼のある飛行機械だが、NASA の 20 世紀の宇宙探査への情熱を嘲笑する人は誰もいないし、これが飛行機の誇張だと考える人もいない。

宇宙探査と同様に、ディープラーニングの登場によって世界のすべての問題が解決されたわけではありません。多くの分野、特に「人工知能」の分野では依然として大きなギャップが見られます。ディープラーニングは、複雑な非構造化データの問題に対処する能力に大きく貢献しました。機械学習は、世界の技術進歩と革新の最前線に立ち続けています。これは、光沢のあるフレームの付いた壁の単なるひび割れではありません。