機械学習におけるこれらの中核的な問題は、数学を知らなくても解決できます。

機械学習におけるこれらの中核的な問題は、数学を知らなくても解決できます。

機械学習や人工知能の分野で最も重要なトピックをわかりやすく説明するにはどうすればよいでしょうか?

人工知能は未来のトレンドとなっています。車は自動運転が可能になり、コンピューターは囲碁で人間に勝ち、ロボットは人間の仕事を奪っています。近い将来、ロボットが人間の政府を転覆させ、私たちの子孫を奴隷にするでしょう...まあ、そんなことは起こらないかもしれません。しかし、これはまた、人工知能の限界は何なのかという疑問も生じさせます。

[[267701]]

答えは明らかです。それは人工知能の定義によって異なります。人工知能が囲碁しかできないコンピュータと定義されるなら、将来の囲碁プログラムは現在よりもさらに高度なものになるでしょう。しかし残念なことに、この定義を使用する人は誰もいません。メルセデス・ベンツがスマートドライビングを宣伝するとき、おそらく自社の車で囲碁ができることについて語っているわけではないだろう。しかし逆に、マーケティング担当者と同じように AI を定義することもできます。つまり、あなたの会社では自社の製品に AI が使用されており、当社の製品も同様です。私たちの製品がどのようにして人工知能を実現しているのかは誰にもわかりませんが、それが人工的な愚かさではないことは間違いありません。

では、知能とは一体何なのでしょうか? 人間の脳、心理学、さらにはアリの社会に関する多くの研究の結果、知能は主に 2 つの部分で構成されているという結論に至りました。1 つ目はパターンを認識する能力、2 つ目はこれらのパターンを使用して目標を達成する能力です。

これには多くの説明がありますが、1 つの例が非常に明確な結論を示しています。非常に賢い人、たとえば数学が非常に得意な人のことを考えてみましょう。このような人が数学の授業にあまり注意を払わないとしたら、それはなぜでしょうか? それは、そのような人が知識を非常に速く吸収するからです。生徒はそのパターンに気づき、残りの授業時間中は注意を払わないことに決めます。これらの人は、授業で学んだ知識(パターンとも言う)を課題に適用するのが得意なので、課題を早く終わらせることもできます。

この定義は他の種類の知能にも当てはまります。たとえば、芸術的才能のある人は、何が優れた芸術であるかを認識し、その直感を使って新しい優れた芸術を創造できるようです。それでも納得できないなら、Wikipedia が知能について同様の定義を提供していることを知っておいてください。インターネット上で最も信頼できる知識源である Wikipedia と議論したくないはずです。

出典: boredpanda.com

データからパターンを抽出し、それを他のデータに適用するモデルを作成するアルゴリズムを専門とする分野があります。それが機械学習です。機械学習における最も重要な概念の 1 つに「オーバーフィッティング」があります。オーバーフィッティングとは、モデルによって発見されたパターンが複雑すぎるために、将来のポイントを予測する際に問題が発生することを言い換えたものです。

出典: wikipedia.org

赤い点と青い点を分ける線を引くというタスクがあるとします。ただし、これらの点の色はランダムである可能性があり、つまり、データが少し乱雑です。黒い線は合理的な解決策のように思えます。すべての点を正しく分類しているわけではありませんが、境界上のいくつかの点が任意の方向に移動できることを考慮しているようです。緑の線はすべてのポイントをうまく分離していますが、違いは次のとおりです。線が緑の線に従って分割された場合に新しいポイントが赤に分類される領域と、線が黒の線に従って分割された場合に新しいポイントが青に分類される領域を黄色で強調表示しています。

これは確かに Microsoft Word を通じて行われるものではありません。 Photoshopなどのプロフェッショナルソフトウェアを使用できます。

そうですね、黄色の領域には赤い点よりも青い点が含まれる可能性が高いことには誰もが同意すると思います。これは過剰適合です。緑の線は既存のポイント (トレーニング ポイント) では比較的よく区別されますが、新しいポイント (テスト ポイント) では比較的区別が不十分です。

緑の線を生成したモデルは、トレーニング ポイントでパターンが多すぎることがわかったと言えます。モデルはパターンを見つけるのが非常に得意なので、パターンを適用するときに、見つけたパターンが新しいポイントには適用されない可能性があることに気づきません。したがって、中心的な問題は、どのパターンが有効で、どれがデータ自体からの干渉に過ぎないかを見つけることです。

多くの賢い人々が、長い方程式とたくさんのギリシャ文字を使ってモデルが緑色のような奇妙な線を見つけないようにするなど、非常に巧妙な方法でこの問題を解決しようとしました。この手順は正規化と呼ばれます。トレーニング中に正則化を追加する場合でも、モデル自体に正則化を組み込む場合でも、これらはすべて機械学習を改善する方法です。

しかし、実際には、最も重要なステップを省略していました。私たちは複雑な数学に頼る前に「なぜ」と尋ねることを忘れています。確かに、「なぜ空は青いのか」や「なぜ私たちは宇宙に存在するのか」といった疑問は常に存在しますが、それらはここで言及されている疑問ではありません(あなたが探している疑問ではありません)。私たちは、知性が一般的になぜ機能するのかということにもっと関心を持っています。どのモデルが機能するかを解明しようとしていますが、どのモデルが機能するかの理由はまだ特定されていません。次の点はなぜ青か赤でなければならないのでしょうか。なぜ紫ではないのでしょうか。

実際、誰が最初にこの質問をしたのかはわかりませんが、幸運なことに、誰かが最初から答えを出すことに決めました。一部のモデルが機能する理由は、テスト データがトレーニング データとは独立して抽出され、両方が同じ分布から取得される必要があるためです。これは、モデルをテストするときに、モデルをトレーニングした環境とは異なる環境にさらすべきではないということを数学的に表現したものです。すでに多くの点が見えており、そのどれもが紫色ではないため、次の点が紫色になる確率は低くなります。結局のところ、6面のサイコロを振ったときに、半分が表で半分が裏になるとは期待できませんが、同じコインを同じように投げれば、同様の結果が得られるはずだと期待できます。感動的な引用文を借りると、「いつもやっていることをいつもやっていれば、いつも得ているものが必ず得られる。」

まあ、それは Microsoft Word によって行われます。

これは、実際のパターンと過剰適合を区別することにどのような関係があるのでしょうか? 上の図を見ると、過剰適合の主な原因は、緑の線モデルが外れ値の一部を適合させようとしていることです。これらのポイントを異なる領域にグループ化する方法があるとします。一部の領域には外れ値が含まれており、見つかったパターンに適合しません (黄色の領域)。一方、他の領域には見つかったパターンに適合するポイントが含まれます (緑の領域)。

直感的に、「緑」の領域は範囲が広く、より多くのポイントを含み、将来のポイントをより正確に予測できるはずです。つまり、「緑」の領域にさらに多くの点が表示された場合、それらの点は赤であると予想されます。一方、「黄色」の領域により多くの点が表示される場合、いくつかは赤になりますが、大部分は青であると想定されます。

もちろん、より多くのポイントを獲得するために、いつでもより多くのデータを収集することができます。しかし、時には、他の人が持っているような資金、時間、リソースを持たない貧しい学部生になってしまうこともあります。とはいえ、より多くのデータを収集することが現実的でない場合もあります。したがって、そうする代わりに、トレーニング データの一部を無視し、見逃した部分を使用してポイントを「追加」することができます。

これも新しい概念ではありません。これは検証セットの使用です (モデルがトレーニング セットで見つけたパターンを検証します)。検証セットを使用して過剰適合の特定の領域を識別するのは、新しいアプローチです。しかし、人々がこれを行わないのには理由があります。

「緑」のエリアは見た目は素晴らしいですが、まず見つけるのが難しく、次にこれらのエリアの構築はデータに依存します。簡単に言えば、一部の領域は明らかに「緑」で、一部の領域は明らかに「黄色」ですが、一部の領域はトレーニング データに基づいて構築されているため、色を判断するのが困難です。この問題の解決は、米国と同じ基本原則に依存します。異なるデータでトレーニングされた 2 つのモデルが同じ「黄色」の領域を生成するとしたら、それは奇妙なことです。

したがって、最初のモデルが不確かだった領域については、異なるデータに基づくモデルで色付けプロセスを繰り返すと、2 番目のモデルに基づいてその領域の色を決定できます。このモデルが同じ領域を見つけた場合、偶然に見つけたのではないことがほぼ確実であるため、「緑」になるはずです。逆に、2 番目のモデルで領域が見つからない場合は、干渉の可能性があり、「黄色」に色付けする必要があります。

では、これらの領域をどのように特定するのでしょうか? クラスターを見つけることです。クラスタリングとは何でしょうか?

出典: wikiepdia.org

クラスターを見つけるということは、データ内のクラスターを見つけることです。図に示すように、クラスターを見つけるということは、データ内で 3 つのクラスターを見つけることです。同じクラスター内のポイントはモデルに類似しているように見えます。これらのポイントを変換してモデルにプロットする方法が複数ある場合 (たとえば、ニューラル ネットワークの各レイヤー)、すべてのプロットで同じクラスター内にあるポイントは、定義上、モデルにとって区別できません。これは明らかです。モデルがそれらを区別できれば、それらはある時点で異なるクラスターに配置されるはずです。とにかく、常に同じクラスター内にあるこれらのポイントがどこにあるかを定義すれば、独自の領域ができます。

機械学習は、ポイントを分離できるアルゴリズム(回帰も含む)を見つけることです。アルゴリズムは分類エラーを最小限に抑えるため、緑の線を見つけることを優先します。機械学習の課題は、新しいポイントではより効果的になる可能性があるため、黒い線を取得できるアルゴリズムを見つけることです。正規化は巧妙な数学であり、黒い線に近づくのに役立ちます。

<<:  面接の質問: Nginx の負荷分散アルゴリズムはどのように実装されていますか?なぜ動きと静止を区別する必要があるのでしょうか?

>>:  大学入試特集:AI出願ガイド

ブログ    
ブログ    

推薦する

言語間、人間の声と犬の鳴き声の相互変換をサポートし、最も近いものだけを使用するシンプルな音声変換モデルはどれほど素晴らしいか

AIが関わる音声の世界はまさに魔法のようです。ある人の声を別の人の声に置き換えるだけでなく、動物と声...

2021 年にセキュリティ ビデオ分析に影響を与える新しいテクノロジーとトレンドは何でしょうか?

[[398643]]ビデオ分析のトピックは何十年も議論されてきましたが、物理セキュリティ業界におけ...

...

AI と機械学習: 大きなデマか、それとも大きな希望か?

ダニング=クルーガー効果は重大なバイアスです。これは、能力の低い人が自分の軽率な決断に基づいて誤った...

ハギングフェイスCEOが2024年のAI業界の6つの大きな変化を予測!

2024年にAI業界はどのように進化するのでしょうか? OpenAIのグレッグ・ブロックマン会長は...

...

...

...

暗号化アルゴリズムと暗号化システムアーキテクチャに関する簡単な説明

[[436278]]背景情報インターネットの急速な発展に伴い、金融業界は情報セキュリティにますます注...

すごい...正義のために親族を殺す? Google AI、米国の月面着陸写真は偽物だと判定

1969年、アポロ11号が月面着陸に成功し、アームストロング船長は、今日でも数え切れないほどの人々が...

すべてのAI公開コースが無料でご利用いただけます! 14 のカテゴリ、230 のコース、6,000 以上の GitHub スター

十分に読書をして直感を養い、直感を信じて挑戦してみましょう。たくさんの読書を通して直感を養い、自分の...

学術界の巨人たちのブラックテクノロジー:人工知能のダークマターについて聞いたことがありますか?

北京大学の公式サイトの最新情報によると、元UCLA(カリフォルニア大学ロサンゼルス校)教授の朱松春...

Google の新しい AI ツールが人間のコールセンター従業員に取って代わる可能性があります。

[[237962]]海外メディアの報道によると、Googleは本日開催されたCloud Nextカ...

北京、6つの高速道路を段階的に自動運転試験に開放、安全担当者を段階的に撤退させようとしている

同市は昨年9月に高水準の自動運転実証区を設立したのに続き、インテリジェントコネクテッドカーの政策パイ...