この記事を読んで人工知能を始めましょう!

今、テクノロジーの世界で最もホットなものは何ですか?答えはおそらく人工知能、機械学習、ディープラーニングなどでしょう。実際、人工知能に代表される一連の技術は何千もの家庭に入り込み、私たちの日常生活に浸透しています。会社の入り口での指紋認証、携帯電話で写真を撮るときの顔フォーカス、家庭で使われる掃除ロボット、これらはすべて人工知能の派生といえます。

[[376224]]

人間対機械のチェス

技術的に言えば、人工知能 (AI) とは、人間のように考え、人間の行動を模倣するようにプログラムされた機械で人間の知能をシミュレートすることを指します。つまり、ロボットが人間の行動を真似しようとしたり、AlphaGo が囲碁を打つときに人間の思考を真似したりするなど、機械を人間の行動や思考に近づけるのです。人工知能の分野の広さと皆さんの現在の基礎知識を考慮し、現在非常に人気のあるコンピュータービジョンの問題を例に、コンピューターを使用してオブジェクトを認識するプロセスを詳しく説明し、皆さんの興味を刺激したいと考えています。

コンピューターはどのように「見る」のでしょうか?

人間は写真を見ると、その写真の内容を簡単に判断できます。このプロセスには、複雑な生物学と認知科学の知識が関わっています。つまり、私たちの目が写真から情報を受け取り、その情報が脳内のニューロンを通過し、複雑な処理を経て、最終的に「写真には 3 人の人物が写っていて、そのうちの 1 人は母親で、他の 2 人はその子供である」といった関連信号が生成されると考えられます。

人間と同様に、コンピュータも「信号取得」「信号処理」「信号フィードバック」という 3 つのプロセスを経ます。カメラ、ビデオカメラ、その他の画像撮影装置が目の代わりになり、コンピュータチップ回路が脳内のニューロンの代わりになり、最終的に処理された信号がディスプレイを通じてフィードバックされます。

[[376225]]

携帯電話のカメラを使った花の識別

携帯電話のカメラを使って花を識別する例を見てみましょう。カメラが花の種類を「認識」するにはどのようなプロセスが必要ですか?人間と同様に、携帯電話も学習プロセスを経る必要があります。まず、携帯電話にたくさんの花の写真を見せ、それらの写真がどのカテゴリに属するかを教えてあげます。具体的なプロセスは次のとおりです。

まず、カメラが花の写真を撮ります。携帯電話やパソコンなどのコンピューティングデバイスでは、写真はマトリックスの形式で存在します。マトリックスは一連の数字として理解でき、数字の大きさは色や明るさなどの情報を表します。
行列 X をニューラルネットワーク N (入力値に対して出力値を取得できる複雑な数学関数と見なすことができます) に入力し、出力値 Y を記録します。
これは学習プロセスなので、各写真の実際のカテゴリ Z は事前にわかっています。ニューラルネットワーク N が正しい認識能力を持つためには、Y が Z にできるだけ近くなければなりません。そこで、Y と Z の間の距離を小さくするために N のパラメータを変更します。
1 ～ 3 を繰り返します。Y と Z が十分に近いと思われたら、モデルの学習プロセスは終了です。

学習したニューラルネットワーク N を使用すると、携帯電話で新しい花の写真を撮ると、カメラは新しい行列 X' を抽出します。ニューラルネットワークによって X' が計算された後、Y' が得られます。Y' をすべての Z と比較し、最も近いものを新しい写真のカテゴリと見なすことができます。

もちろん、上記のプロセスは、簡潔さと理解のために多くのことを省略しており、専門的な基準に準拠していない表現もいくつかあります。ご興味があれば、引き続き私の更新に注目してください。人工知能は魅力に満ちています！

初心者はどのようにして機械学習を始めればよいのでしょうか?

まず、人工知能、機械学習、ディープラーニングは互いに包含し合っていることを説明する必要があります。人工知能は擬人化の広い概念を表し、機械学習は具体的には統計と数学モデルを使用したモデリングを指し、ディープラーニングはモデルの種類をさらにディープニューラルネットワークに限定します。誰もが概念を持っていれば十分であり、学習を進めるにつれて徐々にその本質を理解するでしょう。

3つの包含関係

かつて、Zhihu の友人からプライベートメッセージが届き、「初心者は機械学習をどうやって学べばいいですか？」と尋ねられました。皆さんの混乱はよくわかります。前述のように、これは巨大で急速に変化する分野であり、テクノロジーは毎分更新されています。初心者として、正しい方向を見つけたかどうかをどのように確認すればよいでしょうか?私のアドバイスは、盲目的に新しいテクノロジーを追い求めないことです。今日登場している多くの新しいテクノロジーは、実際には、高尚な名前を持つテクノロジーの新しいサブセットです。

以降の内容は専門用語が多くなりますので、興味がない場合はオフにしても大丈夫ですよ～

作者のスタイルについてはよく分かりませんが、私は新しいものに触れると、まずその背後にある動機を理解する傾向があります。機械学習に関して初心者が最も混乱するのは、どこから始めればよいかわからないことです。個人的には、まずは自分の興味を決めることが大事だと思います。例えば、動画の画像を予測したいのであれば、まずは手法レベルで生成モデルに限定します。

文献を調べると、最も初期の生成モデルには、物理学のエネルギーモデルにヒントを得たボルタマンマシン (Deep Belief Network (Pretraining、Hinton 2006) など) や、現在人気の GAN および VAE などがあることがわかります。最先端の技術では、基本的にボルツマンマシンやディープビリーフネットワークなどの古い成果物を使用しないため、このプロセスは適切に短縮できます。しかし、しかし、本当に変化を起こしたいのであれば、深い文脈を理解する必要があると思います。たとえば、Goodfellow はなぜ GAN を提案したのでしょうか? GAN のような分野に影響を与えるものをどうやって思いついたのですか? (個人的にはGANの核はDiscriminatorだと思っています。一般的によく使われるMSEやL1などに比べると、Discriminatorはより人間の判断に近い役割を果たします。数学的な導出でも分布距離を最小化できることが証明されています。)

GAN と VAE に触れるとき、今日は CycleGAN に関する記事を読み、明日は FactorVAE に関する記事を読むことになるかもしれませんが、初心者にとってこれらの異なる知識は独立しており孤立しています。実際、上記は両方とも深層生成モデルです。CycleGAN は、広く使用されている技術であるサイクル一貫性を使用します。FactorVAE は、解釈可能なモデルの概念を伴う Disentanglement メカニズムを使用します。したがって、このステップでは、対象となる問題をさらに絞り込む必要があります。たとえば、固定カメラの異常事象の予測などです（奇妙に聞こえますが、心配しないでください。単なる例です）。

ディープラーニング（華書）、中国語版がリリースされたそうですよ～

Goodfellow と Bengio の『Deep Learning』を強くお勧めします。本当に素晴らしい本です。時間に余裕があれば、ぜひ読んでみてください。もちろん、普段のニーズに応じて関連する章を見つけることもできますが、最初の 10 章を読むことをお勧めします。そうすれば、回り道に費やす時間を大幅に節約できます。 Huashu の利点は、日常生活で生じる可能性のある小さな疑問がすべてここで詳しく説明されていることです。たとえば、第 7 章の Dropout メカニズムの説明。以前は、Dropout の動作についてのみ知っていました (本当にいつもそう思っていて、その理由については考えたことがありませんでした)。これは、多くの中国語ブログ (英語から直訳されたブログがたくさんあります...) の内容でもあり、つまり、フォワードパス中に一部の接続の重みをランダムに 0 に設定するというものです。ベンジオの説明で目が覚めました。これは実際には Boost メカニズムであり、各フォワードパスは実際には異なるサブモデルをトレーニングします。トレーニングが完了したら、最終テストプロセスで投票プロセスが実装されます。

<<: 中国の人工知能産業市場はどれくらい大きいのでしょうか? 2021年の6つの主要トレンド

>>: 人工知能が大人気ですね～最近のAIの応用シナリオは何でしょうか？