この記事を読んで人工知能を始めましょう!

この記事を読んで人工知能を始めましょう!

今、テクノロジーの世界で最もホットなものは何ですか?答えはおそらく人工知能、機械学習、ディープラーニングなどでしょう。実際、人工知能に代表される一連の技術は何千もの家庭に入り込み、私たちの日常生活に浸透しています。会社の入り口での指紋認証、携帯電話で写真を撮るときの顔フォーカス、家庭で使われる掃除ロボット、これらはすべて人工知能の派生といえます。

[[376224]]

人間対機械のチェス

技術的に言えば、人工知能 (AI) とは、人間のように考え、人間の行動を模倣するようにプログラムされた機械で人間の知能をシミュレートすることを指します。つまり、ロボットが人間の行動を真似しようとしたり、AlphaGo が囲碁を打つときに人間の思考を真似したりするなど、機械を人間の行動や思考に近づけるのです。人工知能の分野の広さと皆さんの現在の基礎知識を考慮し、現在非常に人気のあるコンピュータービジョンの問題を例に、コンピューターを使用してオブジェクトを認識するプロセスを詳しく説明し、皆さんの興味を刺激したいと考えています。

コンピューターはどのように「見る」のでしょうか?

人間は写真を見ると、その写真の内容を簡単に判断できます。このプロセスには、複雑な生物学と認知科学の知識が関わっています。つまり、私たちの目が写真から情報を受け取り、その情報が脳内のニューロンを通過し、複雑な処理を経て、最終的に「写真には 3 人の人物が写っていて、そのうちの 1 人は母親で、他の 2 人はその子供である」といった関連信号が生成されると考えられます。

人間と同様に、コンピュータも「信号取得」「信号処理」「信号フィードバック」という 3 つのプロセスを経ます。カメラ、ビデオカメラ、その他の画像撮影装置が目の代わりになり、コンピュータチップ回路が脳内のニューロンの代わりになり、最終的に処理された信号がディスプレイを通じてフィードバックされます。

[[376225]]

携帯電話のカメラを使った花の識別

携帯電話のカメラを使って花を識別する例を見てみましょう。カメラが花の種類を「認識」するにはどのようなプロセスが必要ですか?人間と同様に、携帯電話も学習プロセスを経る必要があります。まず、携帯電話にたくさんの花の写真を見せ、それらの写真がどのカテゴリに属する​​かを教えてあげます。具体的なプロセスは次のとおりです。

  1. まず、カメラが花の写真を撮ります。携帯電話やパソコンなどのコンピューティング デバイスでは、写真はマトリックスの形式で存在します。マトリックスは一連の数字として理解でき、数字の大きさは色や明るさなどの情報を表します。
  2. 行列 X をニューラル ネットワーク N (入力値に対して出力値を取得できる複雑な数学関数と見なすことができます) に入力し、出力値 Y を記録します。
  3. これは学習プロセスなので、各写真の実際のカテゴリ Z は事前にわかっています。ニューラル ネットワーク N が正しい認識能力を持つためには、Y が Z にできるだけ近くなければなりません。そこで、Y と Z の間の距離を小さくするために N のパラメータを変更します。
  4. 1 ~ 3 を繰り返します。Y と Z が十分に近いと思われたら、モデルの学習プロセスは終了です。

学習したニューラル ネットワーク N を使用すると、携帯電話で新しい花の写真を撮ると、カメラは新しい行列 X' を抽出します。ニューラル ネットワークによって X' が計算された後、Y' が得られます。Y' をすべての Z と比較し、最も近いものを新しい写真のカテゴリと見なすことができます。

もちろん、上記のプロセスは、簡潔さと理解のために多くのことを省略しており、専門的な基準に準拠していない表現もいくつかあります。ご興味があれば、引き続き私の更新に注目してください。人工知能は魅力に満ちています!

初心者はどのようにして機械学習を始めればよいのでしょうか?

まず、人工知能、機械学習、ディープラーニングは互いに包含し合っていることを説明する必要があります。人工知能は擬人化の広い概念を表し、機械学習は具体的には統計と数学モデルを使用したモデリングを指し、ディープラーニングはモデルの種類をさらにディープニューラルネットワークに限定します。誰もが概念を持っていれば十分であり、学習を進めるにつれて徐々にその本質を理解するでしょう。

3つの包含関係

かつて、Zhihu の友人からプライベートメッセージが届き、「初心者は機械学習をどうやって学べばいいですか?」と尋ねられました。皆さんの混乱はよくわかります。前述のように、これは巨大で急速に変化する分野であり、テクノロジーは毎分更新されています。初心者として、正しい方向を見つけたかどうかをどのように確認すればよいでしょうか?私のアドバイスは、盲目的に新しいテクノロジーを追い求めないことです。今日登場している多くの新しいテクノロジーは、実際には、高尚な名前を持つテクノロジーの新しいサブセットです。

以降の内容は専門用語が多くなりますので、興味がない場合はオフにしても大丈夫ですよ~

作者のスタイルについてはよく分かりませんが、私は新しいものに触れると、まずその背後にある動機を理解する傾向があります。機械学習に関して初心者が最も混乱するのは、どこから始めればよいかわからないことです。個人的には、まずは自分の興味を決めることが大事だと思います。例えば、動画の画像を予測したいのであれば、まずは手法レベルで生成モデルに限定します。

文献を調べると、最も初期の生成モデルには、物理​​学のエネルギー モデルにヒントを得たボルタマン マシン (Deep Belief Network (Pretraining、Hinton 2006) など) や、現在人気の GAN および VAE などがあることがわかります。最先端の技術では、基本的にボルツマン マシンやディープ ビリーフ ネットワークなどの古い成果物を使用しないため、このプロセスは適切に短縮できます。しかし、しかし、本当に変化を起こしたいのであれば、深い文脈を理解する必要があると思います。たとえば、Goodfellow はなぜ GAN を提案したのでしょうか? GAN のような分野に影響を与えるものをどうやって思いついたのですか? (個人的にはGANの核はDiscriminatorだと思っています。一般的によく使われるMSEやL1などに比べると、Discriminatorはより人間の判断に近い役割を果たします。数学的な導出でも分布距離を最小化できることが証明されています。)

GAN と VAE に触れるとき、今日は CycleGAN に関する記事を読み、明日は FactorVAE に関する記事を読むことになるかもしれませんが、初心者にとってこれらの異なる知識は独立しており孤立しています。実際、上記は両方とも深層生成モデルです。CycleGAN は、広く使用されている技術であるサイクル一貫性を使用します。FactorVAE は、解釈可能なモデルの概念を伴う Disentanglement メカニズムを使用します。したがって、このステップでは、対象となる問題をさらに絞り込む必要があります。たとえば、固定カメラの異常事象の予測などです(奇妙に聞こえますが、心配しないでください。単なる例です)。

ディープラーニング(華書)、中国語版がリリースされたそうですよ~

Goodfellow と Bengio の『Deep Learning』を強くお勧めします。本当に素晴らしい本です。時間に余裕があれば、ぜひ読んでみてください。もちろん、普段のニーズに応じて関連する章を見つけることもできますが、最初の 10 章を読むことをお勧めします。そうすれば、回り道に費やす時間を大幅に節約できます。 Huashu の利点は、日常生活で生じる可能性のある小さな疑問がすべてここで詳しく説明されていることです。たとえば、第 7 章の Dropout メカニズムの説明。以前は、Dropout の動作についてのみ知っていました (本当にいつもそう思っていて、その理由については考えたことがありませんでした)。これは、多くの中国語ブログ (英語から直訳されたブログがたくさんあります...) の内容でもあり、つまり、フォワード パス中に一部の接続の重みをランダムに 0 に設定するというものです。ベンジオの説明で目が覚めました。これは実際には Boost メカニズムであり、各フォワード パスは実際には異なるサブモデルをトレーニングします。トレーニングが完了したら、最終テストプロセスで投票プロセスが実装されます。

<<:  中国の人工知能産業市場はどれくらい大きいのでしょうか? 2021年の6つの主要トレンド

>>:  人工知能が大人気ですね~最近のAIの応用シナリオは何でしょうか?

ブログ    
ブログ    

推薦する

...

ヘルスケア分野で人工知能がどのように台頭しているか

人工知能は世界のほぼすべての分野に変革をもたらしたようです。ヘルスケア業界は長年にわたって大きく変化...

データマイニングの分野でトップ 10 の古典的なアルゴリズムの 1 つ - K-Means アルゴリズム (コード付きで非常に詳細)

k-means アルゴリズムは比較的単純です。 k-means アルゴリズムでは、クラスターはクラ...

SOA におけるソフトウェア アーキテクチャ設計とソフトウェアとハ​​ードウェアの分離方法論

次世代の集中型電子電気アーキテクチャでは、中央+ゾーン中央コンピューティング ユニットと地域コントロ...

...

5GとAIの相互影響

技術革新に関しては、私たちは転換点に達したようです。過去 5 年間で、私たちは、アイデアの創出から会...

...

人工知能が爆発的に進化しています。この「鉄の飯碗」を手に入れるための新しいガイドをぜひ保存してください!

近年の人工知能の発展スピードは驚異的で、あらゆる分野で専門的なAIが登場しています。上海では以前、無...

ChatGPTはオンラインモードを緊急にシャットダウンし、有料のウェブページに無料でアクセスできることが一度明らかになった。

ChatGPT を使用して有料の Web コンテンツに無料でアクセスすることは、まもなくできなくな...

MITは、Natureの表紙に掲載され、非コード領域のDNA変異を予測するディープラーニングフレームワークを設計した。

人間の細胞にはそれぞれ多数の遺伝子が含まれていますが、いわゆる「コーディング」DNA配列は、ヒトゲノ...

人工知能チュートリアル(IV):確率論入門

このシリーズの前回の記事では、行列と線形代数についてさらに詳しく説明し、JupyterLab を使用...

データ処理を簡単にしますか? Baidu EasyDataが初の高度なインテリジェントデータクリーニング機能をリリース

AI モデルを開発する場合、データの量と品質がモデルの有効性に直接影響します。現場でデータを収集した...

分散コンセンサスアルゴリズム EPaxos について 1 つの記事で学ぶ

分散システムにおける中心的な問題はデータの一貫性です。 Paxos アルゴリズムは分散一貫性における...

LSTM の父が LLaMA 2 を激しく非難: 私のアイデアをコピーして私を辱めた!ネットユーザー:それをしたのはLeCunですか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...