ディープラーニングの次の段階：ニューラルアーキテクチャの自己学習により、優れたコンピュータビジョンモデルが実現

[[275255]]

ディープラーニングは人工知能モデルの先駆けです。画像認識、音声認識、テキスト理解、さらには自動運転に至るまで、ディープラーニングの登場により、AI の可能性に対する私たちの想像力は大きく豊かになりました。

では、なぜディープラーニングはこれほど成功しているのでしょうか?

主流の考え方では、ディープラーニングが成功した重要な理由は、データの特徴（視覚、テキスト、音声など）を構築または表現するために人間の直感に頼るのではなく、これらの特徴を自律的に学習するニューラルネットワークアーキテクチャを構築することであると考えられています。

キーワードは機能です。特徴エンジニアリングから特徴検索、特徴学習まで、各段階での進歩によりパフォーマンスが大幅に向上します。

「機能」についてはやるべきことがたくさんあるので、「ネットワーク構造」についても同じ経験を生かせるでしょうか？

はい、できます！

この斬新なアイデアは、アレンAI研究所の新しい研究によって裏付けられています。最新の研究によると、コンピューターは人間が設計したものよりもニューラルネットワークアーキテクチャをよりよく学習できることがわかりました。

トレーニング中、ネットワークはネットワークアーキテクチャを柔軟に変更でき、ネットワークパラメータと構造自体の両方を学習します。学習されたアーキテクチャは本質的に非常にスパースであるため、計算操作の点でははるかに小さなモデルでありながら、高い精度を実現します。

効率的なスパースコンピューティングハードウェアが開発されている環境において、これはディープラーニングモデルの進化の次の段階への重要なきっかけとなる可能性があります。

彼らの最新の成果を知る前に、まずは 20 年前からディープラーニング時代の始まりまでのコンピュータービジョン技術分野における AI モデルの主要な開発段階を振り返ってみましょう。同じ傾向は他のディープラーニング分野にも反映されています。

コンピュータビジョン開発の3つの段階

機能エンジニアリングフェーズ

画像セマンティクスを持つ画像内の高次元ベクトルを手動で見つけてみます。成功例としては、SIFT、HOG、ShapeContext、RBF、Intersection Kernel などがあります。これらの特徴と機能は、人間の視覚認識プロセスのシミュレーションに基づいています。これは当時のコンピュータービジョン技術の基礎科学でした。数年にわたる直感主導の研究を経ても、コンピュータービジョンの科学者は新しい機能を開発することができず、この分野は第2段階に突入しました。

最適なコンピュータビジョンモデル

特徴エンジニアリングは、ディープラーニングが登場する前のコンピュータービジョンの基礎科学でした。

機能検索フェーズ

自動検索プロセスとも呼ばれ、さまざまな可能な機能またはカーネル関数を組み合わせて、特定のアプリケーション (オブジェクト分類など) の精度を向上させます。成功した方法には、特徴選択法や複数カーネルモデルなどがあります。これらのプロセスは計算集約的ですが、コンピュータービジョンモデルの精度を向上させることができます。もう 1 つの大きな制限は、検索空間の構成要素 (特徴関数) が、視覚認識に関する人間の直感に基づいて手動で設計されることです。しかし、ある研究では、人間が物体のカテゴリーを区別する方法を正確に説明できない可能性があることが示唆されています。

たとえば、犬の写真と猫の写真をどのように区別するか説明できますか?選択した特徴（耳の鮮明さ、目の形や色など）は猫と犬の両方に共通していますが、写真を見るとそれが犬か猫かがすぐにわかります。このため、一部の科学者は、特徴駆動型コンピュータービジョンモデルを設計するための従来のボトムアップアプローチを放棄し、コンピューター自身に特徴認識を設計させる方向へと移行しました。

最適なコンピュータビジョンモデル

特徴の組み合わせとマルチコアモデル（Kavak et al. ISACS 2013 の画像）

機能学習フェーズ

これは、高次元ベクトル空間から視覚的特徴を自動的に決定する段階であり、画像の内容を解釈することで、コンピューターがオブジェクトの分類などの特定のタスクを実行できるようにするプロセスです。この機能は、深層畳み込みニューラルネットワークアーキテクチャ (CNN) の開発によって可能になりました。機能を設計するプロセスに人間の介入がないため、このアルゴリズムはエンドツーエンドモデルとも呼ばれます。実際、このプロセスは計算負荷が非常に高く、基礎となるニューラルネットワークをトレーニングするために膨大な量のデータが必要となるため、その構造の特徴を人間が解釈することはほぼ不可能です。並列プロセッサハードウェア (GPU や TPU など) の進歩と大規模データセットの利用可能性により、これが可能になり、成功しました。

最適なコンピュータビジョンモデル

ディープニューラルネットワークによる特徴学習

素晴らしい！ディープラーニングは独立して動作できるようです。では、コンピュータービジョン科学者はどのような役割を果たす必要があるのでしょうか? ！

将来に向けて

「機能」という言葉を「アーキテクチャ」に置き換えて、上記の 3 つの段階を組み合わせると、ディープラーニングの将来の発展の傾向を説明できる可能性があります。

建築工学

これは「機能学習」フェーズとほぼ同じです。畳み込みニューラルネットワークアーキテクチャは、特定のタスクに合わせて手動で設計する必要があります。主な原則は、シンプルだがより深い（つまり、より多くのレイヤー）アーキテクチャにより、より高い精度を実現できるということです。この段階では、アーキテクチャの設計とトレーニング (ネットワーク最適化) 手法が、コンピュータービジョン (および他の多くの DCNN アプリケーション) の主な目標です。これらのネットワーク設計は、人間自身の視覚認識システムに関する知識に基づいています。成功したアーキテクチャ設計には、AlexNet、VGGNet、GoogleNet、ResNet などがあります。これらのモデルの主な制限は、計算の複雑さです。多くの場合、1 つの画像を処理するために数十億の算術演算 (浮動小数点演算) を実行する必要があります。実際には、モデルを十分な速度で実行するには、GPU を使用して大量の電力を消費する必要があることがよくあります。したがって、最新の AI モデルは主に強力なクラウドサーバーを通じて実装されます。

このため、科学者はエッジデバイス上で実行できる、より効率的な AI モデルを設計するようになりました。成功したモデルとしては、Xnor-net、Mobilenet、Shufflenet などがあります。「特徴エンジニアリング」フェーズと同様に、数年後、アイデアが枯渇した研究者は「検索」フェーズに移行します。

最適なコンピュータビジョンモデル

ディープラーニングの出現後、コンピュータビジョンの基礎科学はネットワークアーキテクチャ設計になりました（画像提供：Joseph Cohen）

スキーマ検索

これは現在最も先進的な AI モデルです。主な原則は、以前の成功したアーキテクチャのビルディングブロックを使用し、これらのブロックの組み合わせを自動的に検索して、新しいニューラルネットワークアーキテクチャを構築することです。主な目標は、計算量が少なく、高精度なアーキテクチャを作成することです。成功したニューラルアーキテクチャ検索方法には、NASNet、MNASNet、FBNet などがあります。可能な組み合わせの検索空間が非常に大きいため、これらのモデルをトレーニングするには、標準的なディープラーニングモデルよりも多くの計算とデータが必要です。「特徴検索」段階と同様に、これらのモデルも、人間の直感に基づいて構成要素を手動で設計することによって制約されます。これまでの経験に基づくと、人間はニューラルアーキテクチャの設計方法についてコンピューターほど優れた直感を持っていません。新しい研究によると、ランダムに接続されたニューラルネットワークは、いくつかの手作業で設計されたアーキテクチャよりも優れたパフォーマンスを発揮します。

まとめると、ディープラーニングの次の段階では、コンピューターに独自のアーキテクチャを設計させることになることは明らかです。

最適なコンピュータビジョンモデル

より優れたCNNモデルを構築するために、CNNのさまざまな構成要素の組み合わせを探す

アーキテクチャ学習フェーズ

私たちは最近、Xnor.ai と Allen Institute for AI で、データから直接ニューラルネットワークアーキテクチャを自動的に学習する「Discovering Neural Wirings」という新しいモデルを構築しました。このモデルでは、ニューラルネットワークを制約のないグラフとして設定し、レイヤーの概念を緩和して、ノード (画像のチャネルなど) が互いに独立した接続を形成できるようにします。これにより、ネットワークスペースの使用可能範囲が広がります。トレーニング中、ネットワークのアーキテクチャは固定されず、ネットワークパラメータと構造自体の両方が学習されます。ネットワーク構造にはグラフ内にループを含めることができ、これがメモリ構造の概念を形成します。学習されたアーキテクチャは非常にスパースであるため、算術演算の点では、高い精度を達成しながらもはるかに小さなモデルになります。

コード：

https://github.com/allenai/dnw

もちろん、「特徴学習」段階と同様に、このディープラーニング段階では、大規模なグラフを処理するためにトレーニング中に大量の計算が必要となり、大量のデータが必要になります。スパースグラフコンピューティングに特化したハードウェアの開発により、最適なネットワークアーキテクチャを自動的に発見する技術がますます成熟し、高精度で効率的なエッジAIモデルの実現が間近に迫っていると私たちは確信しています。

最適なコンピュータビジョンモデル

ニューラルアーキテクチャ学習のプロセス：データから完全なニューラルグラフ内のニューロン間の最小接続を発見する

リンク：

https://medium.com/xnor-ai/the-next-phase-of-deep-learning-neural-architecture-learning-automatic-discovering-of-neural-d08fc9a6065d

<<: 自動運転のベテラン、UberのためにGoogleの機密文書14,000件を盗んだとして訴えられる

>>: 業界の開発者にとって朗報です! Baidu PaddlePaddle のディープラーニング機能が Inspur AI サーバーに導入