ディープラーニングの次の段階:ニューラルアーキテクチャの自己学習により、優れたコンピュータビジョンモデルが実現

ディープラーニングの次の段階:ニューラルアーキテクチャの自己学習により、優れたコンピュータビジョンモデルが実現

[[275255]]

ディープラーニングは人工知能モデルの先駆けです。画像認識、音声認識、テキスト理解、さらには自動運転に至るまで、ディープラーニングの登場により、AI の可能性に対する私たちの想像力は大きく豊かになりました。

では、なぜディープラーニングはこれほど成功しているのでしょうか?

主流の考え方では、ディープラーニングが成功した重要な理由は、データの特徴(視覚、テキスト、音声など)を構築または表現するために人間の直感に頼るのではなく、これらの特徴を自律的に学習するニューラル ネットワーク アーキテクチャを構築することであると考えられています。

キーワードは機能です。特徴エンジニアリングから特徴検索、特徴学習まで、各段階での進歩によりパフォーマンスが大幅に向上します。

機能」についてはやるべきことがたくさんあるので、「ネットワーク構造」についても同じ経験を生かせるでしょうか?

はい、できます!

この斬新なアイデアは、アレンAI研究所の新しい研究によって裏付けられています。最新の研究によると、コンピューターは人間が設計したものよりもニューラル ネットワーク アーキテクチャをよりよく学習できることがわかりました。

トレーニング中、ネットワークはネットワーク アーキテクチャを柔軟に変更でき、ネットワーク パラメータと構造自体の両方を学習します。学習されたアーキテクチャは本質的に非常にスパースであるため、計算操作の点でははるかに小さなモデルでありながら、高い精度を実現します。

効率的なスパースコンピューティングハードウェアが開発されている環境において、これはディープラーニングモデルの進化の次の段階への重要なきっかけとなる可能性があります。

彼らの最新の成果を知る前に、まずは 20 年前からディープラーニング時代の始まりまでのコンピューター ビジョン技術分野における AI モデルの主要な開発段階を振り返ってみましょう。同じ傾向は他のディープラーニング分野にも反映されています。

コンピュータビジョン開発の3つの段階

機能エンジニアリングフェーズ

画像セマンティクスを持つ画像内の高次元ベクトルを手動で見つけてみます。成功例としては、SIFT、HOG、ShapeContext、RBF、Intersection Kernel などがあります。これらの特徴と機能は、人間の視覚認識プロセスのシミュレーションに基づいています。これは当時のコンピュータービジョン技術の基礎科学でした。数年にわたる直感主導の研究を経ても、コンピュータービジョンの科学者は新しい機能を開発することができず、この分野は第2段階に突入しました。

最適なコンピュータビジョンモデル

特徴エンジニアリングは、ディープラーニングが登場する前のコンピュータービジョンの基礎科学でした。

機能検索フェーズ

自動検索プロセスとも呼ばれ、さまざまな可能な機能またはカーネル関数を組み合わせて、特定のアプリケーション (オブジェクト分類など) の精度を向上させます。成功した方法には、特徴選択法や複数カーネル モデルなどがあります。これらのプロセスは計算集約的ですが、コンピューター ビジョン モデルの精度を向上させることができます。もう 1 つの大きな制限は、検索空間の構成要素 (特徴関数) が、視覚認識に関する人間の直感に基づいて手動で設計されることです。しかし、ある研究では、人間が物体のカテゴリーを区別する方法を正確に説明できない可能性があることが示唆されています。

たとえば、犬の写真と猫の写真をどのように区別するか説明できますか?選択した特徴(耳の鮮明さ、目の形や色など)は猫と犬の両方に共通していますが、写真を見るとそれが犬か猫かがすぐにわかります。このため、一部の科学者は、特徴駆動型コンピューター ビジョン モデルを設計するための従来のボトムアップ アプローチを放棄し、コンピューター自身に特徴認識を設計させる方向へと移行しました。

最適なコンピュータビジョンモデル

特徴の組み合わせとマルチコアモデル(Kavak et al. ISACS 2013 の画像)

機能学習フェーズ

これは、高次元ベクトル空間から視覚的特徴を自動的に決定する段階であり、画像の内容を解釈することで、コンピューターがオブジェクトの分類などの特定のタスクを実行できるようにするプロセスです。この機能は、深層畳み込みニューラル ネットワーク アーキテクチャ (CNN) の開発によって可能になりました。機能を設計するプロセスに人間の介入がないため、このアルゴリズムはエンドツーエンド モデルとも呼ばれます。実際、このプロセスは計算負荷が非常に高く、基礎となるニューラル ネットワークをトレーニングするために膨大な量のデータが必要となるため、その構造の特徴を人間が解釈することはほぼ不可能です。並列プロセッサ ハードウェア (GPU や TPU など) の進歩と大規模データセットの利用可能性により、これが可能になり、成功しました。

最適なコンピュータビジョンモデル

ディープニューラルネットワークによる特徴学習

素晴らしい!ディープラーニングは独立して動作できるようです。では、コンピュータービジョン科学者はどのような役割を果たす必要があるのでしょうか? !

将来に向けて

「機能」という言葉を「アーキテクチャ」に置き換えて、上記の 3 つの段階を組み合わせると、ディープラーニングの将来の発展の傾向を説明できる可能性があります。

建築工学

これは「機能学習」フェーズとほぼ同じです。畳み込みニューラル ネットワーク アーキテクチャは、特定のタスクに合わせて手動で設計する必要があります。主な原則は、シンプルだがより深い(つまり、より多くのレイヤー)アーキテクチャにより、より高い精度を実現できるということです。この段階では、アーキテクチャの設計とトレーニング (ネットワーク最適化) 手法が、コンピューター ビジョン (および他の多くの DCNN アプリケーション) の主な目標です。これらのネットワーク設計は、人間自身の視覚認識システムに関する知識に基づいています。成功したアーキテクチャ設計には、AlexNet、VGGNet、GoogleNet、ResNet などがあります。これらのモデルの主な制限は、計算の複雑さです。多くの場合、1 つの画像を処理するために数十億の算術演算 (浮動小数点演算) を実行する必要があります。実際には、モデルを十分な速度で実行するには、GPU を使用して大量の電力を消費する必要があることがよくあります。したがって、最新の AI モデルは主に強力なクラウド サーバーを通じて実装されます。

このため、科学者はエッジデバイス上で実行できる、より効率的な AI モデルを設計するようになりました。成功したモデルとしては、Xnor-net、Mobilenet、Shufflenet などがあります。 「特徴エンジニアリング」フェーズと同様に、数年後、アイデアが枯渇した研究者は「検索」フェーズに移行します。

最適なコンピュータビジョンモデル

ディープラーニングの出現後、コンピュータビジョンの基礎科学はネットワークアーキテクチャ設計になりました(画像提供:Joseph Cohen)

スキーマ検索

これは現在最も先進的な AI モデルです。主な原則は、以前の成功したアーキテクチャのビルディング ブロックを使用し、これらのブロックの組み合わせを自動的に検索して、新しいニューラル ネットワーク アーキテクチャを構築することです。主な目標は、計算量が少なく、高精度なアーキテクチャを作成することです。成功したニューラル アーキテクチャ検索方法には、NASNet、MNASNet、FBNet などがあります。可能な組み合わせの検索空間が非常に大きいため、これらのモデルをトレーニングするには、標準的なディープラーニング モデルよりも多くの計算とデータが必要です。 「特徴検索」段階と同様に、これらのモデルも、人間の直感に基づいて構成要素を手動で設計することによって制約されます。これまでの経験に基づくと、人間はニューラル アーキテクチャの設計方法についてコンピューターほど優れた直感を持っていません。新しい研究によると、ランダムに接続されたニューラル ネットワークは、いくつかの手作業で設計されたアーキテクチャよりも優れたパフォーマンスを発揮します。

まとめると、ディープラーニングの次の段階では、コンピューターに独自のアーキテクチャを設計させることになることは明らかです。

最適なコンピュータビジョンモデル

より優れたCNNモデルを構築するために、CNNのさまざまな構成要素の組み合わせを探す

アーキテクチャ学習フェーズ

私たちは最近、Xnor.ai と Allen Institute for AI で、データから直接ニューラル ネットワーク アーキテクチャを自動的に学習する「Discovering Neural Wirings」という新しいモデルを構築しました。このモデルでは、ニューラル ネットワークを制約のないグラフとして設定し、レイヤーの概念を緩和して、ノード (画像のチャネルなど) が互いに独立した接続を形成できるようにします。これにより、ネットワークスペースの使用可能範囲が広がります。トレーニング中、ネットワークのアーキテクチャは固定されず、ネットワーク パラメータと構造自体の両方が学習されます。ネットワーク構造にはグラフ内にループを含めることができ、これがメモリ構造の概念を形成します。学習されたアーキテクチャは非常にスパースであるため、算術演算の点では、高い精度を達成しながらもはるかに小さなモデルになります。

コード:

https://github.com/allenai/dnw

もちろん、「特徴学習」段階と同様に、このディープラーニング段階では、大規模なグラフを処理するためにトレーニング中に大量の計算が必要となり、大量のデータが必要になります。スパースグラフコンピューティングに特化したハードウェアの開発により、最適なネットワークアーキテクチャを自動的に発見する技術がますます成熟し、高精度で効率的なエッジAIモデルの実現が間近に迫っていると私たちは確信しています。

最適なコンピュータビジョンモデル

ニューラルアーキテクチャ学習のプロセス:データから完全なニューラルグラフ内のニューロン間の最小接続を発見する

リンク:

https://medium.com/xnor-ai/the-next-phase-of-deep-learning-neural-architecture-learning-automatic-discovering-of-neural-d08fc9a6065d

<<:  自動運転のベテラン、UberのためにGoogleの機密文書14,000件を盗んだとして訴えられる

>>:  業界の開発者にとって朗報です! Baidu PaddlePaddle のディープラーニング機能が Inspur AI サーバーに導入

ブログ    
ブログ    
ブログ    

推薦する

...

2023 年のネットワーク パーティション: AI と自動化が状況をどのように変えるか

ネットワーク セグメンテーションは、企業の攻撃対象領域を減らし、横方向の移動を防ぐ基本的な予防的セキ...

ディープマインドの創業者はAIの弟子を育て、「訓練」ではなく「教育」によってAIに宝探しを教えた

最近、DeepMind は強化学習の分野で新しいことを行いました。簡単に言えば、DeepMind の...

エネルギーの未来: 仮想発電所はエネルギー転換を加速できるか?

コペルニクス気候変動サービスによると、2023年は記録上最も暖かい年となっただけでなく、世界の平均表...

GPT-4 Turbo が Microsoft Copilot に搭載されるようになりました。アクセス可能かどうかを確認する方法は次のとおりです。

開発者、ライター、または AI 愛好家であれば、ChatGPT の開発元である OpenAI の最新...

AI エンジンが旅行の新時代を切り開きます。なぜ最初に恩恵を受けるのでしょうか?

AI(人工知能)を中心とした技術がインターネットのさまざまな分野を席巻し、旅行や位置情報サービスを...

Google 検索は年間 890 回以上改善され、そのコア アルゴリズムは毎日変更されます。

8月21日、Googleの検索事業責任者アミット・シンガル氏はGoogle+に記事を掲載し、過去1...

...

ソラが「莫大な富」をもたらす、AIインフラ:今度は私の番です!

春節期間中、OpenAIの最新の技術的成果であるVincentのビデオモデルSoraが衝撃的なデビュ...

...

マイア:人間を模倣するが、人間を超えることはないチェスAI

[[378769]]海外メディアの報道によると、AIは長年にわたり、あらゆる古典的なボードゲームで...

初心者からプロまでが使用する機械学習ソフトウェア トップ 10

この記事では、機械学習に最適なソフトウェアについて説明します。これらのソフトウェアは、ML コードを...

機械学習アルゴリズムは簡単に詐欺を検出できるので、詐欺を恐れる必要はありません。

実のところ、誰もが詐欺防止を必要としているわけではありません。金融機関が最新の犯罪手法に追いつこうと...

ハッカーがトレーニングデータセットを汚染し、AIモデルが「犬を入力して猫を生成」できるようにするNightshadeツールを公開

10月25日、AIの大規模モデルトレーニングデータソースの著作権問題は、常に業界にとって頭痛の種とな...