10億枚の画像で訓練されたFacebookの新しいAIモデルは、コンピュータービジョンに革命を起こす可能性がある

10億枚の画像で訓練されたFacebookの新しいAIモデルは、コンピュータービジョンに革命を起こす可能性がある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

Facebookの研究者らは、インターネット上のラベルのない画像から学習できる新しいAIモデルを発表した。これはまだ初期段階ではあるが、研究チームはコンピュータービジョンの分野に革命をもたらす画期的な成果だと期待している。

SEER(SElf-SupERvised)と呼ばれるこのモデルには、手動でラベル付けされていない、公開されているInstagram画像10億枚が入力されました。しかし、AI アルゴリズムのトレーニングで通常使用されるラベルや注釈がなくても、SEER はデータセットを自律的にトレーニングし、継続的に学習し、最終的には物体検出などのタスクで最先端の精度を達成することができました。

画像はFacebook AIより

自己教師あり学習として知られるこのアプローチは、AI の分野ではすでに確立されています。写真内のオブジェクトの識別やテキストの翻訳などのタスクの実行方法を教える際に、慎重にラベル付けされたデータセットに頼るのではなく、与えられた情報から直接学習できるシステムで構成されています。

自己教師あり学習は、ほとんどの研究者にとって時間と労力がかかる作業であるデータの手動ラベル付けに必要な作業が大幅に削減されることを意味するため、最近大きな注目を集めています。データセットをキュレートする必要がないため、自己教師ありモデルはより大規模で多様なデータセットを処理できます。

いくつかの分野、特に自然言語処理においては、このアプローチはすでに画期的な進歩をもたらしています。ラベルなしテキストの量の増加に応じてアルゴリズムをトレーニングすることで、質問応答、機械翻訳、自然言語推論などのアプリケーションの進歩が可能になりました。

対照的に、コンピューター ビジョンは、自己教師あり学習革命にまだ完全には参入していません。 Facebook AI Research のソフトウェア エンジニアである Priya Gopal 氏は、SEER はこの種のものとしては初めてのものだと説明しています。 「ImageNetデータセットでトレーニングされた既存の自己教師型コンピュータビジョンモデルと比較すると、SEERはインターネット上で入手可能な画像でランダムにトレーニングできる初の完全自己教師型コンピュータビジョンモデルです」と彼女はZDNetに語った。

ImageNet は、研究者によってラベル付けされ、AI の進歩のためにより大規模なコンピューター ビジョン コミュニティに提供される、数百万枚の画像の大規模なデータベースです。

このプロジェクトのデータベースは、Facebook の研究者によって SEER のパフォーマンスを評価するためのベンチマークとして使用され、低高度写真撮影、物体検出、セグメンテーション、画像分類などのタスクにおいて、自己教師ありモデルが最先端の教師あり AI システムよりも優れたパフォーマンスを発揮することがわかりました。

「ランダム画像のみでトレーニングすることで、SEER は既存の自己教師モデルよりも優れたパフォーマンスを発揮します」と Goyal 氏は言います。「この結果は、ランダム画像での自己教師学習で非常に高品質のモデルを生成するために、ImageNet のような高度にキュレーションされたデータセットは必要ないことを示しています。」

自己教師学習の複雑さが増すにつれ、研究者の仕事に課題がないわけではありません。テキストに関しては、AI モデルは単語に意味を割り当てる役割を担います。しかし、画像の場合、アルゴリズムは、さまざまな写真の角度、ビュー、形状の違いを考慮して、各ピクセルが概念にどのように対応するかを決定する必要があります。

言い換えれば、研究者には大量のデータと、この複雑な情報プールから考えられるすべての視覚的概念を推測できる機械が必要です。

この課題を解決するために、ゴヤル氏と彼女のチームは、Facebook AI の既存の自己教師あり学習の研究から、類似する画像​​を別々のグループにクラスタ化する SwAV と呼ばれる新しいアルゴリズムを採用しました。科学者らはまた、人間の脳内のニューロンの接続パターンをモデル化し、画像内のさまざまなオブジェクトに重要性を割り当てる、深層学習アルゴリズムの一種である畳み込みネットワークも設計した。

Instagram の 10 億枚の画像データセットでは、控えめに言ってもシステムは巨大です。 Facebook チームは 32GB の RAM を搭載した V100 Nvidia GPU を使用していましたが、モデルのサイズが大きくなるにつれて、利用可能な RAM にモデルを収めることが不可欠になりました。しかしゴヤル氏は、コンピューティング能力が新しいシステムに適応していることを保証するために、さらなる研究が有益であると説明した。

「より多くの GPU でモデルをトレーニングするにつれて、それらの GPU 間の通信は高速化する必要があります。特定のメモリとランタイムの課題に対処するソフトウェアを開発できます」と彼女は言いました。

しかし、SEER を実際の使用事例に適用できるようになるまでにはまだ多くの作業が必要ですが、Goyal 氏はこの技術の影響を過小評価すべきではないと考えています。 「SEER により、大量のランダムなインターネット画像を使用して大規模なモデルをトレーニングできるようになり、コンピューター ビジョンがさらに進歩します」と彼女は述べています。

「この画期的な進歩により、テキストの自然言語処理で見られたのと同様に、コンピュータービジョンにおける自己教師あり学習に革命が起こる可能性があります。」

Facebook では、画像の説明の自動生成からポリシー違反コンテンツの識別まで、さまざまなコンピューター ビジョン タスクに SEER が使用されています。社外では、医療用画像処理など、画像やメタデータが限られている分野でもこの技術を活用できる可能性がある。

Facebook のチームは、SEER を次の開発段階に進めるためにさらなる作業を求めました。研究の一環として、研究チームはオープンソースのVISSSLと呼ばれる自己教師あり学習用の包括的なPyTorchベースのライブラリを開発し、AIコミュニティのより多くのメンバーにこの技術をテストするよう促しました。

<<:  5つの新たなAI IoTアプリケーション

>>:  全光自動運転ネットワーク、F5G全光スマートシティの共同構築

ブログ    
ブログ    

推薦する

人間と機械の翻訳対決は韓国で行われる。人工知能の未来は過小評価できない

韓国のソウルで人間の翻訳者と人工知能(AI)翻訳機の対決が行われる。人間の翻訳者が明らかに有利である...

Googleはプライバシーポリシーを更新し、インターネット上の公開情報をAIモデルのトレーニングに利用することを許可した。

検索エンジン大手のGoogleは7月4日、プライバシーポリシーを更新し、インターネット上の公開情報を...

ビッグデータの時代に、「アルゴリズム崇拝」に陥らないためにはどうすればいいのでしょうか?

「データ」は今日、これほど広く注目されたことはありません。以前は、携帯電話番号などの情報を何気なく...

...

機械学習を理解するための 3 つの図: 基本概念、5 つの主要な流派、9 つの一般的なアルゴリズム

機械学習は進歩しており、私たちが思い描いている人工知能にどんどん近づいているようです。音声認識、画像...

OpenAI のもう一つの「大ヒット作」: AI に芸術的創造性を与える

OpenAIがまた爆弾発言をしました。昨年夏に人気の言語モデルGPT-3を発表したOpenAIの研究...

...

中国初の風力タービン出力曲線AIモデルが発表され、業界のギャップを埋める

8月28日、国家エネルギー音声の公式WeChatアカウントによると、龍源電力工程技術有限公司は最近、...

...

IoTドローンが都市を消毒する方法

貴州省黔南州応急管理局は、最近、貴州省黔南州都雲市でウイルス消毒作業を行うためヘリコプターを派遣した...

人工知能技術はCOVID-19の流行との戦いで重要な役割を果たしてきた

ハイテクである人工知能(AI)は、医療と健康の分野、特にCOVID-19の流行との闘いにおいて非常に...

ニューラルネットワークの層とノードの数を設定する方法

[51CTO.com クイック翻訳] 人工ニューラル ネットワークには、ネットワークのアーキテクチャ...

IoTがAIの可能性をどう活用できるか

過去 10 年間、モノのインターネットはビジネスの世界で着実に導入されてきました。企業はすでに Io...

CMU と ETH が画期的な成果を達成: 敏捷性が最大限に高められたロボット犬は、スピードと安全性を兼ね備え、超高速で障害物を乗り越えることができます。

高速ロボット動作の分野では、速度と安全性の両立が常に大きな課題となっています。しかし今、カーネギーメ...