10億枚の画像で訓練されたFacebookの新しいAIモデルは、コンピュータービジョンに革命を起こす可能性がある

10億枚の画像で訓練されたFacebookの新しいAIモデルは、コンピュータービジョンに革命を起こす可能性がある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

Facebookの研究者らは、インターネット上のラベルのない画像から学習できる新しいAIモデルを発表した。これはまだ初期段階ではあるが、研究チームはコンピュータービジョンの分野に革命をもたらす画期的な成果だと期待している。

SEER(SElf-SupERvised)と呼ばれるこのモデルには、手動でラベル付けされていない、公開されているInstagram画像10億枚が入力されました。しかし、AI アルゴリズムのトレーニングで通常使用されるラベルや注釈がなくても、SEER はデータセットを自律的にトレーニングし、継続的に学習し、最終的には物体検出などのタスクで最先端の精度を達成することができました。

画像はFacebook AIより

自己教師あり学習として知られるこのアプローチは、AI の分野ではすでに確立されています。写真内のオブジェクトの識別やテキストの翻訳などのタスクの実行方法を教える際に、慎重にラベル付けされたデータセットに頼るのではなく、与えられた情報から直接学習できるシステムで構成されています。

自己教師あり学習は、ほとんどの研究者にとって時間と労力がかかる作業であるデータの手動ラベル付けに必要な作業が大幅に削減されることを意味するため、最近大きな注目を集めています。データセットをキュレートする必要がないため、自己教師ありモデルはより大規模で多様なデータセットを処理できます。

いくつかの分野、特に自然言語処理においては、このアプローチはすでに画期的な進歩をもたらしています。ラベルなしテキストの量の増加に応じてアルゴリズムをトレーニングすることで、質問応答、機械翻訳、自然言語推論などのアプリケーションの進歩が可能になりました。

対照的に、コンピューター ビジョンは、自己教師あり学習革命にまだ完全には参入していません。 Facebook AI Research のソフトウェア エンジニアである Priya Gopal 氏は、SEER はこの種のものとしては初めてのものだと説明しています。 「ImageNetデータセットでトレーニングされた既存の自己教師型コンピュータビジョンモデルと比較すると、SEERはインターネット上で入手可能な画像でランダムにトレーニングできる初の完全自己教師型コンピュータビジョンモデルです」と彼女はZDNetに語った。

ImageNet は、研究者によってラベル付けされ、AI の進歩のためにより大規模なコンピューター ビジョン コミュニティに提供される、数百万枚の画像の大規模なデータベースです。

このプロジェクトのデータベースは、Facebook の研究者によって SEER のパフォーマンスを評価するためのベンチマークとして使用され、低高度写真撮影、物体検出、セグメンテーション、画像分類などのタスクにおいて、自己教師ありモデルが最先端の教師あり AI システムよりも優れたパフォーマンスを発揮することがわかりました。

「ランダム画像のみでトレーニングすることで、SEER は既存の自己教師モデルよりも優れたパフォーマンスを発揮します」と Goyal 氏は言います。「この結果は、ランダム画像での自己教師学習で非常に高品質のモデルを生成するために、ImageNet のような高度にキュレーションされたデータセットは必要ないことを示しています。」

自己教師学習の複雑さが増すにつれ、研究者の仕事に課題がないわけではありません。テキストに関しては、AI モデルは単語に意味を割り当てる役割を担います。しかし、画像の場合、アルゴリズムは、さまざまな写真の角度、ビュー、形状の違いを考慮して、各ピクセルが概念にどのように対応するかを決定する必要があります。

言い換えれば、研究者には大量のデータと、この複雑な情報プールから考えられるすべての視覚的概念を推測できる機械が必要です。

この課題を解決するために、ゴヤル氏と彼女のチームは、Facebook AI の既存の自己教師あり学習の研究から、類似する画像​​を別々のグループにクラスタ化する SwAV と呼ばれる新しいアルゴリズムを採用しました。科学者らはまた、人間の脳内のニューロンの接続パターンをモデル化し、画像内のさまざまなオブジェクトに重要性を割り当てる、深層学習アルゴリズムの一種である畳み込みネットワークも設計した。

Instagram の 10 億枚の画像データセットでは、控えめに言ってもシステムは巨大です。 Facebook チームは 32GB の RAM を搭載した V100 Nvidia GPU を使用していましたが、モデルのサイズが大きくなるにつれて、利用可能な RAM にモデルを収めることが不可欠になりました。しかしゴヤル氏は、コンピューティング能力が新しいシステムに適応していることを保証するために、さらなる研究が有益であると説明した。

「より多くの GPU でモデルをトレーニングするにつれて、それらの GPU 間の通信は高速化する必要があります。特定のメモリとランタイムの課題に対処するソフトウェアを開発できます」と彼女は言いました。

しかし、SEER を実際の使用事例に適用できるようになるまでにはまだ多くの作業が必要ですが、Goyal 氏はこの技術の影響を過小評価すべきではないと考えています。 「SEER により、大量のランダムなインターネット画像を使用して大規模なモデルをトレーニングできるようになり、コンピューター ビジョンがさらに進歩します」と彼女は述べています。

「この画期的な進歩により、テキストの自然言語処理で見られたのと同様に、コンピュータービジョンにおける自己教師あり学習に革命が起こる可能性があります。」

Facebook では、画像の説明の自動生成からポリシー違反コンテンツの識別まで、さまざまなコンピューター ビジョン タスクに SEER が使用されています。社外では、医療用画像処理など、画像やメタデータが限られている分野でもこの技術を活用できる可能性がある。

Facebook のチームは、SEER を次の開発段階に進めるためにさらなる作業を求めました。研究の一環として、研究チームはオープンソースのVISSSLと呼ばれる自己教師あり学習用の包括的なPyTorchベースのライブラリを開発し、AIコミュニティのより多くのメンバーにこの技術をテストするよう促しました。

<<:  5つの新たなAI IoTアプリケーション

>>:  全光自動運転ネットワーク、F5G全光スマートシティの共同構築

ブログ    

推薦する

中山大学、AIGCの大規模応用を促進するためにソース拡散モデル統合コードフレームワークを公開

近年、拡散モデルに基づく画像生成モデルが次々と登場し、驚くべき生成効果を示しています。しかし、関連す...

ニューラルネットワークの父ヒントン氏は、34年前の画期的な業績を再検証し、脳内のAI手法の「存在」を模索している。

これまで耳にした人工知能の進歩のほぼすべては、30 年前に発表された、多層ニューラル ネットワークを...

教師あり学習に匹敵する、より優れた一般化性能を備えた自己教師あり学習深度推定アルゴリズム

[[428260]]屋内環境での自己教師付き深度推定は、屋外環境でのそれよりも常に困難でした。OPP...

...

人工ニューラルネットワークとBPアルゴリズムについての簡単な説明

[[338555]] 【51CTO.comオリジナル記事】 1 はじめに現在、機械学習技術とも呼ばれ...

Windows 11 AI「パーソナルアシスタント」、Microsoft Windows Copilot が近日登場

6月26日のニュースによると、今年5月、マイクロソフトは毎年恒例のBuild開発者会議で、Windo...

...

Appleがニュース編集者を雇っているにもかかわらず、アルゴリズムがあなたが読むものを決定する

[[137024]]読むものを決めるのがメディアではなく、モバイル アプリケーションやソーシャル ネ...

人工知能は改めてすごいですね!科学者は偶然、死者を「蘇らせる」ことができることを発見した

マイクロソフトは現在、チャットボットを開発中との報道もある。将来的に実用化に成功すれば、デジタル技術...

機械はどのように学習するのでしょうか?人工知能の「双方向戦闘」を詳しく解説

金庸の武侠小説『射雁英雄伝』には、桃花島に閉じ込められた「悪童」周伯同が「左右の格闘術」を編み出した...

教師あり学習と教師なし学習:専門家がギャップを定義

教師あり学習、教師なし学習、半教師あり学習の特徴と、それらが機械学習プロジェクトでどのように使用され...

...

...