10億枚の画像で訓練されたFacebookの新しいAIモデルは、コンピュータービジョンに革命を起こす可能性がある

10億枚の画像で訓練されたFacebookの新しいAIモデルは、コンピュータービジョンに革命を起こす可能性がある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

Facebookの研究者らは、インターネット上のラベルのない画像から学習できる新しいAIモデルを発表した。これはまだ初期段階ではあるが、研究チームはコンピュータービジョンの分野に革命をもたらす画期的な成果だと期待している。

SEER(SElf-SupERvised)と呼ばれるこのモデルには、手動でラベル付けされていない、公開されているInstagram画像10億枚が入力されました。しかし、AI アルゴリズムのトレーニングで通常使用されるラベルや注釈がなくても、SEER はデータセットを自律的にトレーニングし、継続的に学習し、最終的には物体検出などのタスクで最先端の精度を達成することができました。

画像はFacebook AIより

自己教師あり学習として知られるこのアプローチは、AI の分野ではすでに確立されています。写真内のオブジェクトの識別やテキストの翻訳などのタスクの実行方法を教える際に、慎重にラベル付けされたデータセットに頼るのではなく、与えられた情報から直接学習できるシステムで構成されています。

自己教師あり学習は、ほとんどの研究者にとって時間と労力がかかる作業であるデータの手動ラベル付けに必要な作業が大幅に削減されることを意味するため、最近大きな注目を集めています。データセットをキュレートする必要がないため、自己教師ありモデルはより大規模で多様なデータセットを処理できます。

いくつかの分野、特に自然言語処理においては、このアプローチはすでに画期的な進歩をもたらしています。ラベルなしテキストの量の増加に応じてアルゴリズムをトレーニングすることで、質問応答、機械翻訳、自然言語推論などのアプリケーションの進歩が可能になりました。

対照的に、コンピューター ビジョンは、自己教師あり学習革命にまだ完全には参入していません。 Facebook AI Research のソフトウェア エンジニアである Priya Gopal 氏は、SEER はこの種のものとしては初めてのものだと説明しています。 「ImageNetデータセットでトレーニングされた既存の自己教師型コンピュータビジョンモデルと比較すると、SEERはインターネット上で入手可能な画像でランダムにトレーニングできる初の完全自己教師型コンピュータビジョンモデルです」と彼女はZDNetに語った。

ImageNet は、研究者によってラベル付けされ、AI の進歩のためにより大規模なコンピューター ビジョン コミュニティに提供される、数百万枚の画像の大規模なデータベースです。

このプロジェクトのデータベースは、Facebook の研究者によって SEER のパフォーマンスを評価するためのベンチマークとして使用され、低高度写真撮影、物体検出、セグメンテーション、画像分類などのタスクにおいて、自己教師ありモデルが最先端の教師あり AI システムよりも優れたパフォーマンスを発揮することがわかりました。

「ランダム画像のみでトレーニングすることで、SEER は既存の自己教師モデルよりも優れたパフォーマンスを発揮します」と Goyal 氏は言います。「この結果は、ランダム画像での自己教師学習で非常に高品質のモデルを生成するために、ImageNet のような高度にキュレーションされたデータセットは必要ないことを示しています。」

自己教師学習の複雑さが増すにつれ、研究者の仕事に課題がないわけではありません。テキストに関しては、AI モデルは単語に意味を割り当てる役割を担います。しかし、画像の場合、アルゴリズムは、さまざまな写真の角度、ビュー、形状の違いを考慮して、各ピクセルが概念にどのように対応するかを決定する必要があります。

言い換えれば、研究者には大量のデータと、この複雑な情報プールから考えられるすべての視覚的概念を推測できる機械が必要です。

この課題を解決するために、ゴヤル氏と彼女のチームは、Facebook AI の既存の自己教師あり学習の研究から、類似する画像​​を別々のグループにクラスタ化する SwAV と呼ばれる新しいアルゴリズムを採用しました。科学者らはまた、人間の脳内のニューロンの接続パターンをモデル化し、画像内のさまざまなオブジェクトに重要性を割り当てる、深層学習アルゴリズムの一種である畳み込みネットワークも設計した。

Instagram の 10 億枚の画像データセットでは、控えめに言ってもシステムは巨大です。 Facebook チームは 32GB の RAM を搭載した V100 Nvidia GPU を使用していましたが、モデルのサイズが大きくなるにつれて、利用可能な RAM にモデルを収めることが不可欠になりました。しかしゴヤル氏は、コンピューティング能力が新しいシステムに適応していることを保証するために、さらなる研究が有益であると説明した。

「より多くの GPU でモデルをトレーニングするにつれて、それらの GPU 間の通信は高速化する必要があります。特定のメモリとランタイムの課題に対処するソフトウェアを開発できます」と彼女は言いました。

しかし、SEER を実際の使用事例に適用できるようになるまでにはまだ多くの作業が必要ですが、Goyal 氏はこの技術の影響を過小評価すべきではないと考えています。 「SEER により、大量のランダムなインターネット画像を使用して大規模なモデルをトレーニングできるようになり、コンピューター ビジョンがさらに進歩します」と彼女は述べています。

「この画期的な進歩により、テキストの自然言語処理で見られたのと同様に、コンピュータービジョンにおける自己教師あり学習に革命が起こる可能性があります。」

Facebook では、画像の説明の自動生成からポリシー違反コンテンツの識別まで、さまざまなコンピューター ビジョン タスクに SEER が使用されています。社外では、医療用画像処理など、画像やメタデータが限られている分野でもこの技術を活用できる可能性がある。

Facebook のチームは、SEER を次の開発段階に進めるためにさらなる作業を求めました。研究の一環として、研究チームはオープンソースのVISSSLと呼ばれる自己教師あり学習用の包括的なPyTorchベースのライブラリを開発し、AIコミュニティのより多くのメンバーにこの技術をテストするよう促しました。

<<:  5つの新たなAI IoTアプリケーション

>>:  全光自動運転ネットワーク、F5G全光スマートシティの共同構築

ブログ    
ブログ    

推薦する

従来の銀行は人工知能をどのように活用しているのでしょうか? ——2017年中国国際金融博覧会で光り輝く民生銀行の技術革新に関するメモ

【51CTO記者李玲玲が北京からレポート】先日、「イノベーション主導の着実な変革と共同金融」をテーマ...

...

米国の改正規則:自動運転車は人間の制御を必要としない

米道路交通安全局(NHTSA)は木曜日、自動運転車メーカーに対し、衝突基準を満たすために完全自動運転...

Ray で効率的なディープラーニング データ パイプラインを作成する

ディープラーニング モデルのトレーニングに使用される GPU は強力ですが、高価です。 GPU を効...

SVM のマップ削減データマイニングアルゴリズム

元のアルゴリズムに並列戦略を適用するのは難しいため、他のアルゴリズムのバリアントである pegaso...

AWS が Amazon SageMaker の 9 つの新機能をリリース

12 月 9 日、Amazon Cloud Service (AWS) が開催する年次イベント AW...

分析と AI で注意すべき 7 つの致命的な間違い

2017年、『エコノミスト』誌は、データが石油を上回り、世界で最も価値のある資源になったと宣言しまし...

...

ロボットとIoTがサプライチェーンに与える影響

過去1年ほど、COVID-19パンデミックの影響により、効率的なサプライチェーンの重要性が特に顕著に...

物体検出のためのディープラーニングアルゴリズムの技術的な詳細を詳しく見てみましょう

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

ガートナー:世界の会話型 AI 支出は 2023 年に 186 億ドルに達すると予測

8月1日、ガートナーの最新レポートによると、カスタマーサービスセンター(CC)テクノロジー、会話型A...

人工知能ブームの背景にある産業チェーンのレイアウト分析

「新世代人工知能発展計画」の発表に伴い、国務院は我が国の人工知能発展計画を全体的に展開し始めました。...