Facebookの新しいAIモデルSE​​ERは自己教師学習を実現し、LeCunは最も有望だと称賛している

Facebookの新しいAIモデルSE​​ERは自己教師学習を実現し、LeCunは最も有望だと称賛している

[[385451]]

この記事はWeChatの公開アカウント「Xinzhiyuan」から転載したもので、著者はXinzhiyuanです。この記事を転載する場合は、新知源公式アカウントまでご連絡ください。

ラベルは不要、データを自己分析します!

Facebook の新しい AI モデルはコンピューター ビジョンに革命をもたらすのでしょうか?

先ほど、Facebook は 10 億枚の画像でトレーニングされた AI モデル「SEER」(Self-supervised の略) を発表しました。

このモデルには 10 億のパラメータが含まれており、ラベルをほとんど使用せずに画像内のオブジェクトを認識でき、さまざまなコンピューター ビジョン ベンチマークで最先端の結果を達成しています。

ほとんどのコンピューター ビジョン モデルは、ラベル付けされたデータセットから学習されることを覚えておいてください。

Facebook の最新モデルは、データのさまざまな部分間の関係性を明らかにすることで、データからラベルを生成します。

このステップは、将来究極の人間知能を実現するために非常に重要であると考えられています。

新しい AI モデル SEER はコンピューター ビジョンに革命をもたらすのでしょうか?

パラメータは常に機械学習システムの基本的な構成要素であり、過去のトレーニング データから派生したモデルの一部です。

AI の未来は、注釈付きのデータセットに依存せずに、与えられたあらゆる情報から推論する能力にあります。

テキスト、画像、またはその他の種類のデータが与えられると、AI は写真内のオブジェクトを完璧に識別し、テキストを解釈し、要求されたその他のタスクを実行できます。

フェイスブックの主任科学者ヤン・ルカン氏は、これは背景知識、つまり「常識」を備えた機械を構築し、現在のAIをはるかに超える課題を解決する最も有望な方法の1つだと語った。

自然言語処理 (NLP) は大きく進歩しました。その中で、大量のテキストに対する非常に大規模なモデルの自己教師付き事前トレーニングは、自然言語処理において大きな進歩を遂げました。

[[385453]]

現在、Facebook は、SEER コンピューター ビジョン モデルがその目標に一歩近づいたと主張しています。

注釈を必要とせずに、インターネット上の任意のランダム画像セットから学習できます。

視覚の自己監視は困難な作業です。

テキストの場合、意味概念は個別の単語に分解できますが、画像の場合、モデルはどのピクセルがどの概念に属するかを独自に推測する必要があります。

同じ概念が異なる画像間で変化することが多く、それが問題をより困難にします。したがって、単一の概念のバリエーションを把握するには、多数の異なる画像を表示する必要があります。

研究者らはインスタグラムの公開画像10億枚を使ってモデルを訓練した。

人工知能システムが複雑な画像データを処理できるようにするには、少なくとも 2 つのコア アルゴリズムが必要であることが分かりました。

1 つは、アルゴリズムがメタデータや注釈なしで大量のランダム画像から学習できることです。もう 1 つは、畳み込みニューラル ネットワーク (ConvNet) が、このデータからすべての視覚概念をキャプチャして学習するのに十分な大きさであることです。

畳み込みニューラル ネットワークは 1980 年代に初めて提案され、モデル内のコンポーネント間の接続パターンが視覚皮質のパターンに似ていることから、生物学的プロセスにヒントを得ました。

SEER: 10億枚の画像、ラベル付け不要、自己学習データセット

SEER モデルは、最新のアーキテクチャ ファミリ「RegNet」とオンライン自己教師トレーニング「SwAV」を組み合わせて、10 億のパラメータを持つ数十億のランダム画像にトレーニングを拡張します。

研究チームは、SwAV と呼ばれる新しいアルゴリズムを採用して使用しました。これは FAIR 研究から始まり、後に自己教師あり学習に適用されました。

SwAV はオンライン クラスタリング手法を使用して、類似した視覚概念を持つ画像をすばやくグループ化し、画像の類似性を活用して自己教師学習の最先端技術を向上させると同時に、トレーニング時間を 6 分の 1 に短縮します。

この規模のモデルをトレーニングするには、精度を犠牲にすることなく、実行時間とメモリの点で効率的なモデル アーキテクチャも必要です。

幸いなことに、FAIR の建築設計における最近の革新により、これらのニーズにぴったり合う RegNet と呼ばれる新しいモデル ファミリが誕生しました。

RegNet モデルは数十億、さらには数兆のパラメータにまで拡張でき、さまざまな実行時間やメモリの制約に合わせて最適化できます。

研究チームは、ランダムな IG 画像での SEER 事前トレーニングと ImageNET での事前トレーニングを比較し、その結果、教師なしの特徴は教師ありの特徴よりも平均で 2% 高かったことが示されました。

SEER テクノロジーに最後の要素を追加するのは、VISSSL 自己教師学習一般ライブラリです。

VISSSL for SEER はオープンソースであり、より広範なコミュニティが画像からの自己教師学習を実験できるようにする汎用ライブラリです。

VISSSL は、さまざまな最新手法を使用して小規模から大規模まで自己教師ありトレーニングを可能にする PyTorch ベースのライブラリです。

VISSSL には、広範なベンチマーク スイートと、60 を超える事前トレーニング済みモデルのモデル ズーも含まれており、研究者は複数の最新の自己教師あり学習法を比較できます。

VISSSL は、複数の既存のアルゴリズムを統合し、各 GPU のメモリ要件を削減し、任意のモデルのトレーニング速度を向上させることで、大規模な自己教師あり学習を可能にします。

SEER の自己教師ありモデルは、VISSSL と同じコアツール上に構築されており、デフォルトよりも高いデータ スループットを提供する PyTorch 用のカスタム データ ローダーと組み合わされています。

自己教師あり学習の未来

Facebook によれば、SEER は Instagram の公開画像 10 億枚で事前トレーニングした後、最先端の自己教師ありモデルよりも優れた性能を発揮したという。

SEER は、オブジェクト検出分析、セグメンテーション、画像分類などのタスクでも最高の結果を達成しました。

一般的な ImageNet 10% データセットでトレーニングした場合、SEER は依然として 77.9% の精度を達成しました。

データセットのわずか 1% でトレーニングした場合、SEER の精度は 60.5% でした。

次に、Facebook は SEER の背後にある技術の一部を公開しますが、アルゴリズム自体は公開しません。SEER は Instagram ユーザーのデータを使用してトレーニングされたためです。

このアプローチにより、より野心的な視覚認識タスクを実践できるようになると、MITの計算知覚・認知研究所所長のオード・オリヴァ氏は言う。しかし、SEERのような最先端のAIアルゴリズムの規模と複雑さは、問題も引き起こす。

SEER には数十億または数兆のニューラル接続またはパラメータが含まれる可能性があり、そのようなアルゴリズムには膨大な計算能力が必要となり、利用可能なチップの供給に負担がかかります。

Facebook チームは 32GB の RAM を搭載した V100 Nvidia GPU を使用していましたが、モデルのサイズが大きくなるにつれて、利用可能な RAM にモデルを収めることが不可欠になりました。

[[385456]]

自己教師あり学習は、AI 研究専用に作成されたトレーニング データだけでなく、世界中の膨大な情報から機械が直接学習できるようにするため、長い間 Facebook AI の焦点となってきました。

自己教師あり学習は、他の研究分野と同様に、コンピューター ビジョンの将来に大きな影響を与えます。

人間による注釈やメタデータの必要性を排除することで、コンピューター ビジョン コミュニティはより大規模で多様なデータセットを処理できるようになります。

Facebookの研究者らは「この画期的な進歩は、コンピュータービジョンにおける自己教師学習に革命をもたらす可能性がある」と述べた。

参考文献:

https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/

https://venturebeat.com/2021/03/04/facebooks-new-computer-vision-model-achieves-state-of-the-art-performance-by-learning-from-random-images/

<<:  人工知能は医療と健康分野に破壊的な革命をもたらすだろう

>>:  ドローン技術がモバイルIoTの範囲を拡大

ブログ    

推薦する

任意のデータセットに基づいて LLM (大規模言語モデル) ロボットを作成する

今日、偶然Embedchainというウェアハウスを見つけ、とても便利だと思ったので、皆さんとシェアし...

...

...

Google が 7 つの言語で新しいデータセットをリリース: BERT などの多言語モデル タスクの精度が最大 3 倍向上します。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ChatGPTのトラフィックは3か月連続で減少しており、大学生の活躍で回復に寄与している

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

ChatGPTにはファイル分析や自動検索などの新機能がある。スタートアップ企業の製品は置き換えられるのだろうか?

最近、OpenAIはChatGPT Plusメンバー向けに新しいベータ機能を開始しました。これには主...

マスク氏はマイクロソフトの論文をOpenAIを訴える根拠として利用した。「あなたたちはすでにAGIを認めている」

おそらく、これを敢えて実行できるのはマスク氏だけだろう。 Microsoft の論文を証拠として使っ...

...

世界最強のモデルが一夜にして手を変え、GPT-4 の時代は終わりました。クロード3号はGPT-5を上回り、1万語の論文を3秒で読み、理解力は人間に近い。

ボリュームがヤバい、またまたビッグモデルが変わりました。たった今、世界で最も強力な AI モデルが一...

武器化されたAIとIoT攻撃は最大の技術的脅威となる

1. 「企業が人工知能やモノのインターネットなどの新しいテクノロジーの導入を検討するにつれ、攻撃対象...

ゴリラもMinecraftをプレイできるようになり、動画を一度見るだけで新しいスキルが手に入る

GPT-4にMinecraftの遊び方を教えた後、人間はゴリラにもこのゲームの遊び方を教えました。写...

DeepFakeはもう人々を騙せません!米国の大手テクノロジー企業7社が共同でAI生成コンテンツに透かしを追加

最近、OpenAIとGoogleが率いるアメリカのテクノロジー大手7社が共同で次のような発表を行った...

CoBEVFlow: 車両と道路の協調認識におけるタイミングの非同期の問題を解決

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...