Facebookの新しいAIモデルSEERは自己教師学習を実現し、LeCunは最も有望だと称賛している

[[385451]]

この記事はWeChatの公開アカウント「Xinzhiyuan」から転載したもので、著者はXinzhiyuanです。この記事を転載する場合は、新知源公式アカウントまでご連絡ください。

ラベルは不要、データを自己分析します!

Facebook の新しい AI モデルはコンピュータービジョンに革命をもたらすのでしょうか?

先ほど、Facebook は 10 億枚の画像でトレーニングされた AI モデル「SEER」(Self-supervised の略) を発表しました。

このモデルには 10 億のパラメータが含まれており、ラベルをほとんど使用せずに画像内のオブジェクトを認識でき、さまざまなコンピュータービジョンベンチマークで最先端の結果を達成しています。

ほとんどのコンピュータービジョンモデルは、ラベル付けされたデータセットから学習されることを覚えておいてください。

Facebook の最新モデルは、データのさまざまな部分間の関係性を明らかにすることで、データからラベルを生成します。

このステップは、将来究極の人間知能を実現するために非常に重要であると考えられています。

新しい AI モデル SEER はコンピュータービジョンに革命をもたらすのでしょうか?

パラメータは常に機械学習システムの基本的な構成要素であり、過去のトレーニングデータから派生したモデルの一部です。

AI の未来は、注釈付きのデータセットに依存せずに、与えられたあらゆる情報から推論する能力にあります。

テキスト、画像、またはその他の種類のデータが与えられると、AI は写真内のオブジェクトを完璧に識別し、テキストを解釈し、要求されたその他のタスクを実行できます。

フェイスブックの主任科学者ヤン・ルカン氏は、これは背景知識、つまり「常識」を備えた機械を構築し、現在のAIをはるかに超える課題を解決する最も有望な方法の1つだと語った。

自然言語処理 (NLP) は大きく進歩しました。その中で、大量のテキストに対する非常に大規模なモデルの自己教師付き事前トレーニングは、自然言語処理において大きな進歩を遂げました。

[[385453]]

現在、Facebook は、SEER コンピュータービジョンモデルがその目標に一歩近づいたと主張しています。

注釈を必要とせずに、インターネット上の任意のランダム画像セットから学習できます。

視覚の自己監視は困難な作業です。

テキストの場合、意味概念は個別の単語に分解できますが、画像の場合、モデルはどのピクセルがどの概念に属するかを独自に推測する必要があります。

同じ概念が異なる画像間で変化することが多く、それが問題をより困難にします。したがって、単一の概念のバリエーションを把握するには、多数の異なる画像を表示する必要があります。

研究者らはインスタグラムの公開画像10億枚を使ってモデルを訓練した。

人工知能システムが複雑な画像データを処理できるようにするには、少なくとも 2 つのコアアルゴリズムが必要であることが分かりました。

1 つは、アルゴリズムがメタデータや注釈なしで大量のランダム画像から学習できることです。もう 1 つは、畳み込みニューラルネットワーク (ConvNet) が、このデータからすべての視覚概念をキャプチャして学習するのに十分な大きさであることです。

畳み込みニューラルネットワークは 1980 年代に初めて提案され、モデル内のコンポーネント間の接続パターンが視覚皮質のパターンに似ていることから、生物学的プロセスにヒントを得ました。

SEER: 10億枚の画像、ラベル付け不要、自己学習データセット

SEER モデルは、最新のアーキテクチャファミリ「RegNet」とオンライン自己教師トレーニング「SwAV」を組み合わせて、10 億のパラメータを持つ数十億のランダム画像にトレーニングを拡張します。

研究チームは、SwAV と呼ばれる新しいアルゴリズムを採用して使用しました。これは FAIR 研究から始まり、後に自己教師あり学習に適用されました。

SwAV はオンラインクラスタリング手法を使用して、類似した視覚概念を持つ画像をすばやくグループ化し、画像の類似性を活用して自己教師学習の最先端技術を向上させると同時に、トレーニング時間を 6 分の 1 に短縮します。

この規模のモデルをトレーニングするには、精度を犠牲にすることなく、実行時間とメモリの点で効率的なモデルアーキテクチャも必要です。

幸いなことに、FAIR の建築設計における最近の革新により、これらのニーズにぴったり合う RegNet と呼ばれる新しいモデルファミリが誕生しました。

RegNet モデルは数十億、さらには数兆のパラメータにまで拡張でき、さまざまな実行時間やメモリの制約に合わせて最適化できます。

研究チームは、ランダムな IG 画像での SEER 事前トレーニングと ImageNET での事前トレーニングを比較し、その結果、教師なしの特徴は教師ありの特徴よりも平均で 2% 高かったことが示されました。

SEER テクノロジーに最後の要素を追加するのは、VISSSL 自己教師学習一般ライブラリです。

VISSSL for SEER はオープンソースであり、より広範なコミュニティが画像からの自己教師学習を実験できるようにする汎用ライブラリです。

VISSSL は、さまざまな最新手法を使用して小規模から大規模まで自己教師ありトレーニングを可能にする PyTorch ベースのライブラリです。

VISSSL には、広範なベンチマークスイートと、60 を超える事前トレーニング済みモデルのモデルズーも含まれており、研究者は複数の最新の自己教師あり学習法を比較できます。

VISSSL は、複数の既存のアルゴリズムを統合し、各 GPU のメモリ要件を削減し、任意のモデルのトレーニング速度を向上させることで、大規模な自己教師あり学習を可能にします。

SEER の自己教師ありモデルは、VISSSL と同じコアツール上に構築されており、デフォルトよりも高いデータスループットを提供する PyTorch 用のカスタムデータローダーと組み合わされています。

自己教師あり学習の未来

Facebook によれば、SEER は Instagram の公開画像 10 億枚で事前トレーニングした後、最先端の自己教師ありモデルよりも優れた性能を発揮したという。

SEER は、オブジェクト検出分析、セグメンテーション、画像分類などのタスクでも最高の結果を達成しました。

一般的な ImageNet 10% データセットでトレーニングした場合、SEER は依然として 77.9% の精度を達成しました。

データセットのわずか 1% でトレーニングした場合、SEER の精度は 60.5% でした。

次に、Facebook は SEER の背後にある技術の一部を公開しますが、アルゴリズム自体は公開しません。SEER は Instagram ユーザーのデータを使用してトレーニングされたためです。

このアプローチにより、より野心的な視覚認識タスクを実践できるようになると、MITの計算知覚・認知研究所所長のオード・オリヴァ氏は言う。しかし、SEERのような最先端のAIアルゴリズムの規模と複雑さは、問題も引き起こす。

SEER には数十億または数兆のニューラル接続またはパラメータが含まれる可能性があり、そのようなアルゴリズムには膨大な計算能力が必要となり、利用可能なチップの供給に負担がかかります。

Facebook チームは 32GB の RAM を搭載した V100 Nvidia GPU を使用していましたが、モデルのサイズが大きくなるにつれて、利用可能な RAM にモデルを収めることが不可欠になりました。

[[385456]]

自己教師あり学習は、AI 研究専用に作成されたトレーニングデータだけでなく、世界中の膨大な情報から機械が直接学習できるようにするため、長い間 Facebook AI の焦点となってきました。

自己教師あり学習は、他の研究分野と同様に、コンピュータービジョンの将来に大きな影響を与えます。

人間による注釈やメタデータの必要性を排除することで、コンピュータービジョンコミュニティはより大規模で多様なデータセットを処理できるようになります。

Facebookの研究者らは「この画期的な進歩は、コンピュータービジョンにおける自己教師学習に革命をもたらす可能性がある」と述べた。

参考文献:

https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/

https://venturebeat.com/2021/03/04/facebooks-new-computer-vision-model-achieves-state-of-the-art-performance-by-learning-from-random-images/

<<: 人工知能は医療と健康分野に破壊的な革命をもたらすだろう

>>: ドローン技術がモバイルIoTの範囲を拡大

ブログ

ブログ

機械学習における再現率、精度、正確さの指標は何ですか?

ブログ

AIは実際にチップを生成できます！ GPT-4はわずか19回の対話で130nmチップを構築し、チップ設計業界におけるHDLの大きな課題を克服しました。

ブログ

Facebookの新しいAIモデルSEERは自己教師学習を実現し、LeCunは最も有望だと称賛している

ナレッジグラフリテラシー

上海に初のAI野菜市場が上陸。Alipayスキャンコード登録により、手をスワイプしてコードをスキャンするだけでドアが開く

資金調達、新製品、アプリケーションは引き続き成長中：8月のドローン業界の最新動向の概要

製造業の変革を促進、産業改革のためのAI主導ソリューション

機械学習における再現率、精度、正確さの指標は何ですか?

AIは実際にチップを生成できます！ GPT-4はわずか19回の対話で130nmチップを構築し、チップ設計業界におけるHDLの大きな課題を克服しました。

推薦する

AI動画がまた爆発！写真＋音が動画に、アリババがソラのヒロインに歌わせ、レオがラップ

携帯電話で AI を使用するにはどうすればいいですか?写真を撮るのは本当にハイテクです

冷たい面接官は、時間をつぶすために LRU キャッシュ除去アルゴリズムを手作業で書くように私に依頼しました。

インタビュアー: 「最後にアルゴリズムを書いてください。単一のリンクリストを使用して加算を実行してみましょう...」

Amazon Rekognition の紹介

マイクロソフトのハリー・シャムがGitHub、データの信念、そしてコンピューティングの未来について語る

Nature 誌に「なぜディープラーニングシステムは騙されやすいのか？」という記事が掲載されました。

NLP入門: 中国語のルールベースの単語分割法を3つ教えます

ルカン氏は罵倒し、マスク氏は笑って泣いた。9体のヒューマノイドロボットが記者会見を開いたからだ。