Facebookの新しいAIモデルSE​​ERは自己教師学習を実現し、LeCunは最も有望だと称賛している

Facebookの新しいAIモデルSE​​ERは自己教師学習を実現し、LeCunは最も有望だと称賛している

[[385451]]

この記事はWeChatの公開アカウント「Xinzhiyuan」から転載したもので、著者はXinzhiyuanです。この記事を転載する場合は、新知源公式アカウントまでご連絡ください。

ラベルは不要、データを自己分析します!

Facebook の新しい AI モデルはコンピューター ビジョンに革命をもたらすのでしょうか?

先ほど、Facebook は 10 億枚の画像でトレーニングされた AI モデル「SEER」(Self-supervised の略) を発表しました。

このモデルには 10 億のパラメータが含まれており、ラベルをほとんど使用せずに画像内のオブジェクトを認識でき、さまざまなコンピューター ビジョン ベンチマークで最先端の結果を達成しています。

ほとんどのコンピューター ビジョン モデルは、ラベル付けされたデータセットから学習されることを覚えておいてください。

Facebook の最新モデルは、データのさまざまな部分間の関係性を明らかにすることで、データからラベルを生成します。

このステップは、将来究極の人間知能を実現するために非常に重要であると考えられています。

新しい AI モデル SEER はコンピューター ビジョンに革命をもたらすのでしょうか?

パラメータは常に機械学習システムの基本的な構成要素であり、過去のトレーニング データから派生したモデルの一部です。

AI の未来は、注釈付きのデータセットに依存せずに、与えられたあらゆる情報から推論する能力にあります。

テキスト、画像、またはその他の種類のデータが与えられると、AI は写真内のオブジェクトを完璧に識別し、テキストを解釈し、要求されたその他のタスクを実行できます。

フェイスブックの主任科学者ヤン・ルカン氏は、これは背景知識、つまり「常識」を備えた機械を構築し、現在のAIをはるかに超える課題を解決する最も有望な方法の1つだと語った。

自然言語処理 (NLP) は大きく進歩しました。その中で、大量のテキストに対する非常に大規模なモデルの自己教師付き事前トレーニングは、自然言語処理において大きな進歩を遂げました。

[[385453]]

現在、Facebook は、SEER コンピューター ビジョン モデルがその目標に一歩近づいたと主張しています。

注釈を必要とせずに、インターネット上の任意のランダム画像セットから学習できます。

視覚の自己監視は困難な作業です。

テキストの場合、意味概念は個別の単語に分解できますが、画像の場合、モデルはどのピクセルがどの概念に属するかを独自に推測する必要があります。

同じ概念が異なる画像間で変化することが多く、それが問題をより困難にします。したがって、単一の概念のバリエーションを把握するには、多数の異なる画像を表示する必要があります。

研究者らはインスタグラムの公開画像10億枚を使ってモデルを訓練した。

人工知能システムが複雑な画像データを処理できるようにするには、少なくとも 2 つのコア アルゴリズムが必要であることが分かりました。

1 つは、アルゴリズムがメタデータや注釈なしで大量のランダム画像から学習できることです。もう 1 つは、畳み込みニューラル ネットワーク (ConvNet) が、このデータからすべての視覚概念をキャプチャして学習するのに十分な大きさであることです。

畳み込みニューラル ネットワークは 1980 年代に初めて提案され、モデル内のコンポーネント間の接続パターンが視覚皮質のパターンに似ていることから、生物学的プロセスにヒントを得ました。

SEER: 10億枚の画像、ラベル付け不要、自己学習データセット

SEER モデルは、最新のアーキテクチャ ファミリ「RegNet」とオンライン自己教師トレーニング「SwAV」を組み合わせて、10 億のパラメータを持つ数十億のランダム画像にトレーニングを拡張します。

研究チームは、SwAV と呼ばれる新しいアルゴリズムを採用して使用しました。これは FAIR 研究から始まり、後に自己教師あり学習に適用されました。

SwAV はオンライン クラスタリング手法を使用して、類似した視覚概念を持つ画像をすばやくグループ化し、画像の類似性を活用して自己教師学習の最先端技術を向上させると同時に、トレーニング時間を 6 分の 1 に短縮します。

この規模のモデルをトレーニングするには、精度を犠牲にすることなく、実行時間とメモリの点で効率的なモデル アーキテクチャも必要です。

幸いなことに、FAIR の建築設計における最近の革新により、これらのニーズにぴったり合う RegNet と呼ばれる新しいモデル ファミリが誕生しました。

RegNet モデルは数十億、さらには数兆のパラメータにまで拡張でき、さまざまな実行時間やメモリの制約に合わせて最適化できます。

研究チームは、ランダムな IG 画像での SEER 事前トレーニングと ImageNET での事前トレーニングを比較し、その結果、教師なしの特徴は教師ありの特徴よりも平均で 2% 高かったことが示されました。

SEER テクノロジーに最後の要素を追加するのは、VISSSL 自己教師学習一般ライブラリです。

VISSSL for SEER はオープンソースであり、より広範なコミュニティが画像からの自己教師学習を実験できるようにする汎用ライブラリです。

VISSSL は、さまざまな最新手法を使用して小規模から大規模まで自己教師ありトレーニングを可能にする PyTorch ベースのライブラリです。

VISSSL には、広範なベンチマーク スイートと、60 を超える事前トレーニング済みモデルのモデル ズーも含まれており、研究者は複数の最新の自己教師あり学習法を比較できます。

VISSSL は、複数の既存のアルゴリズムを統合し、各 GPU のメモリ要件を削減し、任意のモデルのトレーニング速度を向上させることで、大規模な自己教師あり学習を可能にします。

SEER の自己教師ありモデルは、VISSSL と同じコアツール上に構築されており、デフォルトよりも高いデータ スループットを提供する PyTorch 用のカスタム データ ローダーと組み合わされています。

自己教師あり学習の未来

Facebook によれば、SEER は Instagram の公開画像 10 億枚で事前トレーニングした後、最先端の自己教師ありモデルよりも優れた性能を発揮したという。

SEER は、オブジェクト検出分析、セグメンテーション、画像分類などのタスクでも最高の結果を達成しました。

一般的な ImageNet 10% データセットでトレーニングした場合、SEER は依然として 77.9% の精度を達成しました。

データセットのわずか 1% でトレーニングした場合、SEER の精度は 60.5% でした。

次に、Facebook は SEER の背後にある技術の一部を公開しますが、アルゴリズム自体は公開しません。SEER は Instagram ユーザーのデータを使用してトレーニングされたためです。

このアプローチにより、より野心的な視覚認識タスクを実践できるようになると、MITの計算知覚・認知研究所所長のオード・オリヴァ氏は言う。しかし、SEERのような最先端のAIアルゴリズムの規模と複雑さは、問題も引き起こす。

SEER には数十億または数兆のニューラル接続またはパラメータが含まれる可能性があり、そのようなアルゴリズムには膨大な計算能力が必要となり、利用可能なチップの供給に負担がかかります。

Facebook チームは 32GB の RAM を搭載した V100 Nvidia GPU を使用していましたが、モデルのサイズが大きくなるにつれて、利用可能な RAM にモデルを収めることが不可欠になりました。

[[385456]]

自己教師あり学習は、AI 研究専用に作成されたトレーニング データだけでなく、世界中の膨大な情報から機械が直接学習できるようにするため、長い間 Facebook AI の焦点となってきました。

自己教師あり学習は、他の研究分野と同様に、コンピューター ビジョンの将来に大きな影響を与えます。

人間による注釈やメタデータの必要性を排除することで、コンピューター ビジョン コミュニティはより大規模で多様なデータセットを処理できるようになります。

Facebookの研究者らは「この画期的な進歩は、コンピュータービジョンにおける自己教師学習に革命をもたらす可能性がある」と述べた。

参考文献:

https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/

https://venturebeat.com/2021/03/04/facebooks-new-computer-vision-model-achieves-state-of-the-art-performance-by-learning-from-random-images/

<<:  人工知能は医療と健康分野に破壊的な革命をもたらすだろう

>>:  ドローン技術がモバイルIoTの範囲を拡大

推薦する

北京大学と智遠は、大規模モデルが自律的にオープンワールドを探索できるようにするトレーニングフレームワークLLaMA-Riderを提案した。

大規模言語モデルは、強力で普遍的な言語生成および理解機能を備えているため、汎用的なインテリジェントエ...

AI を活用したエンジニアリングは、ロボット工学と自動化をどのように強化できるのでしょうか?

AI プロンプト エンジニアリングは、AI ツールを使用して望ましい結果を生み出す効果的な方法です...

張晨成: 第四パラダイムインテリジェントリスク管理ミドルプラットフォームアーキテクチャ設計と応用

共有は主に次の 5 つのポイントを中心に行われます。リスク管理センターの設計背景戦略のフルサイクル管...

...

ディープラーニングのこれらの概念をすべて理解できましたか? TF、TLT、TRT、DS

最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...

...

2018年は人類の墓掘り元年となるのか?人工知能のせいではない

2018年が近づいてきました。2018年のテーマを大胆に予想すると、間違いなく人工知能が人気のテーマ...

IoTとAIが出会うとき: テクノロジーの未来

人工知能(AI)は驚異的な進歩を遂げ、一般に応用可能な技術として社会に影響を与えています。しかし、初...

配達員はSF映画のハイテク技術を駆使し、平地を歩いているかのように100キロの重量を運ぶ。

昨日、配達員の動画がインターネット上で話題になった。動画では、ハミングバードデリバリーの配達員がテイ...

米メディア:米国はAI戦争に備えるため同盟国を誘致

ワシントン(AP通信) — 米国とその同盟国は、国防総省の人工知能部門が立ち上げた新しいフォーラムを...

インダストリー4.0: ロボットがやってくる

Robotics as a Service は、産業用 IoT (IIOT) 内でますます注目を集め...

...

人工知能が高等教育を支援する:変化と持続

[[434825]]人工知能が教育に浸透する中で、我々は「静をもって動を制御する」という決意を持ち、...

WebGPT について簡単に説明してください。学びましたか?

原作者: エベネザー・ドン元のアドレス: https://blog.logrocket.com/in...