ルカンのリーダーシップの下、自己監督に賭けるMeta AI

ルカンのリーダーシップの下、自己監督に賭けるMeta AI

自己教師学習は本当に AGI への重要なステップなのでしょうか?

Metaの主任AI科学者であるヤン・ルカン氏は、「現時点で講じるべき具体的な対策」について語る際、長期的な目標を忘れなかった。 「私たちは動物や人間のように学習するインテリジェントな機械を作りたいのです」と彼はインタビューで語った。

近年、Meta は AI システムの自己教師学習 (SSL) に関する一連の論文を発表しています。 LeCun 氏は、SSL は AI システムに必要な前提条件であり、AI システムが世界モデルを構築して、合理性、常識、スキルや知識をある環境から別の環境に転送する能力など、人間のような能力を獲得するのに役立つと固く信じています。

彼らの新しい論文は、マスクオートエンコーダ(MAE)と呼ばれる自己教師ありシステムが、非常に断片化された不完全なデータから画像、ビデオ、さらには音声を再構築する方法を学習する方法を示しています。 MAE は新しいアイデアではありませんが、Meta はこの取り組みを新しい分野にまで拡張しました。​

静止画像、ビデオ、音声シーケンスなど、欠落しているデータを予測する方法を見つけることで、MAE システムは世界のモデルを構築していると LeCun 氏は言います。 「動画で何が起こるかを予測できるなら、世界は3次元であり、一部の物体は無生物で自ら動かず、他の物体は生物で予測が非常に難しいことを理解し、さらには生物の複雑な行動を予測する必要がある」と同氏は述べた。AIシステムが世界を正確にモデル化できれば、そのモデルを使って行動を計画できる。

LeCun氏は「知能の本質は予測することを学ぶことだ」と述べた。MetaのMAEシステムが汎用人工知能に近いとは主張しなかったものの、汎用人工知能に向けた重要な一歩であると考えている。​

しかし、Meta の研究者が汎用人工知能に向けて正しい道を歩んでいることに誰もが同意しているわけではない。 Yoshua Bengio 氏は、AI 分野の大きなアイデアについて LeCun 氏と友好的な議論を交わすこともあります。 IEEE Spectrum への電子メールで、ベンジオ氏は両社の目標の相違点と類似点のいくつかを説明した。

「現在のアプローチ(自己教師ありか否かに関わらず)は、人工知能と人間レベルの知能のギャップを埋めるのに十分ではないと私は本当に思います」とベンジオ氏は書いている。同氏は、この技術を人間規模のAIに真に近づけるためには、この分野が「質的な進歩」を遂げる必要があると述べた。

ベンジオ氏は、世界について推論する能力が知能の中核要素であるという点ではルカン氏に同意しているが、彼のチームは予測できるモデルではなく、むしろ自然言語の形で知識を提示できるモデルに重点を置いている。このようなモデルにより、これらの知識を組み合わせて新たな問題を解決したり、反事実的シミュレーションを実行したり、起こりうる未来を調査したりすることが可能になると同氏は指摘する。ベンジオ氏のチームは、エンドツーエンドの学習に取り組んでいるルカン氏が好むものよりも本質的にモジュール化された新しいニューラルネットワークフレームワークを開発した。​

人気のトランスフォーマー

Meta の MAE は、Transformer と呼ばれるニューラル ネットワーク アーキテクチャ上に構築されています。このアーキテクチャは、当初は自然言語処理の分野で人気を博し、その後コンピューター ビジョンなどの複数の分野に拡大しました。​

もちろん、Meta は視覚的なタスクに Transformer をうまく使用した最初のチームではありません。 Meta AI の研究者であるロス・ガーシック氏は、Google の Visual Transformer (ViT) に関する研究が Meta のチームにインスピレーションを与えたと語り、「ViT アーキテクチャの採用により、実験中に遭遇したいくつかの障害を排除することができました」と述べています。

Girshick 氏は Meta の最初の MAE システム論文の著者の 1 人で、Kaiming He 氏が主著者でした。彼らは、入力画像のランダムなパッチをマスクし、失われたピクセルを再構築するという非常にシンプルなアプローチを説明しました。

このモデルのトレーニングは、BERT やその他の Transformer ベースの言語モデルのトレーニングと似ています。研究者は膨大なテキスト データベースを提示しますが、一部の単語は欠落しているか、「マスク」されています。モデルは欠落している単語を独自に予測する必要があり、その後、マスクされた単語が明らかにされて、モデルがその動作を確認し、パラメータを更新できるようになります。このプロセスは今後も繰り返されるでしょう。視覚で同様のことを行うために、研究チームは画像をパッチに分割し、パッチの一部をマスクして、MAE システムに画像の欠落部分を予測するよう依頼したとガーシック氏は説明する。

チームの画期的な進歩の 1 つは、画像の大部分をマスクすると最良の結果が得られるという認識だった。これは、単語の 15% しかマスクしない言語変換器との重要な違いである。 「言語は極めて密度が高く効率的なコミュニケーション システムであり、各シンボルには多くの意味が込められています」とガーシック氏は語ります。「しかし、自然界からの信号である画像は冗長性を排除するようには作られていません。そのため、JPG 画像を作成するときにコンテンツを非常にうまく圧縮するのです。」

Meta AI の研究者たちは、最良の結果を得るために画像のどの程度をマスクするかを実験しました。

Girshick 氏は、画像内のパッチの 75% 以上をマスクすることで、訓練するにはタスクが簡単すぎる画像内の冗長性を排除したと説明しています。彼らの 2 部構成の MAE システムは、まずトレーニング データセットを使用してピクセル間の関係を学習するエンコーダーを使用し、次にマスクされた画像から元の画像を再構築するために最善を尽くすデコーダーを使用します。このトレーニング計画が完了したら、分類や物体検出などの視覚タスクに合わせてエンコーダーを微調整することもできます。

「最終的に、このモデルを下流のタスクで使用して成果が得られるのが私たちにとって楽しみです」とガーシック氏は語った。物体認識などのタスクにエンコーダーを使用すると、「得られる成果は非常に印象的です」。同氏は、モデルをさらにスケールアップすればさらに優れたパフォーマンスが得られる可能性があると指摘し、SSL は「大量のデータを手動で注釈付けすることなく使用できる可能性がある」ため、これは将来のモデルにとって有望な方向性であると述べた。

フィルタリングされていない膨大なデータセットから全力を尽くして学習することは、SSL の結果を改善するための Meta の戦略かもしれませんが、これはますます物議を醸すアプローチでもあります。ティムニット・ゲブル氏のような AI 倫理研究者は、大規模な言語モデルが学習する、キュレーションされていないデータセットに内在するバイアスに注意を喚起しており、それが悲惨な結果につながることもある。

ビデオとオーディオからの自己教師学習

ビデオ MAE システムでは、フレーム間の類似性によりビデオ信号は静止画像よりも冗長性が高くなるため、マスクによって各ビデオ フレームの 95% が隠されます。 Meta の研究者 Christoph Feichtenhofer 氏は、ビデオに関して言えば、MAE アプローチの大きな利点は、ビデオは一般的に計算負荷が高いことであり、MAE は各フレームのコンテンツの最大 95% をマスクすることで計算コストを最大 95% 削減できると述べています。​

これらの実験で使用されたビデオクリップはわずか数秒の長さだったが、ファイヒテンホファー氏は、より長いビデオを使用して AI システムをトレーニングすることが現在進行中の研究テーマであると述べた。あなたの家のビデオを録画して、1時間前に鍵をどこに置いたかを教えてくれる仮想アシスタントがいると想像してみてください。

もっと近い将来には、画像と動画の両システムが、Facebook や Instagram のコンテンツ モデレーションに必要な分類タスクに役立つことが想像できると、ファイヒテンホファー氏は述べ、その可能性のある用途として「整合性」を挙げた。「これについては製品チームと話し合っていますが、非常に新しいもので、まだ具体的なプロジェクトはありません。」

オーディオ MAE の研究については、Meta AI チームは研究結果を近々 arXiv で公開する予定だと述べています。彼らはマスキング技術を適用する巧妙な方法を見つけました。彼らはサウンドファイルをスペクトログラム(信号内の周波数スペクトルの視覚的表現)に変換し、その後、トレーニング用に画像の一部をマスクしました。モデルが現在数秒の断片しか処理できないにもかかわらず、再構築されたオーディオは印象的です。​

オーディオシステムの研究者であるバーニー・フアン氏は、この研究の潜在的な応用例として、分類タスク、パケットがドロップされたときに失われたオーディオを補うことによるボイスオーバーIP(VoIP)の支援、あるいはオーディオファイルのより効率的な圧縮方法の発見などが挙げられると述べた。

Meta は、こうした MAE モデルなどのオープンソース AI 研究を行っており、AI コミュニティに事前トレーニング済みの大規模言語モデルも提供しています。しかし批評家は、このように研究に対してオープンであるにもかかわらず、Meta はニュースフィード、推奨、広告配置を制御する中核的なビジネス アルゴリズムをまだ研究用に公開していないと指摘している。​

<<:  ディープラーニングの「記憶喪失」に応えて、科学者たちは類似性に基づく重み付けインターリーブ学習を提案し、PNASに掲載された。

>>:  マシンビジョンにはどのようなハードウェアが含まれていますか?

ブログ    
ブログ    

推薦する

デジタルツインの登場: 医薬品開発における今後の革命

51年前、アポロ13号が宇宙に打ち上げられました。打ち上げ直後、宇宙船は大きな爆発に遭遇した。宇宙船...

AIがタンパク質構造を予測し、サイエンス誌とネイチャー誌の年間技術革新として掲載され、無限の可能性を秘めている

2021 年に AI 分野で最も画期的な賞を授与するとしたら、誰を選びますか? 「サイエンス」と「ネ...

大学生が、1時間で600本の鉄筋を結束できる鉄筋結束ロボットを発明。建設労働者は再び失業することになるのだろうか?

人工知能の発展により、肉体労働のみに頼っている労働者の中には、徐々に失業に直面している者もいる。例え...

AI テクノロジーはワイヤレス ネットワークのインテリジェンスに何をもたらすのでしょうか?

ワイヤレス ネットワークのインテリジェンスは、インターネット業界の発展における新たなトレンドとなって...

スマートシティの建設が加速、ドローンが4つの面で貢献

[[415675]]都市化が継続的に加速し、都市人口が継続的に増加したことで、人々は質の高い都市生活...

速報です!画像AI企業「Huiyi Huiying」がハッキングされ、COVID-19研究成果が公開された

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

PS 2021 では、さまざまな新しい AI テクノロジーが導入されます。 Meitu Xiuxiuよりも使いやすい

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2019年最新プログラマー収入ランキング:あなたは取り残されていますか?

Indeed Recruitment Network が 2019 年の給与リストを発表したところ...

自動運転の4つの主要技術の簡単な分析

2017年5月に世界保健機関が発表したデータによると、世界中で毎年約125万人が交通事故で亡くなって...

...

プログラミング面接で学ぶべきアルゴリズム概念トップ10のまとめ

コーディング面接でよく聞かれるアルゴリズム関連の概念トップ 10 を紹介します。簡単な例を使ってこれ...

推奨に値する 7 つの優れたオープンソース AI ライブラリ

[[406029]] [51CTO.com クイック翻訳]人工知能 (AI) 研究の分野では、Ten...

人工知能が新たな領域を切り開く:バーチャルクリエイターの背後にある戦い

2011 年に Apple が Siri を発表して以来、世界最大のテクノロジー企業は現実世界の仮想...

女の子にとって恥ずかしいこと:将来、人間とロボットが赤ちゃんを産むようになる

将来、ロボットが世界を支配するのでしょうか?デイリー・メール紙によると、人工知能の専門家で『ロボット...