フェイフェイ・リーのチームはロボットにViTを使用し、計画と推論を512倍高速化し、またヘ・カイミンのMAEをキューイングした。

フェイフェイ・リーのチームはロボットにViTを使用し、計画と推論を512倍高速化し、またヘ・カイミンのMAEをキューイングした。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

人間の予知能力+ViTを組み合わせるとどんな化学反応が起こるのか?

ロボットの行動計画能力が高速かつ正確になります。

これは、Fei-Fei Li 氏のチームであるMaskViTの最新の研究であり、MVM とマスク ビジョン モデリングを通じて Transformer を事前トレーニングし、ビデオ予測モデルを確立します。

結果は、MaskViT が 256×256 のビデオを生成できるだけでなく、ロボットの行動計画の推論速度を最大 512 倍向上できることを示しました。

これはどのような研究ですか?

人間からインスピレーションを得る

神経科学の分野での研究によると、人間の認知能力と知覚能力は予測メカニズムによって支えられていることが分かっています。

この世界の予測モデルは、さまざまな可能なアクションをシミュレート、評価、および選択するために使用できます。

人間の場合、このプロセスは高速かつ正確です。

ロボットに同様の予測能力を与えることができれば。そうすれば、複雑で動的な環境でさまざまなタスクを迅速に計画し、実行できるようになります。

たとえば、視覚モデルによる予測制御は 1 つの方法ですが、計算能力と精度に対する要求も高くなります。

そこで、Fei-Fei Li 氏のチームは、最近多くの進歩を遂げた ViT アーキテクチャと、Kaiming He 氏の MAE に代表される MVM とマスク視覚モデリングに基づく自己教師あり事前トレーニング済み表現について考えました。

しかし、それを実装するにはまだ多くの技術的な課題が残っています。

一方、グローバル アテンション メカニズムの複雑さは入力シーケンスの長さの 2 乗に比例するため、ビデオ処理コストが高くなりすぎます。

一方、ビデオ予測タスクと自己回帰マスクビジョンの事前トレーニングの間には矛盾があります。実際のテストでは、モデルは将来のフレーム シーケンス全体を最初から予測する必要があり、その結果、ビデオ予測の品質が低下します。

このような背景を踏まえ、Fei-Fei Li 氏のチームは、マスクビジョンモデリングを通じて Transformer を事前トレーニングし、ビデオ予測モデルを確立するMaskViTを提案しました。

具体的な設計上の決定は 2 つあります。

まず、記憶力とトレーニング効率を向上させるために、空間的注意と時空間的注意という2種類のウィンドウ注意が使用されます。

第二に、マスクされたトークンの比率はトレーニング中に変化します。

推論フェーズでは、マスク スケジューリング機能に従ってマスク レートが徐々に削減される反復的な改良によってビデオが生成されます。

実験結果

研究チームは、3つの異なるデータセットと4つの異なる指標でMaskViTを評価しました。

結果は、MaskViT が以前の高度な方法よりも優れたパフォーマンスを発揮し、最大 256 × 256 の解像度のビデオを生成できることを示しています。

BAIR ではアブレーション実験も実施されました。

その後、チームは実際のロボットでリアルタイム計画に MaskViT を使用した場合の効果を実証しました。

推論速度を最大512倍まで向上できます。

研究者らは、この研究は、最小限のドメイン知識でマスクされた視覚モデリングの一般的なフレームワークを使用して、画像エージェントに強力な予測モデルを付与することが可能であることを示していると述べています。

しかし同時に、一定の制限もあります。

たとえば、特に RoboNet などの静的な背景を持つビデオでは、各フレームを量子化するときにちらつきアーティファクトが表示される場合があります。

ビデオ予測のスケールアップは、特にカメラの動きが多いシーンでは依然として困難です。

将来的には、このビデオ予測方法をより複雑な計画アルゴリズムに統合することを検討する予定です。

今年 5 月に、He Kaiming 氏のチームが MAE のビデオ バージョンを提案し、最適なマスキング率が 90% にも達することを発見したことは特筆に値します。

論文リンク:
https://arxiv.org/abs/2206.11894

プロジェクトリンク:
https://maskedvit.github.io/

何開明氏の論文:
https://arxiv.org/abs/2205.09113

<<:  Cerebras が 1 台のマシンで 200 億のパラメータ モデルをトレーニングするという新記録を樹立

>>:  ファーウェイ、AI人材育成と科学研究の革新を促進する2つのAscendプロジェクトを開始

ブログ    
ブログ    

推薦する

5G、自動運転、人工知能はどの段階にあるのでしょうか?一枚の写真でわかる

世界で最も権威のあるIT市場調査・コンサルティング会社であるガートナーは8月29日、新技術の2019...

ヘルスケア市場におけるサービスロボットは2027年までに32億ドルに達すると予想

[[434302]]ヘルスケア分野におけるロボットへの投資の増加が、医療サービスロボットの開発を促進...

機械学習アルゴリズムの新たな女王 — XGBoost

15年前の初出勤の日のことを今でも覚えています。大学院を終えて、世界的な投資銀行にアナリストとして...

...

ファーウェイが推進する「マシンビジョン」はインダストリー4.0成功の鍵となるのか?

最近、「新インフラ」や「デジタルインフラ」がホットワードとなっている。新インフラの一つである「産業イ...

AIは昨日のことを思い出せるが、過去を思い出すのはまだ少し難しい

[[285973]]人工知能が長期記憶を形成するには、脳科学、神経科学、心理学、行動経済学の分野にお...

2019年インターネット人材採用レポート:Javaは人気だが、アルゴリズムエンジニアは不足している

技術の変化、才能主導。インターネットにおける現在の仕事の機会とトレンドはどこにありますか?本稿では、...

劉慈欣は人工知能について語る: 前方にある知能と同じくらい人工知能も存在する。

[[248113]]画像出典: IDG Capital最近開催された2018年の「IDGキャピタル...

AIチップアーキテクチャは最先端へ向かう

企業は、AI をエッジに押し上げるための最適な武器として、さまざまなチップ アーキテクチャを採用しよ...

GPU を通じて Pandas のパフォーマンスを高速化するもう 1 つのデータ処理ツールです。

NVIDIA の RAPIDS cuDF は、データの読み込み、結合、集約、フィルタリング、その他...

ChatGPTがチップ設計に力強く参加します!専門的なハードウェア記述言語を学ぶ必要はなく、人間の言語を話すだけでよい

CPU 開発における大きな問題は、ChatGPT とのチャットで解決できるでしょうか?ニューヨーク州...

「階層化された自律性、垂直的なコラボレーション」アーキテクチャは、ワイヤレス自動運転ネットワークの基礎です。

【グローバルネットワークインテリジェント総合レポート】2020年、5Gネットワ​​ーク構築が本格化...

畳み込みニューラルネットワークにおけるパラメータ共有/重みの複製

パラメータの共有や重みの複製は、ディープラーニングでは見落とされがちな領域です。しかし、この単純な概...

「人工知能」の発展を合理的に扱う

現在の人工知能の発展は、主にディープラーニングに代表される機械学習技術の恩恵を受けています。ディープ...