人間に一歩近づく | MIT×UMichが物体の空間関係を理解できる人工知能を研究

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

人間がシーンを説明するとき、多くの場合、オブジェクト間の空間的な関係を説明します。生物学的視覚認識にはトップダウン経路とボトムアップ経路の相互作用が含まれますが、ディープニューラルネットワークは 2 番目の経路のみをシミュレートします。トップダウン視覚経路には、生物学的視覚知覚のグローバル、トポロジカル、およびマルチソリューションの特性が関係しており、特に画像を理解する場合は、無限のソリューションという数学的問題に直面します。これらの特性は、ディープニューラルネットワークを改善するための次の方向性となる可能性があります。

「視覚的シーンの理解には、オブジェクトの検出と識別、検出されたオブジェクト間の視覚的関係の推論、文章を使用した画像領域の記述が含まれます。」「Metaphors We Live By」によると、意味的関係にはオブジェクトの関係についての仮定が含まれているため、オブジェクトの関係は意味的関係よりも基本的です。

[[442261]]

下の写真のように、2匹の猫が互いに「喧嘩」をしており、もう1匹の猫は近くで何の躊躇もなくその楽しそうな様子を見守っています。この例を通して、人間は猫の位置、行動、つながりを非常に明確かつ直接的に観察し、捉えることができます。しかし、多くのディープラーニングモデルは、個々のオブジェクト間の「絡み合った」関係を理解していないため、すべての情報をキャプチャして解析し、複雑な現実世界の状況を同じように理解することができません。

そこで疑問になるのは、これらの関係が「明確」でなければ、キッチンで使用するために設計されたロボットが「まな板の左側の戸棚の下のコンロの上の鉄鍋を持ち上げてガチョウを煮込む」といった指示を実行することが難しくなるということだ。

ロボットがこれらのタスクを正確に完了できるようにするために、MIT のShuang Li、Yilun Du 、イリノイ大学アーバナ・シャンペーン校のNan Liuが協力して、シーン内のオブジェクト間の空間関係を理解できるモデルを提案しました。このモデルは優れた一般化能力を備えており、複数のオブジェクトの空間関係を組み合わせることで複雑な画像を生成または編集できます。この論文は NeurIPS 2021 の Spotlight プレゼンテーションとして採択されました。

論文リンク: https://arxiv.org/abs/2111.09297

一般的に、この研究には 3 つの主な貢献があります。

1. オブジェクト間の関係を分解して結合するフレームワークを提案します。このフレームワークは、結合されたオブジェクト間の空間的な関係を記述することで画像を生成および編集することができ、ベースライン手法を大幅に上回ります。

2. 潜在的なオブジェクト間のシーンの説明を推測し、オブジェクト間の意味的等価性を十分に理解する能力。意味的等価性は、リンゴがバナナの左側にあり、バナナがリンゴの右側にあるなど、同じシナリオですが表現が異なります。

3. 最も重要なことは、この方法は、オブジェクトの関係の記述を組み合わせることで、これまでにないより複雑な関係の記述に拡張できることです。

この一般化は、倉庫内でのアイテムの積み重ねや電化製品の組み立てなど、複雑で多段階の操作タスクを実行する産業用ロボットに適用できます。機械が人間をさらに「模倣」して環境から学習し、相互作用し、継続的な学習、分解、組み合わせを通じて新しい環境に素早く適応し、新しいタスクを学習できるようにします。

「テーブルを見るとき、人間の脳はそのように機能しないので、XYZ座標系を使って物体の位置を表すことはありません」と共同筆頭著者のイールン・ドゥ氏は言う。「周囲の環境に対する私たちの洞察は、物体間の関係に基づいています。物体間の関係を理解できるシステムを構築することで、より効果的に機械を操作して周囲の風景を変えることができます。」

一度限りの独身関係

研究者らが提案したフレームワークの注目すべき点は、「シーン内のオブジェクト間の関係を人間的な方法で「解釈」できる」という点だ。

たとえば、「木製のテーブルは青いソファの右側にあり、木製のテーブルは木製のキャビネットの前にあります」というテキストを入力します。

システムはまず文章を「木製のテーブルは青いソファの右側にあります」と「木製のテーブルは木製のキャビネットの前にあります」という 2 つの部分に分割し、次に個別の部分間の空間関係を 1 つずつ記述し、各関係の確率分布をモデル化します。最適化プロセスを通じて、これらの分離された「構造」が統合され、最終的に完全で正確なシーン画像が生成されます。

エネルギーベースモデル

研究者らは機械学習の「エネルギーベースモデル」を使用して、各物体のペア間の直接的な空間関係をエンコードし、それらをレゴブロックのように組み合わせてシーン全体を表現した。

「このシステムは、物体の記述を組み換えることでうまく一般化しており、これまで見たことのないシーンを生成したり編集したりできる」と共同筆頭著者のShuang Li氏は説明する。

Yilun Du 氏は次のようにも述べています。「他のシステムは、シーン内のオブジェクト間の関係を全体的に考慮し、テキストの説明に基づいてシーン画像を一度に生成します。より複雑なシーンの説明が含まれるようになると、これらのモデルは目的のシーン画像を真に理解して生成できなくなります。私たちは、これらの個別の小さなモデルを統合してより多くの関係をモデル化し、新しい組み合わせを生成できるようにしています。」

このモデルは逆にすることもできます。画像とさまざまな説明テキストが与えられると、シーン構造内のオブジェクトの関係に一致する説明テキストを正確に見つけることができます。

複雑なシナリオを理解する

いずれの場合も、Nan Liu らが提案したモデルはベースラインを上回ります。

「私たちのモデルは、1 つのオブジェクト関係記述のみでトレーニングされましたが、テストでは、オブジェクト関係記述の数が 2 つ、3 つ、さらには 4 つに増えても、他の機械学習手法では失敗したのに対し、私たちのモデルは依然として良好なパフォーマンスを発揮しました。」

図に示すように、画像編集では、CLEVR および iGibson データセットに対するさまざまな方法の分類結果がリストされます。この論文の手法は、ベースラインである StyleGAN2 および StyleGAN2 (CLIP) を大幅に上回ります。このモデルは 2R および 3R テストサブセットでも良好なパフォーマンスを発揮し、提案された方法はトレーニング分布外の関係シーン記述に対して優れた一般化能力を備えています。

研究者らはまた、参加者に、生成された画像がシーンの説明とどの程度一致しているかを評価するよう依頼した。 3 つのオブジェクトが関係する関係を記述する最も複雑な例では、91% がモデルのパフォーマンスが他のベースラインよりも優れていると考えました。

モデルコードの Web ページにあるインタラクティブデモでは、新しいモデルでも、複数レイヤーのオブジェクトの位置の指示に従って、必要な画像を正確に生成できることがはっきりとわかります。

OpenAIがトレーニングしたニューラルネットワークモデル「DALL・E」は、テキストタイトルをもとに自然言語でさまざまな概念に基づいた画像を作成することもできます。 DALL·E はオブジェクトを非常によく理解できますが、オブジェクト間の関係を正確に理解することはできません。

Nan Liu らが提案した新しいモデルは非常に堅牢であり、特にこれまでに遭遇したことのないシーンの記述を扱う場合には、他のアルゴリズムはそれを参考にすることしかできないと言えます。

初期の実験では有望な結果が示されていますが、研究者たちは、ノイズの多い背景や互いに遮蔽し合う物体など、より複雑な現実世界のシナリオでモデルの性能をさらに向上させたいと考えています。さらに一歩進んで、ロボットはビデオを通じて物体の空間関係を推測し、その知識を適用して周囲の環境内の物体と対話できるようになります。 ”

「物体間の関係を理解し、それらを組み合わせることで新しい物体を認識できる機械を開発することは、コンピュータービジョンにおける最も重要な未解決の問題の 1 つです」と、チェコ工科大学のチェコ情報科学、ロボット工学、サイバネティクス研究所の著名な研究者であるヨゼフ・シビック氏は語ります。「この結果は本当に驚くべきものです。」

著者について

[[442263]]

ナン・リウ、イリノイ大学アーバナ・シャンペーン校修士。 2021 年にミシガン大学アナーバー校を卒業し、コンピューターサイエンスの理学士号を取得しました。現在はコンピュータービジョンと機械学習の研究に従事。

[[442264]]

MIT CSAILの博士課程学生であるShuang Liは、Antonio Torralbaの指導を受けました。彼の研究は、言語をコミュニケーションと計算のツールとして使用することと、継続的に学習して周囲の世界と対話できるインテリジェントエージェントの構築に重点を置いています。

[[442265]]

Yilun Du は、MIT CSAIL の博士課程の学生で、Leslie Kaelbling 教授、Tomas Lozano-Perez 教授、Josh Tenenbaum 教授の指導を受けています。彼は、人間のように世界を知覚し理解できるインテリジェントエージェントの構築と、モジュール式システムの構築に興味を持っています。彼は国際生物学オリンピックで金メダルを獲得した。

[[442266]]

ジョシュア・B・テネンバウムは、MIT の認知科学教授であり、CSAIL の研究者です。彼は1993年にイェール大学で物理学の学士号を取得し、1999年にMITで博士号を取得した。テネンバウムは数理心理学とベイズ認知科学への貢献で知られ、確率的および統計的モデリングを開発し、それを人間の学習、推論、知覚の研究に適用した最初の人物の 1 人です。 2018年、R&D Magazineはテネンバウムを「イノベーター・オブ・ザ・イヤー」に選出しました。マッカーサー財団は2019年に彼をマッカーサーフェローに任命した。

[[442267]]

アントニオ・トッラルバは、MIT 電気工学・コンピューターサイエンス学部 (EECS) の人工知能および意思決定部門のディレクター、CSAIL の主任研究員、MIT-IBM Watson AI ラボの責任者、2021 年度 AAAI フェローです。 1994年にテレフォニカBCNで電気通信工学の学士号を取得し、2000年にフランスのグルノーブルにある国立工科大学で信号、画像、音声処理の博士号を取得しました。彼は International Journal of Computer Vision の副編集長であり、2015 年には Conference on Computer Vision and Pattern Recognition のプログラムチェアを務めました。彼は、2008 年に全米科学財団 CAREER 賞、2009 年に IEEE コンピュータビジョンおよびパターン認識会議で最優秀学生論文賞、2010 年に国際パターン認識協会から JK Aggarwal 賞を受賞しました。 2017年フランク・クイック教員研究イノベーションフェローシップおよびルイス・D・スムリン優秀教育賞受賞。

<<: Golang AI開発: アプリケーションにAIを統合する

>>: Google 中国人がタイムクリスタルを使って何十年も昔の謎を解く！永久機関が再び自然界に出現