MITとIBMが共同で「コンピュータービジョンの黄金時代に備える」ための新しいデータセットを発表

人工知能の分野における画像分類問題に関して言えば、トレーニングとテストに最もよく使用されるデータセットは ImageNet であり、これは世界最大の「履歴書質問バンク」でもあります。最近、MIT と IBM の研究者チームが、世界最高のコンピュータービジョンモデルを困惑させる、別の画像認識データセット ObjectNet を作成しました。

ここでの最良または最強とは、特定のモデルを指すのではなく、高性能なビジュアルモデルのクラスを指すことに注意してください。

ImageNet テストで最大 97% の精度を達成したコンピュータービジョンモデルは、ObjectNet データセットで 50% ～ 55% の検出精度を達成しました。テスト結果が非常に「悲惨」である主な理由は、現在のほぼすべての視覚モデルが、オブジェクトの回転、背景の変化、視点の切り替えなどの複雑な状況下での認識プロセスにおいて安定性を欠いていることです。

MITのコンピューター科学・人工知能研究所（CSAIL）および脳・心・機械センター（CBMM）の研究科学者であるアンドレイ・バルブ氏は、この研究の責任著者であり、プロジェクトのリーダーの一人です。 DeepTech との独占インタビューで、彼は次のように語っています。「現実世界で目にするものを典型的な意味で表現できるデータセットが必要です。これがなければ、コンピュータービジョンを行う自信が誰にあるでしょうか。コンピュータービジョンが黄金時代や安全に関連する重要なアプリケーションに対応できるとどうして言えるでしょうか。」

Andrei Barbu 氏はまた、ObjectNet は世界中の研究者と共有できるとし、「ご連絡いただければお送りします」と語りました。(Web サイト: https://objectnet.dev/)

図 | ImageNet (出典: ImageNet)

人工知能は、ニューロンの層で構成されたニューラルネットワークを使用して、大量の生データ内のパターンを見つけます。たとえば、何百、何千もの椅子の写真を見た後、椅子の形を学習しました。

スタンフォード大学は毎年、Google、Microsoft、BaiduなどのIT企業を招待し、ImageNetを使用して自社のシステムの動作をテストするコンテストを開催しています。この毎年恒例のコンテストは、大企業の心の琴線に触れるものでもある。

ImageNet は、世界トップクラスのコンピュータービジョン専門家の 1 人であるフェイフェイリー氏によって共同設立されました。彼女はスピーチの中で、冷たい機械が写真の背後にあるストーリーを理解するためには、赤ちゃんのように十分な「トレーニング画像」にさらされる必要があると述べました。

ImageNet は、Flickr やその他のソーシャルメディアサイトから約 10 億枚の画像をダウンロードしました。2009 年には、22,000 個のオブジェクトをカバーする約 1,500 万枚の写真のデータベースを含む ImageNet プロジェクトが誕生しました。

コンピュータービジョンモデルは、写真内のオブジェクトを非常に正確に識別することを学習しており、一部のモデルは特定のデータセットで人間よりも優れたパフォーマンスを発揮します。

[[285468]]

図 | ImageNet の創始者の一人、Fei-Fei Li (出典: Wikipedia)

しかし、これらのモデルを現実世界に適用すると、パフォーマンスが大幅に低下し、自動運転車やコンピュータービジョンを使用するその他の重要なシステムに安全上の危険をもたらします。

何百、何千枚もの写真があっても、現実世界の物体の向きや位置を完全に示すことは不可能だからです。椅子が地面に置かれていたり、Tシャツが木の枝に掛かっていたり、雲が車のボディに映っていたり...このような場合、認識モデルは混乱してしまいます。

AI 企業 Vicarious の共同設立者である Dileep George 氏はかつてこう述べています。「これは、ImageNet のオーバーフィッティングに多くのリソースを費やしたことを示しています。」オーバーフィッティングとは、特定のデータセットを近すぎたり、正確に一致させたりした結果、他のデータに適合したり、将来の観測を予測したりできなくなることを指します。

ImageNet でランダムに収集された写真とは異なり、ObjectNet で提供される写真には特定の背景と角度があります。研究者は、何百ものランダムに配置された家具の写真を撮るようフリーランサーに依頼し、どの角度から写真を撮るか、キッチン、バスルーム、リビングルームのどれに置くかを伝えました。

そのため、データセット内のオブジェクトは、ベッドの上で横向きに置かれた椅子、バスルームの逆さまのティーポット、リビングルームの椅子の背もたれに掛けられた T シャツなど、非常に奇妙な角度で撮影されています...

図 | ImageNet (左の列) では、オブジェクトが典型的な背景上に頻繁に表示され、回転したり、別の視点で表示されることはあまりありません。典型的な ObjectNet オブジェクトは、さまざまな背景の複数の視点から画像化されます。最初の 3 つの列には、椅子の 3 つのプロパティ (回転、背景、視点) が表示されます。これらの操作により、データセットに大きな変動が導入されたことがわかります。この図では、アスペクト比が一貫していないため、ObjectNet イメージがわずかに切り取られています。 ObjectNet に含まれるほとんどの画像では、ほとんどの検出器が機能しません (出典: 論文)

「物体認識の問題が依然として難しいことを人々に示すために、このデータセットを作成しました」と、MIT CSAIL および CBMM の研究科学者であるボリス・カッツ氏は言う。「より優れた、よりスマートなアルゴリズムが必要です。」

カッツ氏とその同僚は、現在開催中の人工知能と機械学習の最高峰の国際会議である NeurIPS 会議でその結果を発表する予定です。

画像 | ObjectNet 研究チーム。この研究は、国立科学財団、MIT 脳・心・機械センター、MIT-IBM ワトソン AI ラボ、トヨタ研究所、SystemsThatLearn@CSAIL イニシアチブの資金提供を受けて実施されました (出典: ObjectNet)

さらに、ObjectNet は従来の画像データセットとは重要な点で異なり、トレーニング画像が含まれていません。つまり、練習問題とテスト問題が重複する確率が小さくなり、機械が「不正行為」をすることが難しくなります。ほとんどのデータセットはトレーニングセットとテストセットに分割されますが、トレーニングセットにはテストセットとの微妙な類似点があることが多く、実際にはモデルがテストで有利になります。

一見すると、1,500 万枚の画像がある ImageNet は、途方もなく大きいように思えます。しかし、トレーニングセットを除くと、サイズは ObjectNet とほぼ同じで、約 50,000 枚の写真になります。

「アルゴリズムが現実世界でどの程度うまく機能するかを知りたい場合は、偏見のない画像、つまりこれまで見たことのない画像でテストする必要があります」とアンドレイ・バルブ氏は言う。

画像 | Amazon Mechanical Turk (MTurk) は、Amazon の「Turkish Mechanical」であり、コンピュータープログラマーが人間の知能を活用して、現在のコンピューターがまだ実行できないタスクを実行できるようにするクラウドソーシングのオンラインマーケットプレイスです。 ImageNet と ObjectNet はどちらも、画像にラベルを付ける際にこれらのプラットフォームを使用しています (出典: Amazon Mechanical Turk)

研究者らは、この結果は、物体が三次元であり、回転したり新しい環境に移動したりできることを機械が理解することがまだ難しいことを示していると述べている。「こうした概念は現代の物体検出器のアーキテクチャには組み込まれていない」と、研究の共著者でIBMの研究者であるダン・ガットフロイント氏は述べた。

ObjectNet でのモデルのテスト結果が非常に「ひどい」理由は、データが不十分なためではなく、回転、背景の変更、視点の切り替えなどの認識においてモデルが安定性を欠いているためです。研究者たちはどのようにしてこの結論に達したのでしょうか?彼らは ObjectNet データの半分でモデルをトレーニングし、残りの半分でテストしました。同じデータセットでトレーニングとテストを行うと通常はパフォーマンスが向上しますが、今回はモデルの改善はわずかで、現実世界で物体がどのように存在するかを完全に理解していなかったことが示唆されました。

そのため、研究者たちは、より多くの視点と方向を含む ObjectNet のより大きなバージョンを設計しても、必ずしも AI にオブジェクトの存在を理解させることにはならないと考えています。 ObjectNet の目標は、元の ImageNet チャレンジと同様に、研究者に刺激を与えて次の革命的なテクノロジーの波を生み出すことです。次のステップは、人間が画像認識タスクにおいて優れた一般化能力と堅牢性を持つ理由を引き続き探求し、このデータセットが画像認識モデルの一般化能力をテストするための評価方法になることを期待することです。

「人々はこれらの物体検出器に大量のデータを入力しているが、その効果は減少している」とカッツ氏は言う。「物体のあらゆる角度や、物体が存在する可能性のあるあらゆる環境を捉えることはできません。この新しいデータセットが、現実世界で予期せず故障することのない堅牢なコンピュータービジョンシステムにつながることを願っています。」

画像 | Andrei Barbu 氏は MIT の研究科学者で、主に神経科学を中心に言語、視覚、ロボット工学の分野で活動しています。（出典：MIT）

DeepTech は、CSAIL と CBMM の研究科学者であり、この研究の協力者である Andrei Barbu 氏に独占インタビューを実施しました (以下は、元の意味を変えずにインタビューを書き起こしたものです)。

DeepTech: このアイデアはいつ生まれたのでしょうか、またその目的は何だったのでしょうか?今ダウンロードできますか？

Andrei Barbu: ObjectNet は約 4 年前に提案されました。多くのデータセット (ImageNet など) の精度は 95% を超えていますが、実際のパフォーマンスは予想よりもはるかに悪くなる可能性があります。

物理学や心理学など他の分野の優れた実験設計を機械学習に直接取り入れようというアイデアです。現実世界で目にするものを典型的な意味で表現できるデータセットが必要です。これがなければ、コンピュータービジョンを行う自信が持てる人は誰もいないでしょう。コンピュータービジョンがプライムタイムや安全性が重要視されるアプリケーションに対応できるとどうして言えるのでしょうか?

ObjectNet はすでにご利用いただけます。ご連絡いただければお送りいたします。

DeepTech: 実際のデータの収集にはどれくらいの時間がかかりましたか?データはどの程度有効ですか?

Andrei Barbu:やり方を理解するのに約 3 年、データを収集するのに約 1 年かかりました。今では、数か月という期間で、はるかに速く別のバージョンを収集できるようになりました。

Mechanical Turk で約 100,000 枚の画像を収集し、そのうち約半分を保存しました。写真の多くは米国外で撮影されたため、一部の物体は見慣れないものに見えるかもしれません。熟したオレンジは緑色で、バナナにはさまざまな大きさがあり、衣服にはさまざまな形や質感があります。

DeepTech: 費用はいくらですか?データ収集中にどのような問題が発生しましたか?

アンドレイ・バルブ：学術の世界では、コストは複雑です。人件費は Mechanical Turk のコストよりも高く、Mechanical Turk だけでもかなりのコストがかかります。

このデータの収集には多くの問題があります。プロセスは、さまざまな携帯電話で実行する必要があったため複雑でした。手順が複雑で、このタスクを安定した方法で説明する方法を実際に理解するのに時間がかかりました。データの検証も複雑で、小さな問題がほぼ無限にありました。これを効果的に行う方法を学ぶには、多くの実験が必要になります。

DeepTech: ObjectNet と Imagenet の違いと関連性は何ですか?

Andrei Barbu: ImageNet との違いは、1. 画像を収集する方法によってバイアスを制御できることです。私たちは、オブジェクトをどのように回転させるか、どのような背景に置くか、どのような角度で写真を撮るかなどを人々に伝えます。ほとんどのデータセットでは、画像の背景に関する情報により、マシンはキッチンの背景に関する知識に基づいて、何かがフライパンである可能性があると予測することで無意識のうちに「ごまかし」をします。

2. これらの写真はソーシャルメディアから収集されたものではないため、人々が共有したいと思うような見栄えの良い写真ではありません。また、インド、米国、そしてさまざまな社会経済階級からの画像も収集するようにしました。破損または壊れた物体の画像もあります。

3. トレーニングセットがありません。

これは 10 年前は大したことではありませんでしたが、私たちの手法は人間が認識できないパターンを見つけるのに非常に優れているため、同じデータセットのトレーニングセットとテストセット間のバイアスに対応するためにモデルを単純に調整することを避けるために、これらの変更が必要になりました。

DeepTech: トレーニングセットがない場合、どのような結果になりますか?

Andrei Barbu:トレーニングセットがないため、すべてのメソッドを一般化する必要があります。 1 つのデータセットでトレーニングし、ObjectNet でテストする必要があります。つまり、バイアスを悪用する可能性ははるかに低く、強力なオブジェクト検出器になる可能性がはるかに高くなります。少なくとも機械学習の確立された分野では、トレーニングセットを収集するグループとテストセットを収集するグループは分離されている必要があることを、すべての人に納得してもらいたいと考えています。

データ主導の研究分野となったため、科学を進歩させるためにはデータの収集方法を変える必要があります。

DeepTech: 3Dオブジェクトは複雑すぎて表現が難しいと思います。たとえば、回転する椅子をどのように表現するのでしょうか?

Andrei Barbu: 3D は複雑ではないと思います。

明らかに、あなたと私は物体の三次元形状をある程度認識しています。なぜなら、私たちは物体を新しい視点から想像できるからです。

これはコンピュータービジョンの未来でもあると私は考えており、ObjectNet はこれに疑問を投げかけるように設計されています。モデルの構築に使用するベンチマークは重要ではありません。本当に重要なのは、モデルが十分に強力であるかどうかを検出するための、より信頼性の高いツールを提供することです。

DeepTech: 次の研究計画は何ですか?

Andrei Barbu:私たちは人間の視覚を理解するために ObjectNet を使用しています。大規模な物体認識における人間に関する研究はまだあまり行われておらず、埋めるべきギャップが数多くあります。私たちは、Mechanical Turk で短いデモを行う何千人もの人々に ObjectNet を紹介し、人間の画像処理のさまざまな段階を垣間見てもらう予定です。

これは、物体検出器は人間が物体を非常に速くしか見ることができないかのように動作するのか、など、現在よく理解されていない人間の視覚と物体検出器の関係に関するいくつかの基本的な疑問に答えるのにも役立ちます。私たちの予備的な結果は、そうではないことを示唆しており、これらの違いを利用してより優れた検出器を構築できることを示しています。

私たちは ObjectNet の次のバージョンにも取り組んでいますが、これは検出器にとってさらに困難になると思います。部分的な閉塞を伴う ObjectNet です。オブジェクトは他のオブジェクトによって部分的に覆われます。私たちや他の多くの研究グループには、検出器が遮蔽された物体を認識するのにまだ十分に堅牢ではないと疑う理由がありますが、次の進歩の波を刺激するには真剣なベンチマークが必要です。

<<: これら 5 つのオープンソースソフトウェアを使用すると、音声からテキストへの変換が簡単になります。

>>: 人工知能とロボットが医療業界を「支配」していますが、あなたは安心していますか?