初めて人間を超えた! 「絵を読んで意味を理解する」ことに関しては、AIは人間の目よりも優れている

初めて人間を超えた! 「絵を読んで意味を理解する」ことに関しては、AIは人間の目よりも優れている

[[417746]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AIは人間を超えるという新たな一歩を踏み出した。

最近、国際的に権威のあるマシンビジョンの質問回答リストVQA Leaderboard がデータを更新しました。

「絵を読んで意味を理解する」というタスクでは、AIの精度は81.26%に達しました。

初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

ご存知のとおり、このタスクにおける私たち人間の基準値はわずか80.83%です。

この成果は、Alibaba DAMO Academy チームのAliceMind-MMUによって達成されました。

この動きは、AI が 2015 年と 2018 年にそれぞれ視覚認識とテキスト理解で人間を上回った後、マルチモーダル技術でも飛躍的な進歩を遂げたことを意味します。

AIはあなたよりも画像を読むのが得意です

この AI は画像を読み取るのがどのくらい得意ですか?

理解するには次の例を見てください。

AIに「これらのおもちゃは何に使うのですか?」と尋ねると、

小さなクマが着ているドレスに応じて答えます。

結婚式。

初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

AIに別の質問をします。「男性のサッカー帽子はどのチームを表していますか?」

帽子の中の文字「B」に基づいて答えます。

ボストンチーム

初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

チャレンジを増やして、別のチャレンジに挑戦してみましょう。

「写真のおもちゃの男のIPはどの映画のものですか?」

この時、写真に写っているおもちゃや戦闘シーンなどの情報をもとにAIが推論を行います。

しかし、結局、答えは正確でした。

スターウォーズ

初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

たとえば、次の例では、AI が写真の詳細な情報をキャプチャして、質問に正確に答えます。

初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

まあ、丁寧とも言えるでしょう。

これはどうやって行うのですか?

おそらく、上記のケースは人間にとってそれほど難しいことではないかもしれません。

しかし、AIにとってそれは簡単な作業ではありません。

主な難しさは次のとおりです。

単一のモダリティを正確に理解した上で、共同推論と認知を行うためにマルチモーダル情報を統合し、最終的にはクロスモーダル理解を実現する必要があります。

どうやって破るの?

Alibaba DAMO Academy は、多数の革新的なアルゴリズムを組み込んだ AI ビジュアルテキスト推論システムを体系的に設計しました。

初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

具体的には、大きく分けて以下の4つの内容に分けられます。

  • 多様な視覚的特徴表現: 画像のローカルおよびグローバルな意味情報をあらゆる側面から記述し、領域、グリッド、パッチなどの視覚的特徴表現を使用して、より正確な単一モーダル理解を実現します。
  • 大量のグラフィック データと多粒度の視覚的特徴に基づくマルチモーダル事前トレーニング: マルチモーダル情報の融合とセマンティック マッピングをより適切に実行するために、SemVLP、Grid-VLP、E2E-VLP、Fusion-VLP などの事前トレーニング モデルが提案されています。
  • 適応型クロスモーダルセマンティックフュージョンおよびアライメントテクノロジー: マルチモーダル事前トレーニングモデルに Learning to Attend メカニズムを追加して、クロスモーダル情報の効率的で深い融合を実行します。
  • Mixture of Experts (MOE) テクノロジー: 知識主導のマルチスキル AI 統合。
初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

このモデルに使われている技術は専門家からも認められているようです。

例えば、マルチモーダル事前トレーニングモデル E2E-VLP は、トップクラスの国際会議 ACL2021 に採択されました。

初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

VQAについて

VQA は AI 分野における最も困難な課題の 1 つと言えます。

単一の AI モデルの場合、VQA テスト ペーパーの難易度は「異常」と表現できます。

テストでは、AI は与えられた画像と自然言語の質問に基づいて正しい自然言語の回答を生成する必要があります。

つまり、単一の AI モデルに複雑なコンピューター ビジョンと自然言語テクノロジを統合する必要があります。

  • まず、すべての画像情報がスキャンされます。
  • テキストの問題の理解と組み合わせて、マルチモーダル技術を使用して、画像とテキストの相関関係を学習し、関連する画像情報を正確に特定します。
  • 最後に、常識と推論に基づいて質問に答えます。
初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

しかし、VQA の課題を解決することは、汎用人工知能の開発にとって大きな意義があります。

そのため、世界最高峰のコンピュータービジョンカンファレンスであるCVPRは、2015年から6年連続でVQAチャレンジを開催しています。

マイクロソフト、フェイスブック、スタンフォード大学、アリババ、百度など多くのトップ機関が参加しました。

同時に、20万枚以上の実際の写真と110万のテスト問題を含む、世界最大かつ最も認知度の高いVQAデータセットも形成されました。

初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

今年6月、VQA 2021チャレンジに応募した55チームの中で、アリババDAMOアカデミーが優勝し、2位に約1パーセントポイント、昨年の優勝者に3.4パーセントポイントの差をつけたと理解されている。

わずか 2 か月後、DAMO アカデミーは再び、正解率 81.26% で VQA リーダーボードの世界新記録を樹立しました。

ダルマアカデミーは次のようにコメントした。

この結果は、クローズドデータセットにおける AI の VQA パフォーマンスが人間のそれに匹敵することを意味します。

関連論文リンク:

[1] https://aclanthology.org/2021.acl-long.42/
[2] https://aclanthology.org/2021.acl-long.493/
[3]https://openreview.net/forum?id=Wg2PSpLZiH

VQA の例のリンク:
https://nlp.aliyun.com/portal#/multi_modal

DAMO アカデミー AliceMind オープンソース リンク:
https://github.com/alibaba/AliceMind

<<:  マイクロソフトは1350億のパラメータを持つスパースニューラルネットワークを使用して、各特徴を2値化することで検索結果を改善している。

>>:  騒動を巻き起こしたディープマインドの論文は万能ではない

ブログ    

推薦する

自動運転、顔認識…人工知能の時代が到来。私たちはどう対応すべきか?

2016年以降、人工知能がニュースに登場する頻度が高まっています。実は、理工系女子の私にとって、子...

Microsoft が機械学習モデルを簡単に作成できる Lobe デスクトップ アプリケーションをリリース

なお、Lobe はインターネット接続やログインを必要とせず、現在は機械学習モデルの出力のみ可能である...

機械学習の一般的な概念を普及させる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

壁を登る毛虫のように、上海交通大学の新しいソフトロボットは水平にも垂直にも動くことができる

今日のロボットは、次のようなさまざまな形やサイズのものがあります。こんなのもあります:一見奇妙に見え...

...

IoT生体認証は職場でより大きな役割を果たす

組織はセンサーや監視を通じて職場のセキュリティと従業員の安全性を向上させるために生体認証を使用できま...

人工知能の時代において、最近熱い議論を呼んだ「996」に別れを告げることができるでしょうか?

[[263744]] 2019年3月27日、有名なコードホスティングプラットフォームGitHub上...

DidiがAoEをオープンソース化: AIの迅速な統合を可能にする端末操作環境SDK

Didi は、エンドサイド AI 統合ランタイム環境 (IRE) である AoE (AI on E...

...

...

AIでAIを守る、次世代のAIベースのサイバー脅威ソリューション

多くの関係者は、AI が「悪」の力にもなり得るという事実を受け入れ始めています。関連する海外メディア...

機械学習でデータベースを自動調整

この記事は、カーネギーメロン大学の Dana Van Aken、Andy Pavlo、Geoff G...

Alibaba Cloudが「Tongyi Lingma」AIプログラミングツールをリリース、VS CodeやJetBrainsなどの主流IDEをサポート

11月1日、アリババクラウドは「Tongyi Lingma」というAIプログラミングツールをリリース...

AI はあらゆる人間の声を再現できます。これはポッドキャストにとって何を意味するのでしょうか?

ポッドキャスティングは、よりカジュアルな形式のオーディオストーリーテリングへと進化しています。複雑な...

高度な自動運転システムの設計・開発からソフトウェアの導入まで

上記の記事では、SOA 全体のアーキテクチャ特性、実装基盤、アプリケーションの利点、開発プロセスにつ...