初めて人間を超えた! 「絵を読んで意味を理解する」ことに関しては、AIは人間の目よりも優れている

初めて人間を超えた! 「絵を読んで意味を理解する」ことに関しては、AIは人間の目よりも優れている

[[417746]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AIは人間を超えるという新たな一歩を踏み出した。

最近、国際的に権威のあるマシンビジョンの質問回答リストVQA Leaderboard がデータを更新しました。

「絵を読んで意味を理解する」というタスクでは、AIの精度は81.26%に達しました。

初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

ご存知のとおり、このタスクにおける私たち人間の基準値はわずか80.83%です。

この成果は、Alibaba DAMO Academy チームのAliceMind-MMUによって達成されました。

この動きは、AI が 2015 年と 2018 年にそれぞれ視覚認識とテキスト理解で人間を上回った後、マルチモーダル技術でも飛躍的な進歩を遂げたことを意味します。

AIはあなたよりも画像を読むのが得意です

この AI は画像を読み取るのがどのくらい得意ですか?

理解するには次の例を見てください。

AIに「これらのおもちゃは何に使うのですか?」と尋ねると、

小さなクマが着ているドレスに応じて答えます。

結婚式。

初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

AIに別の質問をします。「男性のサッカー帽子はどのチームを表していますか?」

帽子の中の文字「B」に基づいて答えます。

ボストンチーム

初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

チャレンジを増やして、別のチャレンジに挑戦してみましょう。

「写真のおもちゃの男のIPはどの映画のものですか?」

この時、写真に写っているおもちゃや戦闘シーンなどの情報をもとにAIが推論を行います。

しかし、結局、答えは正確でした。

スターウォーズ

初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

たとえば、次の例では、AI が写真の詳細な情報をキャプチャして、質問に正確に答えます。

初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

まあ、丁寧とも言えるでしょう。

これはどうやって行うのですか?

おそらく、上記のケースは人間にとってそれほど難しいことではないかもしれません。

しかし、AIにとってそれは簡単な作業ではありません。

主な難しさは次のとおりです。

単一のモダリティを正確に理解した上で、共同推論と認知を行うためにマルチモーダル情報を統合し、最終的にはクロスモーダル理解を実現する必要があります。

どうやって破るの?

Alibaba DAMO Academy は、多数の革新的なアルゴリズムを組み込んだ AI ビジュアルテキスト推論システムを体系的に設計しました。

初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

具体的には、大きく分けて以下の4つの内容に分けられます。

  • 多様な視覚的特徴表現: 画像のローカルおよびグローバルな意味情報をあらゆる側面から記述し、領域、グリッド、パッチなどの視覚的特徴表現を使用して、より正確な単一モーダル理解を実現します。
  • 大量のグラフィック データと多粒度の視覚的特徴に基づくマルチモーダル事前トレーニング: マルチモーダル情報の融合とセマンティック マッピングをより適切に実行するために、SemVLP、Grid-VLP、E2E-VLP、Fusion-VLP などの事前トレーニング モデルが提案されています。
  • 適応型クロスモーダルセマンティックフュージョンおよびアライメントテクノロジー: マルチモーダル事前トレーニングモデルに Learning to Attend メカニズムを追加して、クロスモーダル情報の効率的で深い融合を実行します。
  • Mixture of Experts (MOE) テクノロジー: 知識主導のマルチスキル AI 統合。
初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

このモデルに使われている技術は専門家からも認められているようです。

例えば、マルチモーダル事前トレーニングモデル E2E-VLP は、トップクラスの国際会議 ACL2021 に採択されました。

初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

VQAについて

VQA は AI 分野における最も困難な課題の 1 つと言えます。

単一の AI モデルの場合、VQA テスト ペーパーの難易度は「異常」と表現できます。

テストでは、AI は与えられた画像と自然言語の質問に基づいて正しい自然言語の回答を生成する必要があります。

つまり、単一の AI モデルに複雑なコンピューター ビジョンと自然言語テクノロジを統合する必要があります。

  • まず、すべての画像情報がスキャンされます。
  • テキストの問題の理解と組み合わせて、マルチモーダル技術を使用して、画像とテキストの相関関係を学習し、関連する画像情報を正確に特定します。
  • 最後に、常識と推論に基づいて質問に答えます。
初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

しかし、VQA の課題を解決することは、汎用人工知能の開発にとって大きな意義があります。

そのため、世界最高峰のコンピュータービジョンカンファレンスであるCVPRは、2015年から6年連続でVQAチャレンジを開催しています。

マイクロソフト、フェイスブック、スタンフォード大学、アリババ、百度など多くのトップ機関が参加しました。

同時に、20万枚以上の実際の写真と110万のテスト問題を含む、世界最大かつ最も認知度の高いVQAデータセットも形成されました。

初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">

今年6月、VQA 2021チャレンジに応募した55チームの中で、アリババDAMOアカデミーが優勝し、2位に約1パーセントポイント、昨年の優勝者に3.4パーセントポイントの差をつけたと理解されている。

わずか 2 か月後、DAMO アカデミーは再び、正解率 81.26% で VQA リーダーボードの世界新記録を樹立しました。

ダルマアカデミーは次のようにコメントした。

この結果は、クローズドデータセットにおける AI の VQA パフォーマンスが人間のそれに匹敵することを意味します。

関連論文リンク:

[1] https://aclanthology.org/2021.acl-long.42/
[2] https://aclanthology.org/2021.acl-long.493/
[3]https://openreview.net/forum?id=Wg2PSpLZiH

VQA の例のリンク:
https://nlp.aliyun.com/portal#/multi_modal

DAMO アカデミー AliceMind オープンソース リンク:
https://github.com/alibaba/AliceMind

<<:  マイクロソフトは1350億のパラメータを持つスパースニューラルネットワークを使用して、各特徴を2値化することで検索結果を改善している。

>>:  騒動を巻き起こしたディープマインドの論文は万能ではない

ブログ    
ブログ    

推薦する

Python アルゴリズムの時間計算量

アルゴリズムを実装する場合、アルゴリズムの複雑さは通常、時間の複雑さと空間の複雑さという 2 つの側...

人工知能は人間のキャリアにどのような影響を与えるのでしょうか? 11のトレンド予測はこちら

置き換えられるというよりは、スキルの反復の方が心配です。 2017年は、人工知能が世界中で大きな注目...

ドバイ、街頭にロボット警察を配備へ

ロシア・トゥデイTVのウェブサイトは20日、UAE当局者の発言を引用し、UAE初のロボット警察が今年...

2020 年に注目すべき機械学習とデータサイエンスのウェブサイト トップ 20

今日最も進歩的で、最先端で、刺激的なもの…データ サイエンスと機械学習は、今日非常に魅力的で、非常に...

2021 年の人工知能データ収集および注釈業界の 4 つの主要トレンド予測

人工知能データ収集およびラベリングのリーディングカンパニーであるYunce Dataは最近、「202...

Androidスマートフォンを開くと、画面全体に「Big Model」という3つの単語が表示されます。

最近では、Android メーカーは大きなモデルなしで携帯電話の発表会を開催しようとはしません。 O...

複合 AI: エンタープライズ AI の成功の鍵

最近、Dynatrace は、AI への投資が増加し続けるにつれて、「複合 AI」が企業による AI...

...

...

...

AI 音声ジェネレーターとは何ですか? どのように機能しますか?

近年、AI 音声ジェネレーターは、人々が機械と対話し、デジタル コンテンツを受け取る方法を変える強力...

...

...

...

...