AI画像認識は無関係? Google AI: 段階的なトレーニング セットで画像の説明精度を向上

AI画像認識は無関係? Google AI: 段階的なトレーニング セットで画像の説明精度を向上

絵を千語で説明できるとしたら、絵の中に描写できる詳細や物体間の関係性は実に多くあります。犬の毛の質感、追いかけられているフリスビーのロゴ、フリスビーを投げたばかりの人の表情などを表現できます。

[[398584]]

現在、テキスト記述とそれに対応する画像記述 (MS-COCO や Flickr30k など) を含むデータセットは、位置合わせされた画像とテキストの表現を学習し、記述モデルを構築するために広く使用されています。

ただし、これらのデータセットではクロスモーダル相関が限られています。つまり、画像は他の画像と一致しておらず、説明は同じ画像の他の説明とのみ一致しており、画像と説明の一致は存在しますが、一致としてラベル付けされておらず、画像と説明の間に不一致がある場合に示すラベルはありません。

この評価ギャップを埋めるために、私たちは「Cross-Description: MS-COCO の拡張されたイントラモーダルおよびモーダル意味的類似性判断」を提案します。

Criss-Cross Captioning (CxC) データセットは、画像とテキスト、テキストとテキスト、画像と画像のペアの意味的類似性評価により、MS-COCO の開発およびテストの範囲を拡張します。

評価基準は、短いテキストのペア間の意味的関連性を測る尺度として広く使用されている「意味的テキスト類似性」に基づいており、これを画像の判断にも拡張しています。 CxC のスコアリングと、CxC を既存の MS-COCO データとマージするためのコードをリリースしました。

CxCデータセットの作成

CxC データセットは、モダリティ内およびモダリティ間の段階的な類似性の関連付けによって MS-COCO 評価分割を拡張します。ランダムに選択された画像と説明の一致の類似性が低いことを考慮して、人間による評価を通じて類似性が高い新しい一致を生成するアイテムを選択する方法を提案します。選択された一致と、それらを見つけるために使用されたモデルとの依存性を減らすために、異なるエンコーディングを使用して画像と説明をエンコードし、同じモダリティの一致間の類似性を計算して類似性マトリックスを生成する間接サンプリング方式を導入します。画像は Graph-RISE 埋め込みを使用してエンコードされ、説明は GloVe 埋め込みに基づく Universal Sentence Encoder (USE) と Average Bag of Words (BoW) の 2 つの方法を使用してエンコードされます。

各 MS-COCO の例には 5 つの補助キャプションがあるため、各補助キャプションのエンコーディングを平均して各例の単一の表現を作成し、すべてのキャプション ペアを画像にマッピングできるようにします。

上部: 平均補助記述エンコーディングを使用して構築されたテキスト類似性マトリックス (各セルは類似性スコアに対応)。各テキスト エントリは 1 つの画像に対応します。下部: データセット内の各画像の画像類似性マトリックス。

テキスト類似度マトリックスから計算された類似度の高い 2 つの説明を選択し、それぞれの画像を取得して、外観は異なりますが説明によると類似している新しい画像のペアを生成します。

例えば、「恥ずかしそうに横を向いている犬」と「そよ風を楽しむように上を見上げている黒い犬」はモデルの類似度がかなり高いため、下図の 2 匹の犬の対応する画像は、画像の類似度レベルを選択できます。このステップは、計算された類似度が高い 2 つの画像から開始して、新しい説明のペアを生成することもできます。

上部: 説明の類似性に基づいて画像の一致を選択します。下部: 説明画像の類似性に基づいて説明の一致を選択します。

これは、既存の画像とキャプションのペアを使用してモーダル間をリンクすることによって行われます。たとえば、人間がサンプル ij に一致する説明を非常に類似していると評価した場合、サンプル i から画像を選択し、サンプル j から説明を選択して、人間による評価のための新しいモダリティ内一致を取得します。次に、最も類似度の高いモダリティ内ペアを使用してサンプリングします。これには、類似度の高い新しい一致が含まれる場合があります。

さまざまな類似度レベルでのセマンティック イメージ類似度 (SIS) とセマンティック イメージ テキスト類似度 (SITS) の例。5 が最も類似しており、0 はまったく類似していないことを示します。

評価する

MS-COCO でのマッチングは不完全です。ある画像の説明が別の画像にも当てはまることがあるためです。ただし、これらの関連付けはデータセットに記録されません。 CxC は、新しい前方一致によってこれらの既存の検索タスクを強化し、新しい画像間検索タスクもサポートします。

CxC は類似性評価の判断を通じて、モデルと人間の評価の相関関係を測定することもできます。さらに、CxC の関連性スコアでは、スコアの低い項目 (一致しない項目) も含め、類似性の相対的な順序も考慮されます。

CxC 評価の有用性を実証するために、一連の実験を実施します。この目的のために、BERT ベースのテキスト エンコーダーと、画像エンコーダーとしての EfficientNet-B4 を使用して、3 つのデュアル エンコーダー (DE) モデルを構築します。

1. テキストからテキストへの (DE_T2T) モデル。両者が共有テキスト エンコーダーを使用します。

2. 上記のテキスト エンコーダーと画像エンコーダーを使用し、テキスト エンコーダーの上に画像エンコーダーの出力に一致するレイヤーを備えた画像からテキストへのモデル (DE_I2T)。

3. テキスト-テキストタスクと画像-テキストタスクの加重組み合わせでトレーニングされたマルチタスクモデル (DE_I2T+T2T)。

テキストからテキスト (T2T)、画像からテキスト (I2T)、およびマルチタスク (I2T+T2T) デュアル エンコーダー モデルの CxC 検索結果

検索タスクの結果から、画像テキスト検索タスクとテキスト画像検索タスクでは、DE_I2T+T2T (黄色のバー) が DE_I2T (赤色のバー) よりも優れたパフォーマンスを発揮することがわかります。したがって、モダリティ内(テキスト-テキスト)トレーニング タスクを追加すると、モダリティ間(画像-テキスト、テキスト-画像)のパフォーマンスが向上します。

同じモデルのCxC相関結果

関連付けタスクの場合、DE_I2T は SIS 上で最高のパフォーマンスを発揮しますが、DE_I2T+T2T は全体的に最高のパフォーマンスを発揮します。相関スコアは、DE_I2T が画像に対してのみ優れたパフォーマンスを発揮することも示しています。SIS は最も高いものの、STS は低下しています。

DE_I2T トレーニングにテキスト-テキスト損失を追加すると (DE_I2T+T2T)、全体的なパフォーマンスのバランスがより良くなります。

<<:  人工知能は医療に変革をもたらす力

>>:  中国人の「専門用語」データセット、AI:あなたはDBQさえ理解していない

ブログ    
ブログ    

推薦する

人工知能は改めてすごいですね!科学者は偶然、死者を「蘇らせる」ことができることを発見した

マイクロソフトは現在、チャットボットを開発中との報道もある。将来的に実用化に成功すれば、デジタル技術...

コンピュータビジョンプロジェクト: 10 個の高品質オープンソースデータセットがリリースされました

コンピューター ビジョンは、ほぼすべての産業分野で進歩を加速させています。 コンピューター ビジョン...

DeepMindは、オートエンコーダに「自己修正」を教える「SUNDAE」と呼ばれる言語モデルを提案している。

[[440946]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

人工知能は生産と生活の変革を加速させる

[[399011]]飛行機に搭乗するための「顔スキャン」、歩行者を積極的に識別して回避する自動運転車...

「人工知能」の発展を合理的に扱う

現在の人工知能の発展は、主にディープラーニングに代表される機械学習技術の恩恵を受けています。ディープ...

運営:申し訳ありませんが、当社は責任を負いかねます

[51CTO.com より引用] 運用保守というと、多くの人が無意識のうちに運用保守担当者を「スケー...

マスク氏の最新チップ:脳とコンピューターの相互作用に特化し、視覚障害者が「見る」ことを可能にする

自分で認めなさい!マスク氏のニューラリンクはチップを開発している。この技術は「数年以内」にリリースさ...

畳み込みニューラルネットワーク(CNN)を使用して、最大95%の精度で皮膚がんを検出します。

ドイツ、米国、フランスの研究者で構成された研究チームは、10万枚以上の画像を使用して、畳み込みニュー...

TPU v4 チップの計算能力が新たな高みに到達しました。 Googleが世界最大の機械学習センターを建設

最近、Google の I/O 開発者会議で、Google は魅力的な新しい携帯電話、AR グラス、...

...

ザッカーバーグがAlpaca 2をベースにしたChatGPTのMetaバージョンを正式にリリース。Appleに先駆けて初のMRヘッドセットをリリース、価格は1/7以下

ChatGPT ネットワーキング モードが正式に復活しました。そして、この波は有料ユーザーだけでなく...

人工知能とデータ分析の新たなトレンド

明らかに、AI とデータ分析の世界はダイナミックな変化の真っ只中にあります。将来は、イノベーションと...

95歳のハーバード大学出身者が、機械学習をゼロから始めるための必読書を執筆しました。本のリソースは現在公開されています。

機械学習を始める最も簡単な方法は何ですか?今年ハーバード大学で統計学の学位を取得したばかりのダニー・...

このデータ サイエンスの間違いに注意し、30 時間以上の無駄な作業を回避しましょう...

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

AIがイノベーションの大きな原動力となる理由

近年、人工知能は新興技術から必需品へと徐々に変化してきました。より大規模な企業の問題に対する解決策を...