最近では機械翻訳で文章から絵を想像できる

最近では機械翻訳で文章から絵を想像できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

さて、外国人が目の前に次のような文章を持っていると想像してください。「金と石は粉々に砕け散り、塵を払い落とし、岩山と曲がりくねった水はすべて開かれた。」

複雑な単語や長くて難しい文法を苦労して勉強する以外に、どうやってこの文章を理解できたでしょうか?

- 想像

この詩に出てくる「金属と石」、「塵」、「山と川」という言葉のイメージを想像し、それらのイメージを特定の絵やシーンにまとめます。

[[406853]]

当時、ある研究者は次のようなアイデアを思いつきました。

人間は母国語ではない言語のテキストに基づいてイメージを想像し、より深い理解を得ることができるのではないでしょうか。

機械が入力テキストに基づいて画像を想像し、最終的により良い翻訳を実現することは可能でしょうか?

こうして、視覚的想像力によって導かれる機械翻訳モデルであるImagiTが誕生しました。

△NAACL2021に収録されました。

論文の著者は南洋理工大学とByteDanceの人工知能研究所の研究者です。

写真がなくてもビジュアルは使える

「視覚を活用する」と言えば、まず思い浮かぶのはマルチモーダル機械翻訳です。

純粋なテキスト機械翻訳と比較して、マルチモーダル機械翻訳では、音声や画像などのモーダル情報を活用して翻訳品質を向上させることができます。

△ マルチモーダル機械翻訳の入力: 原言語 + 注釈付き画像

しかし、マルチモーダル機械翻訳の品質は、データセットの可用性に直接関係しています。

つまり、注釈付き画像の量と品質は、モデル翻訳の有効性に大きく影響します。

しかし、手動で画像に注釈を付けるコストは低くありません...そのため、現在のマルチモーダル機械翻訳のほとんどは、30,000 枚の注釈付き画像を含むデータセットである Multi30K に適用されています。

新しく提案されたImagiT翻訳モデルについてはどうでしょうか?

推論フェーズでは入力としてラベル付けされた画像は必要ありませんが、代わりに想像力による視覚信号を使用して、トレーニングフェーズで視覚的なセマンティクスをモデルに埋め込みます。

△ マルチモーダル機械翻訳の入力: ソース言語

画像注釈がなくても視覚情報を活用することが可能です。

想像力に基づく翻訳モデルとはどのようなものですか?

これはエンドツーエンドの敵対的学習アーキテクチャです。

アーキテクチャの左端と右端には、おなじみのトランスフォーマー エンコーダーとデコーダーがあり、中央には、このフレームワーク独自の生成想像力ネットワークがあります。

この生成想像力ネットワークは、主に 2 つのコンバーター注意層で構成されています。変換を行うときは、次のようになります。

1. F0によるソーステキスト入力

F0 には、1 つの完全接続層と 4 つのデコンボリューション層が含まれています。

GANの考え方に基づいて、文章の特徴とノイズが連結され、F0を通じて視覚的な表現に変換されます。

2. 単語レベルに焦点を当てる

注意レイヤーは、ソース テキスト内の関連する単語に焦点を当て、画像のさまざまなサブ領域の詳細な情報を生成し、画像の特徴のサブ領域を単語に対応させます。

その結果、より意味的に一貫性のある視覚表現が実現します。

3. 視覚的な表現はF1を通じて出力される

F1 には、2 つの完全接続層、1 つのデコンボリューション層、および 1 つの残差層が含まれます。

このコンバーターを通じて、マルチレベル(単語レベルおよび文レベル)のセマンティクスがキャプチャされ、生成された視覚的特徴 f1 が出力されます。

4. マルチモーダル集約

元のテキストモダリティと新しく合成された視覚的特徴を集約します。

5. 翻訳

このモデルの学習目標は、テキストから画像への生成と、画像のキャプション作成および翻訳という逆のタスクを組み合わせることです。

識別子は、ソース テキスト、生成された画像、実際の画像を入力として受け取り、合成画像が実際の画像と一致しているかどうかを評価します。

同時に、条件付き敵対的損失を使用して、合成画像がソース言語と同じセマンティクスを持つかどうかも評価します。

「脳サプリメント」は翻訳にどのように役立つのでしょうか?

研究者らは、ソース言語テキスト内の重要な単語を特殊文字に置き換える劣化戦略を使用し、モデルの翻訳パフォーマンスがどの程度低下するかを観察しました。

この場合、テキストのみの翻訳モデルでは、単語の文脈と偏りを失って、文の翻訳しか推測できません。

マルチモーダル機械翻訳では、注釈付きの画像を使用して翻訳を行います。

画像注釈がない場合でも、 ImagiT は劣化したテキストに基づいて失われた情報を想像し、回復することもできます。

この特別な探索的実験を通じて、ImagiT はトレーニング段階で特定の単語 (色、具体化できるエンティティ単語など) と他の単語との相関関係と共起を学習できることがわかります。

△ソース言語テキスト内のすべての色付きの単語を特殊文字に置き換えます。

置き換えたテキストを想像で復元する ImagiT モデルでは、プレーンテキスト翻訳と比較して、翻訳品質の低下が最も少なくなります

パフォーマンスはどうですか?

ImagiT は入力として画像を必要としないため、テスト中はテキストのみのトランスフォーマー モデルがベースラインとして使用されます。

Multi30K の英語 - フランス語および英語 - ドイツ語 Test2016 および Test2017 でテストしたところ、ImagiT は SOTA マルチモーダル翻訳システムと同等のパフォーマンスを達成しました。

また、Ambiguous COCO でも良好なテスト結果を示しました。

論文の宛先:
出典: arxiv.org

<<:  市場規模は約16.8億元に達しました!物流と配送がドローンと出会う

>>:  6つの権威あるリストを制覇したDAMOアカデミー独自の深層言語モデルシステムAliceMindはオープンソースです

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

6000億元の市場シェア!今は無人採掘に最適な時期でしょうか?

2019年を振り返ると、無人商用車にとっては着陸の兆しがなく、資金調達がますます困難になり、最悪の...

ブースティングとバギング: 堅牢な機械学習アルゴリズムを開発する方法

導入機械学習とデータ サイエンスでは、単にデータを Python ライブラリに投入してその結果を活用...

ケータリングロボットが市場発展の時代を先導

[[387119]]近年、ロボット産業の急速な発展に伴い、伝統的な飲食業界も徐々に第二の春を迎えてい...

2019年インターネット人材採用レポート:Javaは人気だが、アルゴリズムエンジニアは不足している

技術の変化、才能主導。インターネットにおける現在の仕事の機会とトレンドはどこにありますか?本稿では、...

可視性プラットフォームがセキュリティ オペレーション センター (SOC) にとって重要な理由は何ですか?

ディスプレイ ソリューションは、今日のセキュリティ オペレーション センター (SOC) で必要な複...

GPT-4V オープンソース代替品!清華大学と浙江大学は、LLaVAやCogAgentなどのオープンソースの視覚モデルの爆発的な普及を先導した。

現在、GPT-4 Vision は言語理解と視覚処理において並外れた能力を発揮しています。ただし、パ...

...

BBCはOpenAIによるデータスクレイピングをブロックしているが、ニュースでのAIの使用にはオープンである

英国最大の報道機関であるBBCは10月7日、ニュース、アーカイブ、「パーソナライズされた体験」の研究...

Meili United のビジネスアップグレードにおける機械学習の応用

一般的に、機械学習は電子商取引の分野では、推奨、検索、広告の 3 つの主要な用途があります。今回は、...

機械学習アルゴリズムは簡単に詐欺を検出できるので、詐欺を恐れる必要はありません。

実のところ、誰もが詐欺防止を必要としているわけではありません。金融機関が最新の犯罪手法に追いつこうと...

ガベージ コレクション アルゴリズムと JVM ガベージ コレクターの概要

[[199042]]ガベージ コレクション アルゴリズムと JVM ガベージ コレクターの概要は、著...

AI がソフトウェアをテストし、バグを修正できるようになれば、プログラマーの仕事は楽になるのでしょうか?

10月18日のニュース、単純な手作業から複雑な法的判断や医療診断まで、ロボットと人工知能が驚くべき...

AIとディープラーニングはもはやハイエンドのビデオ監視アプリケーションに限定されたものではない

[[408248]]最近、ディープラーニング AI を活用したビデオ監視プロジェクトに携わったことが...