画像内のテキストを心配する必要はありません。TextDiffuserは高品質のテキストレンダリングを提供します。

画像内のテキストを心配する必要はありません。TextDiffuserは高品質のテキストレンダリングを提供します。

近年、テキストから画像への変換の分野は、特に AIGC (人工知能生成コンテンツ) の時代において大きな進歩を遂げています。 DALL-E モデルの登場により、Imagen、Stable Diffusion、ControlNet などの Text-to-Image モデルが学術界でますます多く登場しています。しかし、テキストから画像への変換の分野は急速に発展しているにもかかわらず、既存のモデルでは、テキストを含む画像を安定して生成する上で依然としていくつかの課題に直面しています。

既存の sota テキスト画像モデルを試したところ、モデルによって生成されたテキスト部分は基本的に判読不能であり、文字化けしたコードに似ており、画像全体の美観に大きな影響を与えることがわかりました。

既存のSOTAテキストグラフモデルによって生成されたテキスト情報は読みにくい

調査の結果、学術界ではこの分野の研究がほとんど行われていないことが判明しました。実際、ポスター、本の表紙、道路標識など、テキストを含む画像は日常生活で非常に一般的です。 AI がそのような画像を効果的に生成できれば、デザイナーの作業を支援し、デザインのインスピレーションを刺激し、デザインの負担を軽減するのに役立ちます。さらに、ユーザーは、テキスト グラフ モデルの結果のテキスト部分のみを変更し、その他の非テキスト領域の結果を保持したい場合があります。

そのため、研究者たちは、ユーザーが提供するプロンプトから直接画像を生成し、ユーザーが提供した画像内のテキストを変更できる包括的なモデルを設計したいと考えています。この研究はNeurIPS 2023に採択されました。

  • 論文アドレス: https://arxiv.org/abs/2305.10855
  • プロジェクトアドレス: https://jingyechen.github.io/textdiffuser/
  • コードアドレス: https://github.com/microsoft/unilm/tree/master/textdiffuser
  • デモアドレス: https://huggingface.co/spaces/microsoft/TextDiffuser

TextDiffuserの3つの機能

この論文では、レイアウトを生成する第 1 段階と画像を生成する第 2 段階の 2 つの段階で構成される TextDiffuser モデルを提案します。

TextDiffuser フレームワーク図

モデルはテキスト プロンプトを受け入れ、プロンプト内のキーワードに基づいて各キーワードのレイアウト (つまり、座標ボックス) を決定します。研究者らは、Layout Transformer を使用して、キーワードの座標ボックスをエンコーダー/デコーダーの形式で自己回帰的に出力し、Python の PILLOW ライブラリを使用してテキストをレンダリングしました。このプロセスでは、Pillow の既成 API を使用して各文字の座標ボックスを取得することもできます。これは、文字レベルのボックス レベルのセグメンテーション マスクを取得することと同じです。この情報に基づいて、研究者たちは安定拡散を微調整しようとしました。

彼らは 2 つのケースを検討しました。そのうちの 1 つは、ユーザーが画像全体を直接生成したい場合です (Whole-Image Generation と呼ばれます)。もう 1 つのケースは、論文ではテキスト修復とも呼ばれる部分画像生成です。これは、ユーザーに画像が与えられ、画像内の特定のテキスト領域を変更する必要があることを意味します。

上記 2 つの目標を達成するために、研究者は入力機能を再設計し、次元を元の 4 次元から 17 次元に変更しました。 4 次元のノイズ画像特徴、8 次元の文字情報、1 次元の画像マスク、および 4 次元のマスクされていない画像特徴が含まれています。全体画像生成の場合、研究者はマスク領域を画像全体に設定します。逆に、部分画像生成の場合は、画像の一部のみがマスクされます。拡散モデルのトレーニング プロセスは LDM のものと似ています。関心のある方は、元の論文の方法セクションの説明を参照してください。

推論フェーズでは、TextDiffuser は非常に柔軟であり、次の 3 つの方法で使用できます。

  • ユーザーの指示に従って画像を生成します。さらに、最初のステップであるレイアウト生成で生成されたレイアウトにユーザーが満足できない場合、座標やテキストの内容を変更できるため、モデルの制御性が向上します。
  • 2番目のステージから直接開始します。最終結果はテンプレート画像に従って生成され、テンプレート画像は印刷されたテキスト画像、手書きのテキスト画像、またはシーンのテキスト画像である可能性があります。研究者らは、テンプレート画像からレイアウトを抽出するために、文字セットセグメンテーションネットワークを特別にトレーニングしました。
  • また、第 2 段階から、ユーザーは画像を提供し、変更する必要がある領域とテキスト コンテンツを指定します。さらに、この操作は、生成された結果にユーザーが満足するまで複数回実行できます。

構築されたMARIOデータ

TextDiffuser をトレーニングするために、研究者らは、上の図に示すように、MARIO-LAION、MARIO-TMDB、MARIO-OpenLibrary の 3 つのサブセットを含む 1,000 万枚のテキスト画像を収集しました。

研究者は、データを選別する際にいくつかの側面を考慮しました。たとえば、画像がOCRで処理された後、テキスト量が[1,8]の画像のみが保持されました。 8 文字以上のテキストは除外しました。新聞や複雑な設計図など、これらのテキストには密度の高いテキストが多く含まれていることが多く、OCR の結果は一般的にあまり正確ではないためです。さらに、テキスト領域を 10% より大きく設定しました。このルールは、画像内のテキスト領域の割合が小さくなりすぎないようにするために設定されています。

MARIO-10M データセットでトレーニングした後、研究者は TextDiffuser と他の既存の方法との間で定量的および定性的な比較を実施しました。たとえば、下の図に示すように、全体画像生成タスクでは、この方法で生成された画像はテキストがより鮮明で読みやすくなり、テキスト領域が背景領域とより統合されます。

テキストレンダリングのパフォーマンスを既存の作業と比較する

研究者らは、表 1 に示すように定性的な実験も実施しました。評価指標には、FID、CLIPScore、OCR が含まれます。特に OCR 指標の場合、提案された方法は比較方法に比べて大幅に改善されています。

表1: 定性実験

部分画像生成タスクでは、研究者は特定の画像に文字を追加したり変更したりしてみました。実験結果から、TextDiffuser によって生成された結果は非常に自然であることが分かりました。

テキスト修復機能の視覚化

要約すると、本論文で提案された TextDiffuser モデルは、テキスト レンダリングの分野で大きな進歩を遂げ、読みやすいテキストを含む高品質の画像を生成できるようになりました。今後、研究者らは TextDiffuser の効果をさらに向上させていく予定です。

<<:  1,000元の予算で半日のトレーニングを実施し、その効果は主流の大型モデル、オープンソース、市販の中国製LLaMA-2に匹敵する。

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AI愛好家が注目するべき8人のインスタグラマー

人工知能(AI)は現在、主要な技術進歩の一部となっています。そして、AI がますます強力かつ高度にな...

人工知能によるデータ管理の変革

企業は人工知能 (AI) を適用する新しい方法を見つけています。 AI プロジェクトの主な障害の 1...

Keras 3.0 が市場を席巻しています!この大きなアップデートではPyTorchとJAXが統合され、世界中の250万人の開発者が使用しています。

先ほど、Keras 3.0 が正式にリリースされました! 5 か月のパブリック ベータ テストを経て...

LinkedIn は、すべてのユーザーに公開される生成 AI 支援投稿作成機能を開始しました。

職場向けソーシャルプラットフォーム「LinkedIn」は6月26日、広告主が生成AIを通じてマーケテ...

デジタルツインの登場: 医薬品開発における今後の革命

51年前、アポロ13号が宇宙に打ち上げられました。打ち上げ直後、宇宙船は大きな爆発に遭遇した。宇宙船...

SLAM の新時代を切り開きましょう! NeRFと3D GS法のレビュー

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Stack Overflow は独自の生成 AI ツールを公開するためにスタッフの 28% を削減

これは ChatGPT が直接引き起こした大規模なレイオフである可能性があります。世界最大のプログラ...

2020 年の AI と機械学習の重要なトレンドは何ですか?

競争が激化するテクノロジー市場において、ハイテク新興企業から世界的な多国籍企業まで、誰もが人工知能を...

面接の質問: Nginx の負荷分散アルゴリズムはどのように実装されていますか?なぜ動きと静止を区別する必要があるのでしょうか?

面接の質問Nginx の負荷分散アルゴリズムはどのように実装されていますか? Nginx の負荷分散...

RLHF にはもう人間は必要ありません! Googleチームの研究により、AIによる注釈が人間のレベルに達したことが証明される

たとえば、RLHF の「人間」が入れ替わった場合、それは実現可能でしょうか? Google チームの...

今後10年の予測レポート:高齢化が進み、幼児市場が縮小、AIが様々な製品に浸透

IDCはこのほど、2019年および今後10年間の中国の情報通信分野と技術応用に関するトップ10予測を...

人工知能、機械学習、ディープラーニング、データサイエンス

人工知能やデータサイエンスに不慣れな方であれば、これらの 4 つの用語を何度も目にしたことがあるはず...

BluePrismが中国市場に参入し、RPA業界に新たな道を開く

RPA は、その幅広い適用性、無制限のシナリオへの適応性、既存の情報システムを損なわない親和性、AI...

インテルは世界的なIT需要爆発の機会を無駄にしない

危機に対処する最善の方法は常に変化を求めることです。 国連は5月18日、最新の世界経済情勢予測を発表...

...