近年、テキストから画像への変換の分野は、特に AIGC (人工知能生成コンテンツ) の時代において大きな進歩を遂げています。 DALL-E モデルの登場により、Imagen、Stable Diffusion、ControlNet などの Text-to-Image モデルが学術界でますます多く登場しています。しかし、テキストから画像への変換の分野は急速に発展しているにもかかわらず、既存のモデルでは、テキストを含む画像を安定して生成する上で依然としていくつかの課題に直面しています。 既存の sota テキスト画像モデルを試したところ、モデルによって生成されたテキスト部分は基本的に判読不能であり、文字化けしたコードに似ており、画像全体の美観に大きな影響を与えることがわかりました。 既存のSOTAテキストグラフモデルによって生成されたテキスト情報は読みにくい 調査の結果、学術界ではこの分野の研究がほとんど行われていないことが判明しました。実際、ポスター、本の表紙、道路標識など、テキストを含む画像は日常生活で非常に一般的です。 AI がそのような画像を効果的に生成できれば、デザイナーの作業を支援し、デザインのインスピレーションを刺激し、デザインの負担を軽減するのに役立ちます。さらに、ユーザーは、テキスト グラフ モデルの結果のテキスト部分のみを変更し、その他の非テキスト領域の結果を保持したい場合があります。 そのため、研究者たちは、ユーザーが提供するプロンプトから直接画像を生成し、ユーザーが提供した画像内のテキストを変更できる包括的なモデルを設計したいと考えています。この研究はNeurIPS 2023に採択されました。
TextDiffuserの3つの機能 この論文では、レイアウトを生成する第 1 段階と画像を生成する第 2 段階の 2 つの段階で構成される TextDiffuser モデルを提案します。 TextDiffuser フレームワーク図 モデルはテキスト プロンプトを受け入れ、プロンプト内のキーワードに基づいて各キーワードのレイアウト (つまり、座標ボックス) を決定します。研究者らは、Layout Transformer を使用して、キーワードの座標ボックスをエンコーダー/デコーダーの形式で自己回帰的に出力し、Python の PILLOW ライブラリを使用してテキストをレンダリングしました。このプロセスでは、Pillow の既成 API を使用して各文字の座標ボックスを取得することもできます。これは、文字レベルのボックス レベルのセグメンテーション マスクを取得することと同じです。この情報に基づいて、研究者たちは安定拡散を微調整しようとしました。 彼らは 2 つのケースを検討しました。そのうちの 1 つは、ユーザーが画像全体を直接生成したい場合です (Whole-Image Generation と呼ばれます)。もう 1 つのケースは、論文ではテキスト修復とも呼ばれる部分画像生成です。これは、ユーザーに画像が与えられ、画像内の特定のテキスト領域を変更する必要があることを意味します。 上記 2 つの目標を達成するために、研究者は入力機能を再設計し、次元を元の 4 次元から 17 次元に変更しました。 4 次元のノイズ画像特徴、8 次元の文字情報、1 次元の画像マスク、および 4 次元のマスクされていない画像特徴が含まれています。全体画像生成の場合、研究者はマスク領域を画像全体に設定します。逆に、部分画像生成の場合は、画像の一部のみがマスクされます。拡散モデルのトレーニング プロセスは LDM のものと似ています。関心のある方は、元の論文の方法セクションの説明を参照してください。 推論フェーズでは、TextDiffuser は非常に柔軟であり、次の 3 つの方法で使用できます。
構築されたMARIOデータ TextDiffuser をトレーニングするために、研究者らは、上の図に示すように、MARIO-LAION、MARIO-TMDB、MARIO-OpenLibrary の 3 つのサブセットを含む 1,000 万枚のテキスト画像を収集しました。 研究者は、データを選別する際にいくつかの側面を考慮しました。たとえば、画像がOCRで処理された後、テキスト量が[1,8]の画像のみが保持されました。 8 文字以上のテキストは除外しました。新聞や複雑な設計図など、これらのテキストには密度の高いテキストが多く含まれていることが多く、OCR の結果は一般的にあまり正確ではないためです。さらに、テキスト領域を 10% より大きく設定しました。このルールは、画像内のテキスト領域の割合が小さくなりすぎないようにするために設定されています。 MARIO-10M データセットでトレーニングした後、研究者は TextDiffuser と他の既存の方法との間で定量的および定性的な比較を実施しました。たとえば、下の図に示すように、全体画像生成タスクでは、この方法で生成された画像はテキストがより鮮明で読みやすくなり、テキスト領域が背景領域とより統合されます。 テキストレンダリングのパフォーマンスを既存の作業と比較する 研究者らは、表 1 に示すように定性的な実験も実施しました。評価指標には、FID、CLIPScore、OCR が含まれます。特に OCR 指標の場合、提案された方法は比較方法に比べて大幅に改善されています。 表1: 定性実験 部分画像生成タスクでは、研究者は特定の画像に文字を追加したり変更したりしてみました。実験結果から、TextDiffuser によって生成された結果は非常に自然であることが分かりました。 テキスト修復機能の視覚化 要約すると、本論文で提案された TextDiffuser モデルは、テキスト レンダリングの分野で大きな進歩を遂げ、読みやすいテキストを含む高品質の画像を生成できるようになりました。今後、研究者らは TextDiffuser の効果をさらに向上させていく予定です。 |
<<: 1,000元の予算で半日のトレーニングを実施し、その効果は主流の大型モデル、オープンソース、市販の中国製LLaMA-2に匹敵する。
人工知能(AI)は現在、主要な技術進歩の一部となっています。そして、AI がますます強力かつ高度にな...
企業は人工知能 (AI) を適用する新しい方法を見つけています。 AI プロジェクトの主な障害の 1...
先ほど、Keras 3.0 が正式にリリースされました! 5 か月のパブリック ベータ テストを経て...
職場向けソーシャルプラットフォーム「LinkedIn」は6月26日、広告主が生成AIを通じてマーケテ...
51年前、アポロ13号が宇宙に打ち上げられました。打ち上げ直後、宇宙船は大きな爆発に遭遇した。宇宙船...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
これは ChatGPT が直接引き起こした大規模なレイオフである可能性があります。世界最大のプログラ...
競争が激化するテクノロジー市場において、ハイテク新興企業から世界的な多国籍企業まで、誰もが人工知能を...
面接の質問Nginx の負荷分散アルゴリズムはどのように実装されていますか? Nginx の負荷分散...
たとえば、RLHF の「人間」が入れ替わった場合、それは実現可能でしょうか? Google チームの...
IDCはこのほど、2019年および今後10年間の中国の情報通信分野と技術応用に関するトップ10予測を...
人工知能やデータサイエンスに不慣れな方であれば、これらの 4 つの用語を何度も目にしたことがあるはず...
RPA は、その幅広い適用性、無制限のシナリオへの適応性、既存の情報システムを損なわない親和性、AI...
危機に対処する最善の方法は常に変化を求めることです。 国連は5月18日、最新の世界経済情勢予測を発表...