論文のイラストは拡散モデルを使用して自動的に生成することもでき、ICLRに受け入れられました。

論文のイラストは拡散モデルを使用して自動的に生成することもでき、ICLRに受け入れられました。

ジェネレーティブ AI は人工知能コミュニティに旋風を巻き起こしました。個人も企業も、Vincent 画像、Vincent ビデオ、Vincent 音楽など、関連するモーダル変換アプリケーションの作成に熱心に取り組んでいます。

最近、ServiceNow Research、LIVIA、その他の研究機関の研究者数名が、テキストの説明に基づいて論文内のグラフを生成しようと試みました。この目的のために、彼らはFigGenという新しい手法を提案し、関連論文もICLR 2023のTiny Paperとして掲載されました。

写真

論文アドレス: https://arxiv.org/pdf/2306.00800.pdf

論文でグラフを作成するのはそんなに難しいことなのかと疑問に思う人もいるかもしれません。これは科学研究にどのように役立つのでしょうか?

科学研究の図生成は、研究結果を簡​​潔かつ分かりやすく伝えるのに役立ちます。また、図の自動生成は、時間と労力を節約し、図をゼロから設計するために多大な労力を費やす必要がないなど、研究者に多くの利点をもたらします。さらに、視覚的に魅力的で理解しやすい図をデザインすることで、論文をより多くの人に理解してもらえるようになります。

ただし、図を生成するには、ボックス、矢印、テキストなどの個別のコンポーネント間の複雑な関係を表現する必要があるため、いくつかの課題もあります。自然画像の生成とは異なり、論文のグラフの概念は表現が異なり、きめ細かい理解が必要になる場合があります。たとえば、ニューラル ネットワーク グラフの生成には、分散の大きい不適切問題が伴います。

そのため、この論文の研究者は、論文とグラフのペアのデータセットで生成モデルをトレーニングし、グラフの構成要素と論文内の対応するテキストとの関係を捉えました。これには、さまざまな長さや高度な技術的なテキストの説明、さまざまな図のスタイル、画像のアスペクト比、テキストのレンダリング フォント、サイズ、方向の問題に対処する必要があります。

具体的な実装プロセスでは、研究者は最近のテキストから画像への変換の成果に触発され、拡散モデルを使用してチャートを生成し、テキストの説明から科学研究チャートを生成するための潜在的な拡散モデルである FigGen を提案しました。

この拡散モデルのユニークな点は何ですか?以下で詳細を見てみましょう。

モデルと方法

研究者たちは潜在拡散モデルをゼロから訓練した。

まず、画像を圧縮された潜在表現にマッピングするための画像オートエンコーダを学習します。画像エンコーダーは、KL 損失と OCR 知覚損失を使用します。条件付けに使用されるテキスト エンコーダーは、拡散モデルのトレーニング中にエンドツーエンドで学習されます。以下の表 3 は、画像オートエンコーダ アーキテクチャの詳細なパラメータを示しています。

次に、拡散モデルは潜在空間で直接相互作用して、データが破損したフォワード スケジューリングを実行し、時間的およびコンテキスト条件付きノイズ除去 U-Net を使用してプロセスを回復する方法を学習します。

データセットに関しては、研究者らは Paper2Fig100k を使用しました。これは論文の図とテキストのペアで構成されており、81,194 個のトレーニング サンプルと 21,259 個の検証サンプルが含まれています。下の図 1 は、Paper2Fig100k テスト セットのテキスト説明を使用して生成されたグラフの例です。

モデルの詳細

1 つ目は画像エンコーダーです。最初の段階では、画像オートエンコーダーがピクセル空間から圧縮された潜在表現へのマッピングを学習し、拡散モデルのトレーニングを高速化します。画像エンコーダーは、画像の重要な詳細 (テキストのレンダリング品質など) を失うことなく、潜在画像をピクセル空間にマッピングし直すことも学習する必要があります。

この目的のために、研究者らは、画像を f=8 の係数でダウンサンプリングするボトルネックを備えた畳み込みコーデックを定義しました。エンコーダーは、ガウス分布による KL 損失、VGG 知覚損失、および OCR 知覚損失を最小化するようにトレーニングされます。

次はテキストエンコーダーです。研究者たちは、一般的なテキストエンコーダーはグラフ生成のタスクには適していないことを発見しました。そこで彼らは、埋め込みチャネル サイズ 512 を使用して、拡散プロセスで最初からトレーニングされた Bert トランスフォーマーを定義します。これは、U-Net のクロス アテンション レイヤーを調整するために使用される埋め込みサイズでもあります。研究者らはまた、異なる設定(8、32、128)での変圧器層の数の変化を調査しました。

最後に、潜在的拡散モデルがあります。下の表 2 は、U-Net のネットワーク アーキテクチャを示しています。研究者らは、画像の知覚的に等価な潜在表現に対して拡散プロセスを実行しました。画像の入力サイズは 64x64x4 に圧縮され、拡散モデルが高速化されました。彼らは 1,000 の拡散ステップと線形ノイズ スケジュールを定義しました。

トレーニングの詳細

研究者らは、画像オートエンコーダをトレーニングするために、4 つの 12GB NVIDIA V100 グラフィック カードを使用し、有効バッチ サイズが 4 サンプル、学習率が 4.5e−6 の Adam オプティマイザーを使用しました。トレーニングの安定性を実現するために、識別器を使用せずに 50,000 回の反復でモデルをウォームアップしました。

潜在拡散モデルのトレーニングには、有効バッチサイズ32、学習率1e−4のAdamオプティマイザーも使用しました。 Paper2Fig100k データセットでモデルをトレーニングする際、8 枚の 80GB NVIDIA A100 グラフィック カードが使用されました。

実験結果

生成プロセス中、研究者らは 200 ステップの DDIM サンプラーを使用し、各モデルに対して 12,000 個のサンプルを生成して、FID、IS、KID、OCR-SIM1 を計算しました。 Steady は、分類子フリー ガイダンス (CFG) を使用して過剰調節をテストします。

以下の表 1 は、さまざまなテキスト エンコーダーの結果を示しています。大きなテキスト エンコーダーが最良の質的結果を生成し、CFG のサイズを大きくすることで条件付き生成を改善できることがわかります。定性的なサンプルは問題を解決するのに十分な品質ではありませんでしたが、FigGen はすでにテキストと画像の関係を把握していました。

下の図 2 は、分類器ガイダンス (CFG) なしでパラメータを調整したときに生成された追加の FigGen サンプルを示しています。研究者たちは、CFG のサイズを大きくすると (定量的にも実証されている)、画像品質が向上することを観察しました。

写真

下の図 3 は、FigGen 生成のさらなる例を示しています。サンプル間の長さのばらつきと、テキスト記述の技術レベルに注意してください。これらは、モデルが理解可能な画像を正しく生成する難易度に密接に影響します。

写真

しかし研究者らは、生成されたチャートが現時点では論文著者に実用的な助けを提供することはできないものの、依然として有望な探究の方向性であることも認めている。

研究の詳細については原著論文を参照してください。

<<:  大規模な言語モデルはデータアシスタントとして機能し、浙江大学のデータコパイロットはデータを効率的に呼び出し、処理し、視覚化します。

>>:  Google、金融機関の内部リスク警告の精度を2~4倍に高められるAIマネーロンダリング対策ツールをリリース

ブログ    
ブログ    

推薦する

C# アルゴリズム アプリケーションでのガウス消去法の実装

C# アルゴリズム アプリケーションでガウス消去法を実装するにはどうすればよいでしょうか?工学の学習...

...

グラフニューラルネットワークは急成長を遂げており、最新の進歩はここにあります

[[346023]]グラフニューラルネットワーク (GNN) は近年急速に発展しており、最近の会議で...

...

ディープインテリジェンスとは: 2021 年のディープインテリジェンスのトレンドは何ですか?

人工知能の開発は60年以上前に遡りますが、技術的な理由により、ディープラーニングの出現により再び人工...

顔認識で間違った人物が「捕まった」ため、その人物は10日間刑務所に収監された

それはとんでもないことだ。何もしてないのに理由もなく10日間警察に拘留されるんですか? ! [[39...

ヒントエンジニアリング: LLM で必要なものを生成

翻訳者 |ブガッティレビュー | Chonglou生成AIモデルは、入力に基づいてコンテンツを生成す...

...

...

IBMは機械学習に大きな飛躍をもたらす量子アルゴリズムを開発したと主張している

IBMの研究者らは、量子コンピューター上で高度な機械学習を可能にする新しい量子アルゴリズムを開発した...

知っておくべき 5 つの AI 応用シナリオ

人工知能は過去10年間で急速に発展し、徐々に私たちの生活に入り込んできました。現在、人工知能はさまざ...

機械学習が難しいのはなぜでしょうか?

[[187791]]機械学習は広く使用されており、チュートリアル、記事、オープンソース コードが至...

プログラマーは30歳で転職すべきでしょうか?曲がるならどちらの方向がいいでしょうか?

最近、皆さんは次のような H5 に悩まされていると思います。広告ポスター500枚の予算は2,000元...

私たちは本当にロボットの「カンブリア紀の進化」に近づいているのでしょうか?

ロボット工学の分野は驚異的なスピードで進歩しており、多くの専門家がこの急速な発展を生物学における「カ...