ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

注目すべき傾向は、印象的な言語出力を生成できる、数百億/数千億のパラメータを備えた、より大規模で複雑なモデルを構築することです。

しかし、既存の大規模言語モデルは主にテキスト情報に焦点を当てており、視覚情報を理解することはできません。

したがって、マルチモーダル大規模言語モデル (MLLM) の分野における進歩は、視覚情報とテキスト情報を単一のトランスフォーマーベースのモデルに融合し、両方のモダリティに基づいてコンテンツを学習および生成できるようにすることで、この制限に対処することを目指しています。

MLLM は、自然画像理解やテキスト画像理解など、さまざまな実際のアプリケーションで可能性を示しています。これらのモデルは、マルチモーダル問題に対処するための一般的なインターフェースとして言語モデリングを活用し、テキストと視覚の入力に基づいて応答を処理および生成できるようにします。

しかし、既存のMLLMは主に低解像度の自然画像に焦点を当てており、テキストが密集した画像に関するMLLM研究はほとんどありません。そのため、大規模なマルチモーダル事前トレーニングを最大限に活用してテキスト画像を処理することは、MLLM研究の重要な研究方向です。

テキスト画像をトレーニングプロセスに組み込み、テキスト情報と視覚情報の両方に基づいてモデルを開発することで、高解像度のテキスト密度の高い画像を含むマルチモーダルアプリケーションの新しい可能性を切り開くことができます。

写真

論文アドレス: https://arxiv.org/abs/2309.11419

KOSMOS-2.5 は、テキスト密度の高い画像に基づく大規模なマルチモーダル言語モデルです。KOSMOS-2 に基づいて開発され、テキスト密度の高い画像のマルチモーダル読み取りおよび理解機能 (マルチモーダルリテラシーモデル) に重点を置いています。

このモデルの提案は、テキストを多用した画像を理解し、視覚とテキストのギャップを埋める優れたパフォーマンスを強調しています。

同時に、このタスクのパラダイムは、以前のエンコーダー/デコーダーアーキテクチャからデコーダーのみのアーキテクチャへと進化しました。

KOSMOS-2.5 の目標は、テキストが豊富な画像でシームレスな視覚的およびテキストデータ処理を可能にし、画像の内容を理解して構造化されたテキスト記述を生成することです。

図1: KOSMOS-2.5の概要

図 1 に示すように、KOSMOS-2.5 は、統一されたフレームワークを使用して 2 つの密接に関連するタスクを処理するように設計されたマルチモーダルモデルです。

最初のタスクは、空間認識を備えたテキストブロックの生成、つまり、テキストブロックのコンテンツと座標ボックスの両方を同時に生成することです。

2 番目のタスクでは、さまざまなスタイルと構造をキャプチャしながら、Markdown 形式で構造化テキスト出力を生成します。

図2: KOSMOS-2.5アーキテクチャ図

図 2 に示すように、両方のタスクは、タスク固有のキューを備えた共有 Transformer アーキテクチャを活用します。

KOSMOS-2.5 は、ViT (Vision Transformer) ベースのビジュアルエンコーダーと Transformer ベースのデコーダーをリサンプリングモジュールで接続して組み合わせたものです。

図3: 事前トレーニングデータセット

図3に示すように、このモデルをトレーニングするために、著者は事前トレーニング用に324.4Mの巨大なデータセットを準備しました。

図4: 境界ボックス付きのテキスト行のトレーニングサンプルの例

図5: Markdown形式のトレーニングサンプルの例

このデータセットには、境界ボックス付きのテキスト行や Markdown 形式のプレーンテキストなど、さまざまな種類のテキストが密集した画像が含まれています。図 4 と 5 は、トレーニングサンプルの例を視覚化したものです。

このマルチタスクトレーニング方法により、KOSMOS-2.5 の全体的なマルチモーダル機能が強化されます。

[図6] エンドツーエンドの文書レベルのテキスト認識実験

図7: 画像からMarkdown形式のテキストを生成する実験

図 6 および 7 に示すように、KOSMOS-2.5 は、エンドツーエンドのドキュメントレベルのテキスト認識と、画像からの Markdown 形式のテキストの生成という 2 つのタスクで評価されます。

実験結果は、テキストが密集した画像を理解するタスクにおいて KOSMOS-2.5 が優れたパフォーマンスを発揮することを示しています。

図8: KOSMOS-2.5の入力と出力のサンプル表示

さらに、KOSMOS-2.5 は、少数ショット学習およびゼロショット学習のシナリオで有望な機能を発揮し、テキストが豊富な画像の処理における実用的なアプリケーションに使用できる多目的ツールとなっています。

著者らは、命令の微調整は、より幅広いモデル機能を可能にする有望なアプローチであると指摘している。

より広範な研究分野では、モデルパラメータのスケーラビリティをさらに開発することが重要な方向性となります。

タスクの範囲と複雑さが拡大し続けるにつれて、より大量のデータを処理できるようにモデルをスケーリングすることが、テキスト集約型のマルチモーダルモデルの開発にとって重要になります。

最終的な目標は、視覚データとテキストデータの両方を効果的に解釈し、よりテキスト集約型のマルチモーダルタスクにうまく一般化できるモデルを開発することです。

参考文献:

https://arxiv.org/abs/2309.11419

<<: ChatGPTはついにウェブを検索できるようになり、コンテンツは2021年9月以前のものに限定されなくなりました

>>: ユーザー成長シナリオでAB実験システムを構築するには何をする必要がありますか?

ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

モノのインターネットを支援するAI搭載量子コンピューティング

大規模言語モデル評価における信頼性の低いデータに注意: Flan-T5 に基づくプロンプト選択のケーススタディ

AIをめぐる世界的な競争でリードしているのは中国、米国、それともヨーロッパか

シンプルなアルゴリズムで分散システムのパフォーマンスが瞬時に10倍以上向上

追加: Python の基本 + モンテカルロアルゴリズム (ソースコード付き) を使用して、順列と組み合わせに関する質問を共有します。

最強のLLaMAが突如降臨！ハイパーパラメータを 1 つだけ変更するだけで、32,000 個のコンテキストトークンを達成し、複数のタスクで ChatGPT と Claude 2 を上回ることができます。

従来のポートレートプレイヤー向けに AI を新たなレベルに引き上げる方法

人工知能が「骨董品鑑定」の分野に参入、人間の職業に再び影響が及ぶか？

推薦する

2022年の自動運転のトップ10トレンドが発表されました。データインテリジェンスシステムは、自動運転の商用化のクローズドループの鍵となるでしょうか？

機械学習ガバナンスの5つの課題

AI時代に医療データの品質が重要な理由

年次レビュー: 2017 年の「愚かな」 AI 製品 8 つ

再帰アルゴリズムの時間計算量について十分に理解していない

AIが「軍事顧問」に？まずはRedditユーザーを獲得しよう

フォレスター：AIと5Gがエッジコンピューティングの発展を推進

なぜRLの一般化は難しいのか：バークレーの博士が認知POMDPと暗黙の部分観測性から説明する

機械学習は創造的な仕事に役立つ

欧州はAI規制を推進

中国電信が星辰AIビッグモデルをソース公開：LLM研究開発を完了し、オープンソース化した初の中央企業