ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

注目すべき傾向は、印象的な言語出力を生成できる、数百億/数千億のパラメータを備えた、より大規模で複雑なモデルを構築することです。

しかし、既存の大規模言語モデルは主にテキスト情報に焦点を当てており、視覚情報を理解することはできません。

したがって、マルチモーダル大規模言語モデル (MLLM) の分野における進歩は、視覚情報とテキスト情報を単一のトランスフォーマーベースのモデルに融合し、両方のモダリティに基づいてコンテンツを学習および生成できるようにすることで、この制限に対処することを目指しています。

MLLM は、自然画像理解やテキスト画像理解など、さまざまな実際のアプリケーションで可能性を示しています。これらのモデルは、マルチモーダル問題に対処するための一般的なインターフェースとして言語モデリングを活用し、テキストと視覚の入力に基づいて応答を処理および生成できるようにします。

しかし、既存のMLLMは主に低解像度の自然画像に焦点を当てており、テキストが密集した画像に関するMLLM研究はほとんどありません。そのため、大規模なマルチモーダル事前トレーニングを最大限に活用してテキスト画像を処理することは、MLLM研究の重要な研究方向です。

テキスト画像をトレーニング プロセスに組み込み、テキスト情報と視覚情報の両方に基づいてモデルを開発することで、高解像度のテキスト密度の高い画像を含むマルチモーダル アプリケーションの新しい可能性を切り開くことができます。

写真

論文アドレス: https://arxiv.org/abs/2309.11419

KOSMOS-2.5 は、テキスト密度の高い画像に基づく大規模なマルチモーダル言語モデルです。KOSMOS-2 に基づいて開発され、テキスト密度の高い画像のマルチモーダル読み取りおよび理解機能 (マルチモーダル リテラシー モデル) に重点を置いています。

このモデルの提案は、テキストを多用した画像を理解し、視覚とテキストのギャップを埋める優れたパフォーマンスを強調しています。

同時に、このタスクのパラダイムは、以前のエンコーダー/デコーダー アーキテクチャからデコーダーのみのアーキテクチャへと進化しました。

KOSMOS-2.5 の目標は、テキストが豊富な画像でシームレスな視覚的およびテキスト データ処理を可能にし、画像の内容を理解して構造化されたテキスト記述を生成することです。

図1: KOSMOS-2.5の概要

図 1 に示すように、KOSMOS-2.5 は、統一されたフレームワークを使用して 2 つの密接に関連するタスクを処理するように設計されたマルチモーダル モデルです。

最初のタスクは、空間認識を備えたテキスト ブロックの生成、つまり、テキスト ブロックのコンテンツと座標ボックスの両方を同時に生成することです。

2 番目のタスクでは、さまざまなスタイルと構造をキャプチャしながら、Markdown 形式で構造化テキスト出力を生成します。

図2: KOSMOS-2.5アーキテクチャ図

図 2 に示すように、両方のタスクは、タスク固有のキューを備えた共有 Transformer アーキテクチャを活用します。

KOSMOS-2.5 は、ViT (Vision Transformer) ベースのビジュアル エンコーダーと Transformer ベースのデコーダーをリサンプリング モジュールで接続して組み合わせたものです。

図3: 事前トレーニングデータセット

図3に示すように、このモデルをトレーニングするために、著者は事前トレーニング用に324.4Mの巨大なデータセットを準備しました。

図4: 境界ボックス付きのテキスト行のトレーニングサンプルの例

図5: Markdown形式のトレーニングサンプルの例

このデータセットには、境界ボックス付きのテキスト行や Markdown 形式のプレーンテキストなど、さまざまな種類のテキストが密集した画像が含まれています。図 4 と 5 は、トレーニング サンプルの例を視覚化したものです。

このマルチタスク トレーニング方法により、KOSMOS-2.5 の全体的なマルチモーダル機能が強化されます。

[図6] エンドツーエンドの文書レベルのテキスト認識実験

図7: 画像からMarkdown形式のテキストを生成する実験

図 6 および 7 に示すように、KOSMOS-2.5 は、エンドツーエンドのドキュメント レベルのテキスト認識と、画像からの Markdown 形式のテキストの生成という 2 つのタスクで評価されます。

実験結果は、テキストが密集した画像を理解するタスクにおいて KOSMOS-2.5 が優れたパフォーマンスを発揮することを示しています。

図8: KOSMOS-2.5の入力と出力のサンプル表示

さらに、KOSMOS-2.5 は、少数ショット学習およびゼロショット学習のシナリオで有望な機能を発揮し、テキストが豊富な画像の処理における実用的なアプリケーションに使用できる多目的ツールとなっています。

著者らは、命令の微調整は、より幅広いモデル機能を可能にする有望なアプローチであると指摘している。

より広範な研究分野では、モデルパラメータのスケーラビリティをさらに開発することが重要な方向性となります。

タスクの範囲と複雑さが拡大し続けるにつれて、より大量のデータを処理できるようにモデルをスケーリングすることが、テキスト集約型のマルチモーダル モデルの開発にとって重要になります。

最終的な目標は、視覚データとテキストデータの両方を効果的に解釈し、よりテキスト集約型のマルチモーダルタスクにうまく一般化できるモデルを開発することです。

参考文献:

https://arxiv.org/abs/2309.11419

<<:  ChatGPTはついにウェブを検索できるようになり、コンテンツは2021年9月以前のものに限定されなくなりました

>>:  ユーザー成長シナリオでAB実験システムを構築するには何をする必要がありますか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

Java ソートアルゴリズムについてどれくらい知っていますか?

今日は、Java のさまざまなソート アルゴリズムについてお話します。以前、上級開発者との面接があり...

開発速度が20倍にアップしました! GPT Pilot スター プロジェクトが Github のホット リストに掲載され、AI をゼロから構築

新たなスタープロジェクトが誕生! AI 開発者コンパニオンである GPT Pilot を使用すると、...

「階層化された自律性、垂直的なコラボレーション」アーキテクチャは、ワイヤレス自動運転ネットワークの基礎です。

【グローバルネットワークインテリジェント総合レポート】2020年、5Gネットワ​​ーク構築が本格化...

LLMLingua: LlamaIndex を統合してプロンプトを圧縮し、大規模な言語モデルに効率的な推論を提供します。

大規模言語モデル (LLM) の出現により、複数の分野でイノベーションが促進されました。しかし、思考...

...

原理、コード、デモを備えたこのアルゴリズム リソースは人気を博しています。 GitHub で 2900 以上のスターを獲得

最近、GitHub で非常に包括的なアルゴリズム リソースが人気を集めています。対応する原理の紹介と...

さあ、アルゴリズムの複雑さをもう一度理解しましょう!

[[346356]] 0. はじめにみなさんこんにちは。私は、複数選択パラメータのプログラマーポッ...

機械学習による建物のエネルギー効率の向上

エネルギー効率などの複雑な建物の問題を、人間の介入なしに解決するにはどうすればよいでしょうか。建物の...

Google の公式 Android Market ランキング アルゴリズムとルール

1. ランキングの計算式にはどのような指標が含まれていますか?指標 A、B、C とは何ですか? 重み...

TensorFlow2 を使用してアラビア語の手書き文字データセットを認識する方法を説明します

[[405478]]このチュートリアルでは、TensorFlow (Keras API) を使用して...

スーパー人工知能はいつ実現されるのでしょうか?

01 近未来1997 年 5 月 3 日、IBM のチェス コンピュータ Deep Blue と世...

Didiは最初の試みで惨敗した。自動運転は本当に良い市場なのか?

道路交通は常に人々の関心事であり、テクノロジーの時代において、人々は自動運転に大きな期待を寄せていま...

生成 AI に新しい設計アプローチが必要なのはなぜですか?

生成AIについて議論するインタビューでは、懸念から驚きまでさまざまな反応がありました。そしてベンチャ...

お金は人を幸せにできるのでしょうか?機械学習を使って答えを見つける方法を教えます

機械学習システムを分類する 1 つの方法は、一般化の程度によって分類することです。ほとんどの機械学習...