OCRの終焉? Megvii は、ドキュメントレベルの OCR をサポートし、中国語と英語をサポートし、オープンソース化されたマルチモーダル大規模モデルを提案しています。

OCRの終焉? Megvii は、ドキュメントレベルの OCR をサポートし、中国語と英語をサポートし、オープンソース化されたマルチモーダル大規模モデルを提案しています。

ドキュメント画像を Markdown 形式に変換したいですか?

以前は、このタスクには、テキスト認識、レイアウトの検出と並べ替え、数式表の処理、テキストのクリーンアップなど、複数のステップが必要でした。

今回は、たった 1 つのコマンドで、マルチモーダル大規模モデルVary がエンドツーエンドで結果を直接出力します。

写真

中国語または英語の長い段落の場合:

写真

数式を含む文書の画像を以下に示します。

写真

または、モバイル ページのスクリーンショット:

写真

写真の表をLaTeX形式に変換することもできます。

写真

もちろん、マルチモードの大型モデルとして、一般的な機能も維持する必要があります。

写真

Vary は大きな可能性と非常に高い可能性を示しています。OCR はもはや長いパイプラインを必要とせず、エンドツーエンドで直接出力できます。また、ユーザーのプロンプトに応じて、LaTeX、Word、Markdown などのさまざまな形式で出力することもできます。

このアーキテクチャは、大規模モデルの極めて強力な言語事前確率を通じて、「杠」や「杜杠」など、OCR で簡単にスペルミスされる文字を回避することもできます。曖昧な文書の場合、言語事前確率の助けを借りて、より強力な OCR 効果を達成することも期待されます。

このプロジェクトは公開されるとすぐに多くのネットユーザーの注目を集め、一部のネットユーザーはそれを見た後に「ゲームを殺せ!」と叫んだ。

写真

では、この効果はどのようにして達成されるのでしょうか?

大きなモデルにインスピレーションを受けて

現在の大規模なマルチモーダル モデルのほとんどは、ビジョン エンコーダーまたは視覚語彙として CLIP を使用しています。実際、4 億の画像とテキストのペアでトレーニングされた CLIP は、強力なビジュアルとテキストのアライメント機能を備えており、ほとんどの日常的なタスクの画像エンコーディングをカバーできます。

しかし、ドキュメントレベルの OCR やチャート理解などの高密度で細粒度の認識タスクの場合、特に英語以外のシナリオでは、CLIP は明らかなエンコードの非効率性と語彙外の問題を示します。

大規模な純粋な NLP モデル (LLaMA など) が英語から中国語 (大規模なモデルにとっては「外国語」) に移行する場合、元の語彙は中国語のエンコードに非効率的であるため、より良い結果を得るにはテキスト語彙を拡張する必要があります。

研究チームにインスピレーションを与えたのは、この機能でした。

現在、CLIP ビジュアル語彙に基づくマルチモーダル大規模モデルは同じ問題に直面しています。つまり、論文内の密集したテキストのページなどの「外国語画像」に遭遇すると、画像を効率的にトークン化することが困難です。

Vary はこの問題の解決策です。元の語彙を再構築することなく、視覚的な語彙を効率的に拡張できます。

写真

既成の CLIP 語彙を直接使用する既存の方法とは異なり、Vary は次の 2 つの段階に分かれています。

最初の段階では、非常に小さなデコーダーのみのネットワークを使用して、自己回帰方式で強力な新しい視覚語彙を生成します。

次に、第 2 段階では、新しい語彙と CLIP 語彙が融合され、新しい機能を使用して LVLM を効率的にトレーニングします。

Vary のトレーニング方法とモデル構造は次のとおりです。

写真

公開データセットとレンダリングされたドキュメント チャートでトレーニングすることにより、Vary はきめ細かい視覚認識機能を大幅に強化します。

バニラのマルチモーダル機能を維持しながら、エンドツーエンドの中国語と英語の画像、数式のスクリーンショット、チャートの理解機能を刺激します。

さらに、研究チームは、本来は数千のトークンを必要とするページコンテンツが、ドキュメント画像入力を通じて Vary によって 256 個の画像トークンに圧縮され、これにより、さらにページ分析や要約を行うための想像の余地が広がることにも気付きました。

現在、Vary のコードとモデルはオープンソース化されており、誰でも試すことができる Web デモが提供されています。

興味のある友達は行ってみてください〜

<<:  マッキンゼー:2024年にGenAIが人工知能のビジネス界を支配する

>>:  Meta CTO との独占インタビュー: AI はすでに XR のキラー アプリケーションであり、LLM オープンソース コミュニティの競争には敗者なし

ブログ    
ブログ    
ブログ    

推薦する

5G+UAVの利点

5G+UAVの利点を見てみましょう。 [[398161]]現在、ドローンの開発は3つの大きな障害に直...

CIIE 2019 サノフィと朱江知能が共同で医療のデジタル未来を創造

第2回中国国際輸入博覧会が11月10日に成功裏に終了した。医療機器と医薬健康展示エリアでは、世界有数...

Weibo の背後にあるビッグデータの原理を探る: 推奨アルゴリズム

推薦システムは早くから誕生していたが、本格的に注目されるようになったのは、「Facebook」に代表...

TensorFlow 学習ニューラルネットワーク構築

1. ニューラルネットワークを構築してレイヤーを追加する入力値、入力サイズ、出力サイズ、活性化関数ニ...

...

...

ロボット工学が医療業界にもたらす変化

ロボット工学は医療分野で一般的になりつつあり、生物医学工学の分野における医療用ロボットへの資金提供が...

ディープラーニングを使用した音声分類のエンドツーエンドの例と説明

サウンド分類は、オーディオのディープラーニングで最も広く使用されている方法の 1 つです。音を分類し...

...

...

ByteDanceは、ロボットの成功率と操作効果を高めたVi-PRoMビジュアル事前トレーニングソリューションを提案した。

近年、大規模な実世界データを使用した視覚事前トレーニングは大きな進歩を遂げており、ピクセル観察に基づ...

TikTok買収事件、主要アルゴリズムが焦点に 英国メディア:買収候補は4つの選択肢を提示

ロイター通信が2日報じたところによると、TikTokの買収候補らは、主要アルゴリズムを伴わない買収を...

ヤン・ルカン氏ら専門家が2019年のAIの発展動向を予測

[[256869]]左から右へ: Cloudera ML ゼネラルマネージャーの Hilary Ma...