Alibaba のビッグモデルが再びオープンソース化されました!画像を読み取り、物体を認識することができ、市販されているTongyi Qianwen 7Bをベースに構築されています。

Alibaba のビッグモデルが再びオープンソース化されました!画像を読み取り、物体を認識することができ、市販されているTongyi Qianwen 7Bをベースに構築されています。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

アリババのオープンソースビッグモデルがまた更新されました〜

同義千文7号B (Qwen-7B)に続いて、アリババクラウドは大規模視覚言語モデルQwen-VLをリリースしました。これはオンラインになるとすぐにオープンソース化されました。

具体的には、Qwen-VLはTongyi Qianwen-7Bをベースに構築された大規模なマルチモーダルモデルです。画像、テキスト、検出ボックスなどの複数の入力をサポートし、テキストに加えて検出ボックスの出力もサポートしています。

たとえば、アーニャの写真を入力します。質問と回答の形式を通じて、Qwen-VL-Chat は写真の内容を要約するだけでなく、写真内のアーニャを見つけることもできます。

テストタスクでは、Qwen-VL は「六角形の戦士」の強さを発揮し、4 つの主要なタイプのマルチモーダルタスク (ゼロショット キャプション/VQA/DocVQA/グラウンディング) の標準英語評価で SOTA を達成しました。

オープンソースのニュースが出るとすぐに、大きな注目を集めました。

具体的なパフォーマンスを見てみましょう〜

中国のオープンドメインポジショニングをサポートする最初の汎用モデル

まず、Qwen-VLシリーズモデルの特徴を見てみましょう。

  • 多言語ダイアログ: 多言語ダイアログをサポートし、画像内の中国語と英語の長いテキスト認識をエンドツーエンドでサポートします。
  • マルチ画像インターレースダイアログ:マルチ画像の入力と比較、特定の画像に関するQ&A、マルチ画像の文学作品作成などをサポートします。
  • 中国語オープンドメインポジショニングをサポートする最初の汎用モデル:検出ボックスに中国語オープンドメイン言語表現を使用して注釈が付けられているため、画像内でターゲットオブジェクトを正確に見つけることができます。
  • きめ細かい認識と理解: 現在使用されている他のオープンソース LVLM (大規模ビジュアル言語モデル)で使用されている 224 解像度と比較して、Qwen-VL は最初のオープンソース 448 解像度 LVLM モデルです。解像度を高くすると、きめ細かいテキスト認識、ドキュメントの質問への回答、検出ボックスの注釈付けが向上します。

シナリオの面では、Qwen-VL は、知識質疑応答、画像質疑応答、ドキュメント質疑応答、きめ細かい視覚的ポジショニングなどのシナリオで使用できます。

例えば、中国語が読めない外国人の友人が病院で治療を受ける際、ナビゲーションマップを見て混乱し、対応する科にどうやって行けばよいか分からなくなった場合、地図と質問を直接Qwen-VLに投げて、画像情報に基づいて翻訳させることができます。

複数の画像の入力と比較をテストしてみましょう。

アーニャだとは分かりませんでしたが、私の感情的な判断はかなり正確でした(犬の頭)。

視覚的な位置決め機能に関しては、画像が非常に複雑で多くのキャラクターが含まれている場合でも、Qwen-VL は要求に応じてハルクとスパイダーマンを正確に見つけることができます。

技術的な詳細について言えば、Qwen-VL は Qwen-7B に基づく言語モデルです。モデル アーキテクチャにビジュアル エンコーダ ViT を導入し、位置認識ビジュアル言語アダプターを介して 2 つを接続することで、モデルがビジュアル信号入力をサポートするようになります。

具体的なトレーニングプロセスは、次の 3 つのステップに分かれています。

  • 事前トレーニング: ビジュアル エンコーダーとビジュアル言語アダプターのみを最適化し、言語モデルを固定します。大規模な画像とテキストのペアリングデータを使用する場合、入力画像の解像度は 224 x 224 です。
  • マルチタスク事前トレーニング: マルチタスク共同事前トレーニング用に、VQA、テキスト VQA、参照理解などの高解像度 (448x448) のマルチタスク視覚言語データを導入します。
  • 教師あり微調整: ビジュアル エンコーダーをフリーズし、言語モデルとアダプターを最適化します。プロンプトは会話インタラクション データを使用して調整され、インタラクティブ機能を備えた最終的な Qwen-VL-Chat モデルが得られます。

研究者らは、マルチモーダルタスクの 4 つの主要カテゴリ (ゼロショット キャプション/VQA/DocVQA/グラウンディング) の標準的な英語評価で Qwen-VL をテストしました。

結果は、Qwen-VL が同じサイズのオープンソース LVLM の中で最良の結果を達成することを示しています。

さらに、研究者らは、GPT-4 スコアリング メカニズムに基づいたテスト セットTouchStone を構築しました。

この比較テストでは、Qwen-VL-Chat が SOTA を達成しました。

Qwen-VL に興味がある方は、Moda コミュニティと huggingface でデモを入手できます。リンクは記事の最後にあります。

Qwen-VLは研究者や開発者による二次開発をサポートしており、商用利用も可能となっています。ただし、商用利用の場合は事前にアンケート申請書に記入する必要があるので注意が必要です。

プロジェクトリンク: https://modelscope.cn/models/qwen/Qwen-VL/summary
https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary
https://huggingface.co/Qwen/Qwen-VL
https://huggingface.co/Qwen/Qwen-VL-Chat
https://github.com/QwenLM/Qwen-VL

論文アドレス: https://arxiv.org/abs/2308.12966

<<: 

>>:  致命的な幻覚問題、GPU 代替品の開発、大規模モデルが直面するその他の 10 の課題

ブログ    

推薦する

メタバースは過大評価されてきたが、2050年までにAIによって現実のものとなる

メタバースの概念が誇張され、まるでそれが本当に存在するかのように人々が話していることは間違いありませ...

前進を続けましょう: TensorFlow 2.4 の新機能を見てみましょう。

TensorFlow 2.4 が利用可能になりました!このリリースには、新しい機能、パフォーマンス...

CCS Insight の予測: 生成 AI は 2024 年までに人気がなくなる

あるアナリスト会社は、生成型AIという熱狂的な分野にとって来年は現実を突きつけられる年になると予測し...

Python による画像前処理の完全ガイド

機械学習やコンピューター ビジョンのプロジェクトで、画像の品質が低いという問題に遭遇したことはありま...

...

...

...

効率的で正確な通関手続きのニーズを満たすために、生体認証技術がセキュリティ検査シナリオに導入されています。

空港のセキュリティは、航空機と乗客の生命と財産の安全を確保するために、爆発性、可燃性、腐食性の物品、...

目標を達成するために、Google AI は自身の体をこのように変形させました...

[[246219]]強化学習 AI がゲームをプレイすることは珍しくありません。インテリジェントエ...

...

この AI 商用リストをお見逃しなく: 生産上の問題はアプリケーションで解決できるかもしれません (続き)

[[220537]]リアム・ヘーネル編纂者:趙怡雲、江宝尚、銭天培新年を前に、温翁氏は音声認識から...

グーグルの従業員は米国の人工知能プロジェクトへの参加に反対する公開書簡を発表した。「私たちは違う」

[[225697]]最近、テクノロジーの世界で、米国防総省をも巻き込み、大きな騒動を引き起こす出来...

高度な数学に希望があります!ニューラルネットワークは1秒未満で偏微分方程式を解く

タスクの数が増えるにつれて、現在の計算方法を使用して汎用の日常的なロボットを構築するコストは法外なも...

「新しいインフラ」に注力 - Powerleader がコンピューティングパワーで人工知能を強化

「新インフラ」の7つの主要分野の一つとして、人工知能は政策推進と産業成熟度の大幅な向上の恩恵を受け、...

製造業の変革を促進、産業改革のためのAI主導ソリューション

製造業において、インダストリー 4.0 は単なる流行語ではなく、新たな現実となっています。新型コロナ...