同レベルの7Bモデルを上回る! 中国のチームが大規模で高品質な画像とテキストのデータセットShareGPT4Vをオープンソース化し、マルチモーダルのパフォーマンスを大幅に向上させた。

同レベルの7Bモデルを上回る! 中国のチームが大規模で高品質な画像とテキストのデータセットShareGPT4Vをオープンソース化し、マルチモーダルのパフォーマンスを大幅に向上させた。

OpenAI は 9 月に ChatGPT に画像入力機能を追加し、ユーザーが会話に添える 1 つ以上の画像をアップロードできるようにしました。この新しい機能の背後には、OpenAI の GPT4-Vision と呼ばれる大規模なマルチモーダル (視覚言語) モデルがあります。

OpenAI が「クローズドソース」にこだわっていることから、マルチモーダル オープンソース コミュニティでは、多くの優れたマルチモーダル大規模モデルの研究成果が生まれています。たとえば、MiniGPT4 と LLaVA という 2 つの代表的な作品は、マルチモーダル対話と推論の無限の可能性をユーザーに示しています。

大規模マルチモーダル モデルの分野では、効率的なモダリティ調整が重要ですが、既存の作業におけるモダリティ調整の有効性は、大規模で高品質の「画像テキスト」データが不足していることにより制限されることがよくあります。

このボトルネックを解決するために、USTC と上海 AI ラボの研究者は最近、画期的な大規模画像およびテキスト データセットである ShareGPT4V を立ち上げました。

論文アドレス: https://arxiv.org/abs/2311.12793

デモ: https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B

プロジェクトアドレス: https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V

ShareGPT4V データセットには、世界知識、オブジェクトの属性、空間関係、芸術的評価など、多​​くの側面をカバーした 120 万件の「画像と非常に詳細なテキストの説明」データが含まれており、多様性と情報範囲の点で既存のデータを上回っています。

表1 ShareGPT4Vと主流のアノテーションデータセットの比較。 「LCS」は LAION、CC、SBU データセットを指し、「Visible」は注釈を付けたときに画像が表示されるかどうかを示し、「Avg.」はテキスト説明の英語文字の平均数を示します。

現在、このデータセットは、Hugging Face Datasets トレンドランキングで 1 位にランクされています。

データ

ShareGPT4V は、高度な GPT4-Vision モデルから取得された 100,000 個の「画像 - 非常に詳細なテキスト記述」データから派生しています。

研究者らは、さまざまな画像データソース(COCO、LAION、CC、SAMなど)から画像データを集め、各データソースに固有のプロンプトを使用してGPT4-Visionを制御し、高品質の初期データを生成しました。

下の図に示すように、GPT4-Vision モデルに「スーパーマン」の静止画を与えると、静止画内のスーパーマンのキャラクターとその俳優ヘンリー・カヴィルを正確に識別できるだけでなく、画像内のオブジェクト間の位置関係とオブジェクトの色属性を完全に分析することもできます。

図1 GPT4-Visionを使用してShareGPT4V生データを収集するフローチャート

GPT4-Vision モデルにゴッホの「種をまく人」という絵画を与えると、絵画の名前と作者を正確に識別できるだけでなく、絵画が属する芸術ジャンル、絵画の内容、絵画自体が表現した感情や考えを分析できます。

既存の画像記述データセットとより完全に比較するため。下の図では、ShareGPT4V データセット内の高品質なテキスト記述と、現在のマルチモーダル大規模モデルで使用されているデータセット内のテキスト記述を一覧表示しています。

図2. 画像とテキストの説明データの品質の比較

図からわかるように、手動で注釈が付けられた COCO データセットは正確ですが、通常は非常に短く、提供される情報は極めて限られています。

言語モデル GPT4 を使用して LLaVA データセットによって想像されるシーンの記述は、通常、境界ボックスに過度に依存し、必然的に幻覚の問題を引き起こします。たとえば、境界ボックスには 8 人の注釈が表示されますが、そのうち 2 人は電車を待っているのではなく、電車に乗っています。

第二に、LLaVA データセットは COCO の注釈情報に限定されており、通常、手動注釈に記載されていないコンテンツ (ツリーなど) が欠落しています。

それに比べて、私たちが収集した画像の説明は、包括的な説明を提供できるだけでなく、画像内の重要な情報(駅の情報や看板の文字など)を見逃す可能性も低いです。

研究者たちは、この初期データで徹底的なトレーニングを行った後、強力な画像記述モデル Share-Captioner を開発しました。このモデルを使用して、事前トレーニング用に 120 万件の高品質な「画像テキスト記述」データ ShareGPT4V-PT をさらに生成しました。

図3 データセットサイズを拡大するための画像記述モデルのフローチャート

Share-Captioner は、GPT4-Vision と同等レベルの画像説明機能を備えています。以下は、異なるソースからの同じ画像のテキスト説明です。

図4 異なる情報源からの画像の説明の比較

上の図から、Share-Captioner は画像説明タスクにおいて GPT4-Vision モデルとの差を縮めたことがわかります。大規模かつ高品質な画像とテキストデータのペアを収集するための「代替」として使用できます。

実験

研究者らは、等置換実験を通じて、教師あり微調整 (SFT) 段階における ShareGPT4V データセットの有効性を初めて完全に実証しました。

図からわかるように、ShareGPT4V データセットは、複数のアーキテクチャとパラメータ サイズを持つマルチモーダル モデルのパフォーマンスをシームレスに大幅に向上させることができます。

図5 ShareGPT4Vデータセットを使用してSFTの画像説明データを置き換えた後のモデル効果の比較

次に、研究者らは、ShareGPT4Vデータセットを事前トレーニング段階と教師あり微調整段階の両方で使用して、ShareGPT4V-7Bモデルを取得しました。

ShareGPT4V-7B は、ほとんどのマルチモーダル ベンチマークで優れた結果を達成し、すべての 7B モデル サイズで最高のパフォーマンスを達成しました。

図6 さまざまなマルチモーダルベンチマークにおけるShareGPT4V-7Bのパフォーマンス

全体として、ShareGPT4V データセットのリリースは、将来のマルチモーダル研究とアプリケーションのための新たな基盤を築きます。マルチモーダル オープンソース コミュニティでは、高品質の画像記述のための、より強力でインテリジェントなマルチモーダル モデルの開発が期待されています。

<<: 

>>:  Keras 3.0 が市場を席巻しています!この大きなアップデートではPyTorchとJAXが統合され、世界中の250万人の開発者が使用しています。

ブログ    
ブログ    
ブログ    

推薦する

人工知能は一般的な仕事に取って代わるのでしょうか?心配しないで、この機会をつかんで次の10年をリードしてください

人工知能の急速な発展により、一連の新技術が誕生しました。ロボットはますます多くのことを人間に代わって...

AIがソフトウェアエンジニアリングをどのように強化できるかについて知っておくべきことすべて

翻訳者 |李睿レビュー | Chonglou AI 拡張ソフトウェア エンジニアリングは、人工知能と...

Huaweiの「ブラックテクノロジー」がついに公開。サイバーバース以外にも重要なニュースがある

8月11日はHuawei Developer Conferenceの3日目であり、カンファレンスの議...

世界中の経営幹部の93%がAIに期待を抱いているが、65%はまだその恩恵を受けていないと答えている。

[[280194]]最近の調査、研究、予測、および AI アプリケーションの進捗状況と状況に関する...

...

北本重型トラック、易欧、松山湖材料研究所が「易本デュアルカーボン研究所」設立に向けた戦略協力協定を締結

8月4日、中国北方工業集団公司、北奔重型トラック集団有限公司、渤海、松山湖材料研究所は調印式を開催し...

Baidu CTO 王海峰氏:PaddlePaddle ディープラーニング プラットフォームは新しいインフラストラクチャの重要な部分です

産業インテリジェンスの急速かつ徹底的な進歩に伴い、人工知能インフラの構築は不可欠となっています。 5...

ビッグデータと人工知能のために生まれた新しい職業:アルゴリズム専門家

[[69076]]映画「マトリックス」でレオが銃弾の雨をかわす難しい動きを誰もが覚えているはずだ。こ...

...

コミック版:ディープラーニングって何?

Google はどのようにしてわずか数秒で Web ページ全体をさまざまな言語に翻訳するのか、ある...

デジタル変革の波の中で、車の購入もアルゴリズムの最適化に頼ることができるのでしょうか?

近年、デジタル変革の波に牽引され、自動車業界は着実な変革、アップグレード、ビジネスの再編を遂げていま...

アリババのダブル11は記録破りであるだけでなく、AIショーでもある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

人工知能搭載の携帯電話は私たちの生活をどのように変えるのでしょうか? 携帯電話メーカーが何をしてきたか見てみましょう。

チャットができる「インテリジェント音声アシスタント」から、さまざまな家電を操作できるスマートスピーカ...