7BモデルはGPT4-Vを超えます! HKUST などが「グラフ推論質問回答」データセットを公開 GITQA: 視覚的なグラフは推論能力を向上させることができます

7BモデルはGPT4-Vを超えます! HKUST などが「グラフ推論質問回答」データセットを公開 GITQA: 視覚的なグラフは推論能力を向上させることができます

グラフ ニューラル ネットワーク (GNN) は、グラフの構造情報を推論に活用するのに優れていますが、通常、最高のパフォーマンスを達成するにはドメイン固有の調整が必要であり、さまざまなタスク間での一般化を妨げます。

対照的に、大規模言語モデル (LLM) に基づくグラフ推論は、クロスタスク機能と一般化機能が強力ですが、特定のタスクでのパフォーマンスは専用のグラフ ニューラル ネットワーク モデルよりも劣ることがよくあります。

グラフニューラルネットワークによって表現される従来のグラフ推論であれ、大規模言語モデルに基づく新しいグラフ推論であれ、グラフ推論に関する現在の研究では、視覚モダリティのグラフ情報は無視されてきました。

しかし、人間は、グラフにサイクルがあるかどうかを判断するなどの視覚的な特徴を通じて、グラフタスクを効率的かつ正確に完了することができます。

したがって、グラフ推論における視覚グラフ情報の役割を探ることは非常に重要です。

もっと具体的に言うと、グラフを画像として描画することで、モデルに特別な推論機能を与えることができるのでしょうか?これらの画像 (ビジュアル グラフと呼ばれる) は、他のモダリティに基づく既存のグラフ推論モデルを強化できますか?

これらの疑問に答えるために、香港科技大学と南方科技大学の研究チームは、ビジュアルグラフを含む初の推論質問応答データセットGITQAを構築し、GPT-4 turbo、GPT-4VなどのオープンソースモデルとVicunaやLLaVAなどのクローズドソースモデルで広範な実験を実施し、グラフ推論におけるビジュアルグラフの役割と、テキストモダリティとどのように相互に強化できるかを確認しました。

写真

論文アドレス: https://arxiv.org/abs/2402.02130

プロジェクトホームページ: https://v-graph.github.io/

GITQAテストベンチマークでは、LLaVA-7B/13Bをベースに微調整されたマルチモーダルモデルGITA-7B/13Bが、GPT-4Vを上回るグラフ推論性能を発揮しました。

GITQA マルチモーダルグラフ推論質問応答データセット

研究チームは、グラフ構造をさまざまなスタイルの視覚画像に描画することで、GITQA データセットとそれに対応するテスト ベンチマークを確立しました。GITQA データセットには 423,000 を超える質問応答インスタンスが含まれており、それぞれに対応するグラフ構造、テキスト、視覚情報、および対応する質問と回答のペアが含まれています。

GITQA データセットには、GITQA-Base と GITQA-Aug の 2 つのバージョンが含まれており、GITQA-Base には単一のスタイルの視覚イメージのみが含まれています。

GITQA-Aug はさらに豊富です。レイアウト、ポイントの形状、エッジの幅、ポイントのスタイルの変更など、ビジュアル グラフ上でさまざまなデータ拡張プロセスを実行し、より多様なビジュアル グラフ表現を提供します。

写真

図 1 に示すように、GITQA テスト ベンチマークには、Connectivity (グラフ内の 2 つのポイントが接続されているかどうかを判断)、Cycle (グラフにサイクルがあるかどうかを判断)、TS (グラフのトポロジカル順序を見つける)、SP (グラフ内の 2 つのポイント間の最短パスを見つける)、MaxFlow (グラフ内の 2 つのポイント間の最大フロー計算)、BGM (2 部グラフの最大マッチング計算)、HP (グラフ内のハミルトン パスを見つける)、および GNN (GNN メッセージ パッシングのシミュレート) という 8 つの代表的なグラフ推論タスクが含まれています。

写真

各タスクに対応するデータセットは、グラフ構造の複雑さに応じて、異なる難易度のサブセットに分割されます (関連する統計は表 1 に示されています)。

実験と結果

実験1: 異なるモーダルグラフ情報に基づくモデルのグラフ推論能力の比較

研究チームは、テキストのみ (T-Only)、ビジョンのみ (V-Only)、テキストとビジョン (V+T) を含むさまざまなモーダルグラフ入力タイプに基づいて、GITQA-Base データセットで一般的なクローズドソースおよびオープンソースの大規模言語モデル (GPT-4 turbo や Vicuna-7B/13B など) と大規模マルチモーダル言語モデル (GPT-4V や LLaVA-7B/13B など) のパフォーマンスを評価しました。図2に示すように。

写真

具体的には、クローズドソースモデルのGPT-4とGPT-4Vはゼロショット推論を実行しますが、オープンソースモデルのVicunaとLLaVAについては、バックボーンモデルのパラメータを変更せずにプロジェクターとLoRA部分のみをトレーニングすることで微調整されます(特に、ビジュアル+テキストバイモーダル微調整後のLLaVAモデルは、研究者によってGITAと名付けられています)。

表 2 は、8 つのグラフ推論タスクすべてのテスト結果をまとめたものです。

写真

視覚的モダリティとテキスト的モダリティ

表 2 からわかるように、視覚モダリティは、Cycle タスクと BGM タスクではテキスト モダリティよりもパフォーマンスが優れていますが、他の 5 つのタスクではテキスト モダリティよりもパフォーマンスが劣っています。これは、視覚とテキストがそれぞれ特定の種類のグラフ推論タスクを処理する上で独自の強みを持っていることを示しています。視覚とテキストのモダリティの相互強化

クローズドソースモデルの場合、GPT-4V (V+T) は、8 つのタスクで GPT-4 Turbo (T のみ) および GPT-4V (V のみ) よりも平均精度がはるかに高くなります。

オープンソース モデル (7B、13B) の場合も、バイモーダル データを使用してトレーニングされた GITA モデルが平均して最高のパフォーマンスを発揮します。これらの観察により、視覚情報とテキスト情報の両方を使用すると、モデルのグラフ推論機能が強化され、単一モーダル モデルよりも優れたパフォーマンスを実現できることが証明されました。

具体的には、GITA-7B (V+T) は、ほぼすべてのタスクにおいて LLaVA-7B (V-only) および Vicuna-7B (T-only) よりも優れたパフォーマンスを発揮します。クローズドソース モデルの場合、バイモダリティを使用すると、8 つのタスクのうち 5 つで最高の精度が達成されます。微調整されたLLaVAモデルはGPT-4Vを上回る性能を発揮する

表 2 と図 3 に示すように、GITA-7B および GITA-13B モデル、つまりバイモーダル微調整された LLaVA-7B/13B モデルは、GPT-4V に比べて 13% を超える大幅なパフォーマンス向上を示しています。この大幅な改善は、微調整された GITA モデルが GITQA データセットから優れたグラフ推論機能を効果的に学習できることを示しています。

写真

実験2: グラフ課題における難易度の影響

表 3 には、さまざまな難易度レベルでのモデルのテスト精度も示されています (GNN タスクはすべてのモデルにとって難しすぎるため省略されています)。

すべての難易度のサイクル タスクと BGM タスクの両方において、視覚モダリティのみを使用するとテキスト モダリティよりもパフォーマンスが優れており、両方のモダリティを使用する場合と同等です。

ただし、他のタスクでは、難易度が簡単から中程度または困難に増加すると、視覚モダリティのみを使用するモデルのパフォーマンスが大幅に低下します。

写真

同様に、テキスト モダリティのみを使用するモデルや、ビジュアル + テキスト モダリティを使用するモデルでも、難易度が増すにつれてこれらのタスクでパフォーマンスが大幅に低下します。

接続性タスクでは、GITA-7B (ビジョン + テキスト) と GITA-13B (ビジョン + テキスト) は、3 つのチャレンジ レベルすべてで同等のパフォーマンスを示します。

ただし、GPT-4V (Vision+Text) ではこの一貫したパターンは見られず、難易度が上がるにつれてパフォーマンスが低下します。

実験3: 視覚イメージ強化戦略とスタイルの好み

研究チームは、モデルを微調整する際に特定のデータ拡張戦略の効果についても調査しました。

研究者は、さまざまな強化戦略に基づいて、GITQA-Aug データセットを、レイアウト強化データセット、ノード形状強化データセット、エッジ幅強化データセット、ノード スタイル強化データセットの 4 つの強化サブセットに分割しました。

写真

研究者らは、視覚的なグラフ情報のみを使用して、LLaVA-7B モデル上で 4 つの拡張サブセットすべてを個別に微調整し、データ拡張前の推論パフォーマンスとの比較を表 4 に示します。

レイアウト拡張データセットでの困難なタスクに対するモデルの推論能力が劇的に向上したことがはっきりとわかります (SP は 64.8% 増加し、HP は 69.63% 増加しました)。

他の 3 つのデータ拡張戦略はパフォーマンスの低下につながります。

具体的には、当社のモデルはレイアウト拡張セットで優れた結果を達成し、GITQA-Base セットを 11% 以上上回りました。比較すると、他の拡張セットの 8 つのタスクの平均結果は、基本セットの結果よりも約 5% 低くなります。

写真

これらの調査結果は、レイアウトベースのデータ拡張がグラフ推論に対してより効果的な視覚的視点を提供することを示唆しています。さらに、研究者らは、表 5 に示すように、さまざまな強化戦略の下で、同じグループ内の各スタイルに基づくビジュアル グラフ推論のパフォーマンスもテストし、モデルに明らかなスタイルの好みがないことを実証しました。

<<:  53ページのPDFがOpenAIの「AGIタイムライン」を公開、内部告発者:マスクの訴訟が状況を混乱させた

>>: 

ブログ    
ブログ    

推薦する

機械学習について学びたい方はこちらをご覧ください。1ステップで専門家になる方法をお教えします!

パターン認識や機械学習のファンであれば、機械学習では避けられない重要な問題であるサポートベクターマシ...

自動運転シミュレーションテスト技術は実際の街頭シーンをシミュレートできる

[[262014]]自動運転は近年注目されている研究開発プロジェクトです。市場に投入される前にシミュ...

ディープラーニングを使用してXSSを検出する方法

1. はじめに周知のとおり、ディープラーニングはコンピュータービジョン、自然言語処理、人工知能などの...

Appleが自社チップ用のオープンソースフレームワークMLXを開発、Llama 7Bを実装しM2 Ultraで動作

2020年11月、Appleは速度と強力な機能の点で驚異的なM1チップを発売しました。 2022年に...

顔スキャンの時代、顔認識起業家の進むべき道

[[205201]] 9月26日、北京市内の中学校で、顔認証システムで本人確認がされた受験者が模擬試...

AmazonがTitanシリーズのAIモデルを発売:画像やテキストを生成でき、価格と性能のバランスが取れていると主張

アマゾンは12月1日、昨日のre:Inventカンファレンスで、アマゾン初の画像生成モデル「Tita...

...

Objective-C でのソートアルゴリズムを学ぶ

データ構造とアルゴリズムを学習していたとき、ソートアルゴリズムをアニメーションで表現して、理解しやす...

70年前、彼は試験を避けたかったが、インターネット全体に影響を与えた

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

1 つのバグが原因で 200 億ドルの損失が発生しました。ビジネス異常検出システムを構築するにはどうすればよいでしょうか?

【51CTO.comオリジナル記事】 1. AI ビジネス異常検出システムが必要な理由企業は、業務...

...

...

Java でよく使われる 7 つのソート アルゴリズムの概要

しばらく時間が空いたので、Java でよく使われる 7 つのソート アルゴリズムをまとめてみました。...

...

人工知能技術は人間の生活にどのような影響を与えるのでしょうか?

[[349271]]人工知能と産業の組み合わせは、中国市場の爆発的な成長を促進し、中国のモバイルイ...