方向を理解し、座標を伝える、Shikraはマルチモーダルな大規模モデル参照ダイアログの新しい次元を開きます

方向を理解し、座標を伝える、Shikraはマルチモーダルな大規模モデル参照ダイアログの新しい次元を開きます

人間の日常的なコミュニケーションでは、場面内のさまざまな領域や物体に焦点が当てられることが多く、これらの領域を話したり指さしたりすることで効率的に情報を交換することができます。この対話モードは参照対話と呼ばれます。

MLLM がこのスキルに優れていれば、多くのエキサイティングなアプリケーションが生まれるでしょう。例えば、Apple Vision Proなどの複合現実(XR)グラスに適用すると、ユーザーは視線を使って何かを指したり、AIに話しかけたりできるようになります。同時に、AI はハイライト表示などの形式を通じて特定の領域を指し示し、ユーザーとの効率的なコミュニケーションを実現することもできます。

本論文で提案されている Shikra モデルは、位置入力を理解し、位置出力を生成できる参照対話機能を MLLM に提供します。

写真

  • 論文アドレス: http://arxiv.org/abs/2306.15195
  • コードアドレス: https://github.com/shikras/shikra

主なハイライト

Shikra は、ユーザーが入力したポイント/バウンディングボックスを理解し、ポイント/バウンディングボックスの出力をサポートし、人間との参照対話をシームレスに行うことができます

Shikra は、追加の位置エンコーダ、前面/背面オブジェクト検出器、外部プラグイン モジュール、さらには追加の語彙さえも必要としない、シンプルでステッチのない設計です

写真

上図のように、Shikraはユーザーの入力の位置づけ領域を正確に把握し、出力では入力時とは異なる領域を参照してコミュニケーションできるため、人間と同じように会話や位置づけを通じて効率的にコミュニケーションを行うことができます

写真

上図に示すように、Shikra は LLM の基本的な常識をすべて備えているだけでなく、位置情報に基づいて推論を行うこともできます。

写真

上の画像に示すように、Shikra は画像内で何が起こっているかの詳細な説明を生成し、参照オブジェクトの正確な配置を作成できます。

Shikra は OCR データセットについて特別にトレーニングされているわけではありませんが、基本的な OCR 機能も備えています。

その他の例

写真

その他の伝統的な作業


方法

モデルアーキテクチャは、ビジュアルバックボーンとしてCLIP ViT-L/14を使用し、基本言語モデルとしてVicuna-7/13Bを使用し、線形マッピングのレイヤーを使用してCLIPとVicunaの特徴空間を接続します。

Shikra は、自然言語の数字を直接使用してオブジェクトの位置を表し、[xmin、ymin、xmax、ymax] を使用して境界ボックスを表し、[xcenter、ycenter] を使用して領域の中心点を表します。領域の xy 座標は、画像サイズに応じて正規化されます。デフォルトでは、各数値の小数点以下は 3 桁になります。これらの座標は、モデルの入力シーケンスと出力シーケンスのどこにでも出現する可能性があります。座標を記録するための角括弧も文章中に自然に現れます。

実験結果

Shikra は、従来の REC、VQA、キャプション タスクで優れたパフォーマンスを実現できます。同時に、位置入力の理解を必要とする PointQA-Twice や Point-V7W などの VQA タスクでも SOTA 結果が達成されました。

写真

この論文では、POPE ベンチマークを使用して、Shikra が幻覚を引き起こす程度を評価します。 Shikra は InstrcutBLIP と同等の結果を達成し、他の最近の MLLM をはるかに上回ります。

Chain of Thought (CoT) は、最終的な回答の前に推論プロセスを追加することで、LLM が複雑な QA の質問に答えられるように設計されています。この技術は、自然言語処理のさまざまなタスクで広く使用されています。ただし、マルチモーダルシナリオで CoT をどのように適用するかについては、まだ研究が必要です。特に、現在の MLLM では視覚幻覚に関する深刻な問題が依然として残っているため、CoT では幻覚を頻繁に経験し、最終的な答えの正確性に影響を及ぼします。合成データセット CLEVR での実験を通じて、この研究では、位置情報を備えた CoT を使用すると、モデルの幻覚を効果的に減らし、モデルのパフォーマンスを向上できることがわかりました。

結論は

この論文では、自然言語で空間座標を理解して出力する、Shikra と呼ばれるシンプルで統一されたモデルを紹介します。これにより、追加の語彙、位置エンコーダー、または外部プラグインを導入することなく、MLLM に人間のような参照会話機能が追加されます。

<<:  Appleは、インダストリー4.0の発展を加速するために韓国で初の中小企業スマート製造フォーラムを開催した。

>>:  マイクロソフト、AIを活用してがんの放射線治療時間を短縮:スキャン速度が2.5倍に向上、精度は90%に

ブログ    
ブログ    
ブログ    

推薦する

よりスケーラブルになるにはどうすればよいでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

AIが髪の毛に至るまで肖像画を生成!北京大学卒業生の最新研究が2.8千個の星を獲得

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

企業環境でのAIテクノロジーの活用

企業の世界における人工知能の利点は何でしょうか?企業分野における AI の主な利点の 1 つは、プロ...

ファイアウォールは再び進化します。よりスマートで安全になりましたか?

ハッカーがネットワーク攻撃を開始すると、まず会社のパブリック IP で SSH サービスに使用される...

マスク氏がai.comドメイン名を購入しました!ウルトラマンは数千万ドルを費やしてそれを購入し、4ヶ月でアイアンマンに売却した

ai.comドメイン名は、OpenAIが数千万ドルを費やしてマスク氏に購入された。これで、URL a...

Jupyter のアップグレード: さまざまな大規模モデルを接続し、コードを生成し、チャットを通じてエラーを修正できます

これで、大規模言語モデル (LLM) が Jupyter に接続されました。これは主に、Projec...

LangChain と Pinecone ベクトル データベースを使用してカスタム Q&A アプリケーションを構築する

LangChain、OpenAI、PineconeDB を使用して、任意のデータ ソースから質問応答...

...

Action Bagelは人工知能技術を組み合わせてインテリジェントな分析エンジンを作成します

[51CTO.com からのオリジナル記事] インターネットの継続的な更新と反復により、ネットワーク...

...

世界経済フォーラムの報告: 5年以内に8,500万の仕事が機械に置き換えられる可能性がある

世界経済フォーラム(WEF)のウェブサイトが21日に報じたところによると、同組織はこのほど「仕事の未...

...

LSTM、GRU、ニューラルチューリングマシン: ディープラーニングで最も人気のあるリカレントニューラルネットワークの詳細な説明

リカレント ニューラル ネットワーク (RNN) は、ネットワークに追加の重みを追加してネットワーク...

機械学習の落とし穴を避ける: データはアルゴリズムよりも重要

ユーザー行動分析とネットワーク脅威検出、新たな波が起こり続けています。セキュリティ データ分析は、状...