方向を理解し、座標を伝える、Shikraはマルチモーダルな大規模モデル参照ダイアログの新しい次元を開きます

方向を理解し、座標を伝える、Shikraはマルチモーダルな大規模モデル参照ダイアログの新しい次元を開きます

人間の日常的なコミュニケーションでは、場面内のさまざまな領域や物体に焦点が当てられることが多く、これらの領域を話したり指さしたりすることで効率的に情報を交換することができます。この対話モードは参照対話と呼ばれます。

MLLM がこのスキルに優れていれば、多くのエキサイティングなアプリケーションが生まれるでしょう。例えば、Apple Vision Proなどの複合現実(XR)グラスに適用すると、ユーザーは視線を使って何かを指したり、AIに話しかけたりできるようになります。同時に、AI はハイライト表示などの形式を通じて特定の領域を指し示し、ユーザーとの効率的なコミュニケーションを実現することもできます。

本論文で提案されている Shikra モデルは、位置入力を理解し、位置出力を生成できる参照対話機能を MLLM に提供します。

写真

  • 論文アドレス: http://arxiv.org/abs/2306.15195
  • コードアドレス: https://github.com/shikras/shikra

主なハイライト

Shikra は、ユーザーが入力したポイント/バウンディングボックスを理解し、ポイント/バウンディングボックスの出力をサポートし、人間との参照対話をシームレスに行うことができます

Shikra は、追加の位置エンコーダ、前面/背面オブジェクト検出器、外部プラグイン モジュール、さらには追加の語彙さえも必要としない、シンプルでステッチのない設計です

写真

上図のように、Shikraはユーザーの入力の位置づけ領域を正確に把握し、出力では入力時とは異なる領域を参照してコミュニケーションできるため、人間と同じように会話や位置づけを通じて効率的にコミュニケーションを行うことができます

写真

上図に示すように、Shikra は LLM の基本的な常識をすべて備えているだけでなく、位置情報に基づいて推論を行うこともできます。

写真

上の画像に示すように、Shikra は画像内で何が起こっているかの詳細な説明を生成し、参照オブジェクトの正確な配置を作成できます。

Shikra は OCR データセットについて特別にトレーニングされているわけではありませんが、基本的な OCR 機能も備えています。

その他の例

写真

その他の伝統的な作業


方法

モデルアーキテクチャは、ビジュアルバックボーンとしてCLIP ViT-L/14を使用し、基本言語モデルとしてVicuna-7/13Bを使用し、線形マッピングのレイヤーを使用してCLIPとVicunaの特徴空間を接続します。

Shikra は、自然言語の数字を直接使用してオブジェクトの位置を表し、[xmin、ymin、xmax、ymax] を使用して境界ボックスを表し、[xcenter、ycenter] を使用して領域の中心点を表します。領域の xy 座標は、画像サイズに応じて正規化されます。デフォルトでは、各数値の小数点以下は 3 桁になります。これらの座標は、モデルの入力シーケンスと出力シーケンスのどこにでも出現する可能性があります。座標を記録するための角括弧も文章中に自然に現れます。

実験結果

Shikra は、従来の REC、VQA、キャプション タスクで優れたパフォーマンスを実現できます。同時に、位置入力の理解を必要とする PointQA-Twice や Point-V7W などの VQA タスクでも SOTA 結果が達成されました。

写真

この論文では、POPE ベンチマークを使用して、Shikra が幻覚を引き起こす程度を評価します。 Shikra は InstrcutBLIP と同等の結果を達成し、他の最近の MLLM をはるかに上回ります。

Chain of Thought (CoT) は、最終的な回答の前に推論プロセスを追加することで、LLM が複雑な QA の質問に答えられるように設計されています。この技術は、自然言語処理のさまざまなタスクで広く使用されています。ただし、マルチモーダルシナリオで CoT をどのように適用するかについては、まだ研究が必要です。特に、現在の MLLM では視覚幻覚に関する深刻な問題が依然として残っているため、CoT では幻覚を頻繁に経験し、最終的な答えの正確性に影響を及ぼします。合成データセット CLEVR での実験を通じて、この研究では、位置情報を備えた CoT を使用すると、モデルの幻覚を効果的に減らし、モデルのパフォーマンスを向上できることがわかりました。

結論は

この論文では、自然言語で空間座標を理解して出力する、Shikra と呼ばれるシンプルで統一されたモデルを紹介します。これにより、追加の語彙、位置エンコーダー、または外部プラグインを導入することなく、MLLM に人間のような参照会話機能が追加されます。

<<:  Appleは、インダストリー4.0の発展を加速するために韓国で初の中小企業スマート製造フォーラムを開催した。

>>:  マイクロソフト、AIを活用してがんの放射線治療時間を短縮:スキャン速度が2.5倍に向上、精度は90%に

ブログ    
ブログ    
ブログ    

推薦する

自動運転の運用設計領域(ODD)に関する記事

2021年4月30日、SAEはJ3016「運転自動化分類」の第4版をリリースしました。これは、201...

AI検出器の仕組みの概要​

翻訳者 | 劉涛レビュー | Chonglou AI ライティング検出器を使用したことがあるかもしれ...

2023 年の 5 つの驚くべき自動化の進歩

自動化は、業界やプロセスの変革の原動力となり、効率性、コスト効率、エラーの低減を実現しています。 2...

AIアルゴリズムの包囲とフードデリバリー業者の「ブレイクアウト」

システムに閉じ込められた配達員たちは反撃している。最近、海外のテクノロジーメディアWiredは、プラ...

AIの「ショートカット」がシミュレーションを数十億倍高速化

[[314916]]シミュレーターは、NASA がエアロゾル モデルを使用してオーストラリアの火災に...

顔認識の応用シナリオは拡大し続けています。顔スキャンは便利で安全である必要があります。

[[341456]]顔スキャンでロック解除、顔スキャンで支払い、顔スキャンでキャンパスに入る......

大規模言語モデルによる金融市場の予測

大規模言語モデル (LLM) は、数百万または数十億のパラメータを持つ人工ニューラル ネットワークで...

ブースティングとバギング: 堅牢な機械学習アルゴリズムを開発する方法

導入機械学習とデータ サイエンスでは、単にデータを Python ライブラリに投入してその結果を活用...

FPSからRTSまで、ゲーム人工知能におけるディープラーニングアルゴリズムの概要記事

この論文では、ビデオゲームをプレイするためのディープラーニングアルゴリズムをレビューし、さまざまな種...

WPS AIは正式に公開され、WPSスマートドキュメントに初めて適用されました。

9月5日、Kingsoft OfficeはWPS AIを正式に公開したと発表しました。AI機能はま...

人工知能の台頭は難しく、普通のAI開発者が普及する

[[241542]] Forbes によれば、FORTRAN のパンチカードから Go を使用した分...

Appleは、来年の製品発売を目標に、独自の大規模モデルフレームワークをベースにしたApple GPTを秘密裏に開発していると噂されている。

Apple の大規模言語モデルと AI チャットボットに関する最新ニュースが届きました。本日、ブル...

プライベート写真100億枚が流出! Clearview AIバイオメトリクスがあなたを監視しています

米国に拠点を置く顔認識企業 Clearview Ai は、最も包括的な顔認識システムを有していると主...

中国と米国の間で技術冷戦が勃発するだろうか?人工知能は「引き金」

現在、米国は人工知能分野で世界をリードしているが、中国も急速に追い上げており、中国がその主導的能力を...

人工知能との競争において、カスタマーサービスと宅配業者が勝つ可能性はどれくらいでしょうか?

[[409291]]労働日報記者 イェ・ユン・チェン・ニン 写真家 チェン・ニン編集者注人工知能(...