人間の日常的なコミュニケーションでは、場面内のさまざまな領域や物体に焦点が当てられることが多く、これらの領域を話したり指さしたりすることで効率的に情報を交換することができます。この対話モードは参照対話と呼ばれます。 MLLM がこのスキルに優れていれば、多くのエキサイティングなアプリケーションが生まれるでしょう。例えば、Apple Vision Proなどの複合現実(XR)グラスに適用すると、ユーザーは視線を使って何かを指したり、AIに話しかけたりできるようになります。同時に、AI はハイライト表示などの形式を通じて特定の領域を指し示し、ユーザーとの効率的なコミュニケーションを実現することもできます。 本論文で提案されている Shikra モデルは、位置入力を理解し、位置出力を生成できる参照対話機能を MLLM に提供します。 写真
主なハイライトShikra は、ユーザーが入力したポイント/バウンディングボックスを理解し、ポイント/バウンディングボックスの出力をサポートし、人間との参照対話をシームレスに行うことができます。 Shikra は、追加の位置エンコーダ、前面/背面オブジェクト検出器、外部プラグイン モジュール、さらには追加の語彙さえも必要としない、シンプルでステッチのない設計です。 写真 上図のように、Shikraはユーザーの入力の位置づけ領域を正確に把握し、出力では入力時とは異なる領域を参照してコミュニケーションできるため、人間と同じように会話や位置づけを通じて効率的にコミュニケーションを行うことができます。 写真 上図に示すように、Shikra は LLM の基本的な常識をすべて備えているだけでなく、位置情報に基づいて推論を行うこともできます。 写真 上の画像に示すように、Shikra は画像内で何が起こっているかの詳細な説明を生成し、参照オブジェクトの正確な配置を作成できます。 Shikra は OCR データセットについて特別にトレーニングされているわけではありませんが、基本的な OCR 機能も備えています。 その他の例 写真 その他の伝統的な作業 方法モデルアーキテクチャは、ビジュアルバックボーンとしてCLIP ViT-L/14を使用し、基本言語モデルとしてVicuna-7/13Bを使用し、線形マッピングのレイヤーを使用してCLIPとVicunaの特徴空間を接続します。 Shikra は、自然言語の数字を直接使用してオブジェクトの位置を表し、[xmin、ymin、xmax、ymax] を使用して境界ボックスを表し、[xcenter、ycenter] を使用して領域の中心点を表します。領域の xy 座標は、画像サイズに応じて正規化されます。デフォルトでは、各数値の小数点以下は 3 桁になります。これらの座標は、モデルの入力シーケンスと出力シーケンスのどこにでも出現する可能性があります。座標を記録するための角括弧も文章中に自然に現れます。 実験結果Shikra は、従来の REC、VQA、キャプション タスクで優れたパフォーマンスを実現できます。同時に、位置入力の理解を必要とする PointQA-Twice や Point-V7W などの VQA タスクでも SOTA 結果が達成されました。 写真 この論文では、POPE ベンチマークを使用して、Shikra が幻覚を引き起こす程度を評価します。 Shikra は InstrcutBLIP と同等の結果を達成し、他の最近の MLLM をはるかに上回ります。 Chain of Thought (CoT) は、最終的な回答の前に推論プロセスを追加することで、LLM が複雑な QA の質問に答えられるように設計されています。この技術は、自然言語処理のさまざまなタスクで広く使用されています。ただし、マルチモーダルシナリオで CoT をどのように適用するかについては、まだ研究が必要です。特に、現在の MLLM では視覚幻覚に関する深刻な問題が依然として残っているため、CoT では幻覚を頻繁に経験し、最終的な答えの正確性に影響を及ぼします。合成データセット CLEVR での実験を通じて、この研究では、位置情報を備えた CoT を使用すると、モデルの幻覚を効果的に減らし、モデルのパフォーマンスを向上できることがわかりました。 結論はこの論文では、自然言語で空間座標を理解して出力する、Shikra と呼ばれるシンプルで統一されたモデルを紹介します。これにより、追加の語彙、位置エンコーダー、または外部プラグインを導入することなく、MLLM に人間のような参照会話機能が追加されます。 |
<<: Appleは、インダストリー4.0の発展を加速するために韓国で初の中小企業スマート製造フォーラムを開催した。
>>: マイクロソフト、AIを活用してがんの放射線治療時間を短縮:スキャン速度が2.5倍に向上、精度は90%に
ソフトバンクによる英国の半導体事業アームのエヌビディアへの660億ドルでの売却計画は、米国、英国、欧...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[191396]]カルロス・E・ペレスコンピレーション | 聖人、ワンショットオックスフォード大学...
最近、国内のインターネット大手はコミュニティグループ購入の分野で激しい競争を繰り広げており、アリババ...
[[200204]]序文自然言語処理 (略して NLP) は、コンピューターが人間の言語を処理する方...
狭義の人間とコンピュータの相互作用(ヒューマン・コンピュータ・インタラクション)であろうと、広義の人...
感情 AI、つまり感情コンピューティングは、AI の次の大きなトレンドになる可能性があります。企業は...
クラスの不均衡: 希少疾患の機械学習データセット(陽性が約 8%)があるとします。この場合、トレーニ...
2016年、著名な科学ライターでありシリコンバレーの投資家でもある呉軍氏は、大胆に次のように予測しま...
[[226981]]ディープラーニングアルゴリズムの台頭と普及により、人工知能の分野、特にコンピュー...
[[241723]]新しい技術を学ぶとき、多くの人は公式ドキュメントを読み、ビデオチュートリアルやデ...
製造業からの温室効果ガス排出を削減する方法は複数あります。 製造業におけるデジタルデータの使用による...
[[335277]]家全体のスマートホームライフが実現するまでには、まだ時間がかかりそうですが、スマ...