ターゲット検出用のGPT-4V?ネットユーザーの実地テスト:まだ準備ができていません。 検出されたカテゴリは問題ありませんが、境界ボックスのほとんどは間違った場所に配置されています。 問題ありません、誰かが助けてくれます! 数か月間、画像表示機能において GPT-4 を上回っていた mini GPT-4 が、 MiniGPT-v2にアップグレードされました。 △(左側はGPT-4Vで生成、右側はMiniGPT-v2で生成) そして、結果は、たった 1 つの簡単な指示で達成されます: [grounding] このイメージを詳細に説明します。 それだけでなく、さまざまな視覚的なタスクも簡単に処理できます。 モデルがオブジェクトの名前を直接認識できるように、オブジェクトを丸で囲み、プロンプトワードの前に [identify] を追加します。 もちろん何もつけずに直接聞いても大丈夫ですよ〜 MiniGPT-v2 は、MiniGPT-4 (KAUST、サウジアラビアのキング・アブドラ科学技術大学) のオリジナル チームと Meta の 5 人の研究者によって開発されました。 前回 MiniGPT-4 がリリースされたとき、大きな注目を集め、しばらくの間サーバーが混雑しました。現在、GItHub プロジェクトは 22,000 以上のスターを獲得しています。 このアップグレード後、一部のネットユーザーが使い始めました〜 複数の視覚タスクのための共通インターフェースさまざまなテキスト アプリケーションの共通インターフェイスとして、ビッグ モデルが一般的になっています。これに触発されて、研究チームは、画像の説明、視覚的な質問への回答など、複数の視覚タスクに使用できる統合インターフェースを構築したいと考えました。 「単一のモデルの条件下で、シンプルなマルチモーダル指示を使用してさまざまなタスクを効率的に完了するにはどうすればよいか」は、チームが解決する必要のある困難な問題になりました。 簡単に言えば、MiniGPT-v2 は、ビジュアル バックボーン、線形レイヤー、大規模言語モデルの 3 つの部分で構成されています。 このモデルは、すべてのトレーニング ステージで変更されない ViT ビジュアル バックボーンに基づいています。 4つの隣接する視覚出力トークンがViTから誘導され、線形レイヤーを介してLLaMA-2言語モデル空間に投影されます。 チームは、モデルをトレーニングする際に、異なるタスクに固有の識別子を使用することを推奨しています。これにより、大規模なモデルが各タスクの指示を簡単に区別し、各タスクの学習効率を向上させることができます。 トレーニングは主に、事前トレーニング - マルチタスクトレーニング - マルチモード指示調整の 3 つの段階に分かれています。 最終的に、MiniGPT-v2 は、多くの視覚的な質問応答と視覚に基づくベンチマークにおいて、他の視覚言語一般モデルよりも優れたパフォーマンスを発揮します。 最後に、このモデルは、ターゲット オブジェクトの説明、視覚的なローカリゼーション、画像のキャプション作成、視覚的な質問への回答、指定された入力テキストからの画像オブジェクトの直接解析など、さまざまな視覚タスクを実行できます。 興味のある方は、以下のデモ リンクをクリックして体験してください。 https://minigpt-v2.github.io/ 論文リンク: https://arxiv.org/abs/2310.09478 GitHub リンク: https://github.com/Vision-CAIR/MiniGPT-4 |
<<: 大型モデルが最高95.8%の精度で「人肉検索」を実施!研究著者:OpenAIはGoogle Metaに注意喚起された
>>: Programiz: 多くの人がChatGPTを使ってプログラミングを学んでおり、Web開発分野はAIの影響を最も受けやすい
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[283929]] 図: T11 2019 データインテリジェンステクノロジーサミット現在、データ...
データ準備の最も一般的なアプローチは、データセットを調査し、機械学習アルゴリズムの期待値を確認し、最...
自動車業界から大きな注目を集めるアポロオープンプラットフォームは、新たな量産時代を迎えました。 7月...
人工知能は常にコンピュータ技術の最前線にあり、人工知能研究の理論と発見はコンピュータ技術の発展の方向...
人工知能は、機械内で知的な行動や人間のように考える能力をシミュレートすることで、ヘルスケア、自動車、...
進化する人工知能により、電子商取引分野におけるウェブサイトのアクセシビリティ訴訟のリスクを最小限に抑...
顔検出は、幅広いアプリケーションと多くの研究者を抱えるコンピューター ビジョンの古くからのトピックで...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[243140]] 1. 背景2017年6月に電子商取引認知マップが発表されて以来、実践から体系...
MITの研究者らは機械学習アルゴリズムを使用して、複数回の実験で強力な殺菌力を示したハリシンと呼ばれ...