超人気のミニGPT-4は視覚機能が急増し、GitHubでは2万個のスターを獲得し、中国のチームによって制作されています

ターゲット検出用のGPT-4V?ネットユーザーの実地テスト：まだ準備ができていません。

検出されたカテゴリは問題ありませんが、境界ボックスのほとんどは間違った場所に配置されています。

問題ありません、誰かが助けてくれます!

数か月間、画像表示機能において GPT-4 を上回っていた mini GPT-4 が、 MiniGPT-v2にアップグレードされました。

△（左側はGPT-4Vで生成、右側はMiniGPT-v2で生成）

そして、結果は、たった 1 つの簡単な指示で達成されます: [grounding] このイメージを詳細に説明します。

それだけでなく、さまざまな視覚的なタスクも簡単に処理できます。

モデルがオブジェクトの名前を直接認識できるように、オブジェクトを丸で囲み、プロンプトワードの前に [identify] を追加します。

もちろん何もつけずに直接聞いても大丈夫ですよ〜

MiniGPT-v2 は、MiniGPT-4 (KAUST、サウジアラビアのキング・アブドラ科学技術大学) のオリジナルチームと Meta の 5 人の研究者によって開発されました。

前回 MiniGPT-4 がリリースされたとき、大きな注目を集め、しばらくの間サーバーが混雑しました。現在、GItHub プロジェクトは 22,000 以上のスターを獲得しています。

このアップグレード後、一部のネットユーザーが使い始めました〜

複数の視覚タスクのための共通インターフェース

さまざまなテキストアプリケーションの共通インターフェイスとして、ビッグモデルが一般的になっています。これに触発されて、研究チームは、画像の説明、視覚的な質問への回答など、複数の視覚タスクに使用できる統合インターフェースを構築したいと考えました。

「単一のモデルの条件下で、シンプルなマルチモーダル指示を使用してさまざまなタスクを効率的に完了するにはどうすればよいか」は、チームが解決する必要のある困難な問題になりました。

簡単に言えば、MiniGPT-v2 は、ビジュアルバックボーン、線形レイヤー、大規模言語モデルの 3 つの部分で構成されています。

このモデルは、すべてのトレーニングステージで変更されない ViT ビジュアルバックボーンに基づいています。 4つの隣接する視覚出力トークンがViTから誘導され、線形レイヤーを介してLLaMA-2言語モデル空間に投影されます。

チームは、モデルをトレーニングする際に、異なるタスクに固有の識別子を使用することを推奨しています。これにより、大規模なモデルが各タスクの指示を簡単に区別し、各タスクの学習効率を向上させることができます。

トレーニングは主に、事前トレーニング - マルチタスクトレーニング - マルチモード指示調整の 3 つの段階に分かれています。

最終的に、MiniGPT-v2 は、多くの視覚的な質問応答と視覚に基づくベンチマークにおいて、他の視覚言語一般モデルよりも優れたパフォーマンスを発揮します。

最後に、このモデルは、ターゲットオブジェクトの説明、視覚的なローカリゼーション、画像のキャプション作成、視覚的な質問への回答、指定された入力テキストからの画像オブジェクトの直接解析など、さまざまな視覚タスクを実行できます。

興味のある方は、以下のデモリンクをクリックして体験してください。

https://minigpt-v2.github.io/
https://huggingface.co/spaces/Vision-CAIR/MiniGPT-v2

論文リンク: https://arxiv.org/abs/2310.09478

GitHub リンク: https://github.com/Vision-CAIR/MiniGPT-4

<<: 大型モデルが最高95.8%の精度で「人肉検索」を実施！研究著者：OpenAIはGoogle Metaに注意喚起された

>>: Programiz: 多くの人がChatGPTを使ってプログラミングを学んでおり、Web開発分野はAIの影響を最も受けやすい

ブログ

RPAとAIを組み合わせることで、自動化の新しい世界が開かれます

ブログ

超人気のミニGPT-4は視覚機能が急増し、GitHubでは2万個のスターを獲得し、中国のチームによって制作されています

複数の視覚タスクのための共通インターフェース

時代遅れにならないで、機械学習プラットフォームこそが未来だ

世界がH100を奪い合っている！ Nvidia が GPU の優位性を達成、主任科学者が成功の 4 つの要素を明らかに

AIビッグモデルオープンソースヒーロー！ザッカーバーグ氏はLLaMAリークについて議会から質問を受けた。「慣れている」

人工知能は政治的安全保障と密接に関係している

マスク氏が「アイアンマン」のようなロボットを発売！テスラが世界最速のAIコンピューターを発表

RPAとAIを組み合わせることで、自動化の新しい世界が開かれます

推薦する

デジタルヒューマンとは何か、そしてその将来性はどのようなものでしょうか?

コードで機械の心を構築するまで、どれくらい時間がかかるのでしょうか?

アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ

AI機能をエッジに拡張する方法: ストレージが基盤となる

AIとIoTが持続可能で人間中心の建物をどのようにサポートするか

米国労働統計局は機械学習を使用してデータコーディングを自動化しています

.NET が提供する暗号化アルゴリズムの概要

人工知能技術の登場によるデジタル変革をどう理解すればよいのでしょうか?

クラウドコンピューティングと人工知能が伝統的な医学を覆すのは時間の問題だ

AIがマーケティングオーディエンスの洞察をどのように変えるのか

スタンフォード大学のAIアルゴリズムは死を予測できる！これはホスピスにとって良いことかもしれない…

今後10年間で、AIは「スモールデータ」時代の到来を告げるでしょうか?

中小企業はデータセンターの自動化によってもたらされる課題にどのように対処するのでしょうか?

人工知能とデータサイエンスに基づく実用的な分析システムの構築におけるシティバンクの実践経験