私の目が支配者です! 80億のパラメータを備えたOtterHDは、清明節のラクダを数えるのに役立ちます。南洋理工大学の中国チームによって作成されました

私の目が支配者です! 80億のパラメータを備えたOtterHDは、清明節のラクダを数えるのに役立ちます。南洋理工大学の中国チームによって作成されました

「清明節の河沿い」には何頭のラクダがいるか知りたいですか? UHD 入力をサポートするこのマルチモーダル モデルをご覧ください。

最近、南洋理工大学の中国チームが、Fuyu-8Bをベースにした80億のパラメータを持つ大規模なマルチモーダルモデル「OtterHD」を作成した。

論文アドレス: https://arxiv.org/abs/2311.04219

固定サイズのビジュアル エンコーダーに限定される従来のモデルとは異なり、OtterHD-8B は柔軟な入力サイズを処理できるため、さまざまな推論ニーズに合わせて汎用性を確保できます。

同時に、研究チームは、大きな画像内の物体の細部や空間関係を区別する LLM の能力を慎重に評価できる新しいベンチマーク テスト「MagnifierBench」も提案しました。

結果は、OtterHD-8B が、特に高解像度の入力を直接処理する場合に、同様のモデルよりも大幅に優れたパフォーマンスを発揮することを示しています。

効果のデモンストレーション

下の図に示すように、清明上河図(部分)にはラクダが何頭いるかを尋ねたところ、画像入力は2446x1766ピクセルに達し、モデルは正常に回答することができました。

かつて GPT4-V が悩まされたリンゴを数える問題に直面したモデルは、11 個のリンゴをうまく数えることに成功しました。


論文で紹介されている高精細入力の例に加えて、いくつかのテストも実施しました。下の図では、モデルにユーザーがケンブリッジ大学の博士号取得者であると想定させています。この図が何を意味するのか説明してください。

モデルの回答は、画像内のブラックホールとホワイトホールを正確に特定し、それがトンネルのような構造であることを認識し、詳細な説明をしました。

下の図では、モデルは図内のエネルギーの割合を説明するように求められています。モデルは、図内のいくつかの種類のエネルギーと、それらの割合が時間の経過とともにどのように変化するかを正確に識別します。

次の図は電球の交換に関するフローチャートです。モデルはフローチャートの意味を正確に理解し、詳細な手順を段階的に説明します。

OtterHD-8Bを微調整するための80億のパラメータ命令

特に、Fuyu-8B ベースの OtterHD-8B は、最大 1024×1024 の入力でトレーニングされた最初のオープンソースの命令ベースの微調整大規模言語モデルです。

さらに、推論中にさらに大きな解像度(1440×1440 など)に拡張することもできます。

トレーニングの詳細

予備実験では、チームは、Fuyu がいくつかのベンチマークで特定の命令に対する応答のパフォーマンスが低く、その結果、MME および MMBench でのモデルのパフォーマンスが非常に低くなることを発見しました。

これらの問題に対処するため、研究チームは 37 万件の混合データに基づいて Fuyu モデルを微調整し、同様の指示テンプレートを使用して、LLaVA-1.5 を参照してモデルの回答の形式を標準化しました。

トレーニング フェーズでは、すべてのデータセットがコマンド/レスポンスのペアに編成され、統合されたデータローダーに集約され、代表的な完全性を確保するために均一にサンプリングされます。

モデリング コードを強化するために、チームは FlashAttention-2 および FlashAttention ライブラリの演算子融合技術を使用しました。

図 2 に示すように、Fuyu の簡素化されたアーキテクチャのおかげで、これらの変更により GPU の使用率とスループットが大幅に向上します。

具体的には、チームが提案した方法では、8×A100 GPU で 3 時間/エポックの速度で完全なパラメータ トレーニングを完了できますが、LoRA では微調整後、エポックあたり 1 時間しかかかりません。

AdamW オプティマイザーを使用してモデルをトレーニングする場合、バッチ サイズは 64、学習率は 1×10^-5、重み減衰は 0.1 に設定されます。

拡大鏡ベンチ

人間の視覚システムは、視野内の物体の詳細を自然に認識できますが、LMM をテストするために使用される現在のベンチマークは、この能力の評価に特に焦点を当てていません。

Fuyu および OtterHD モデルの登場により、入力画像の解像度を初めてはるかに広い範囲に拡張できるようになりました。

この目的のために、チームは Panoptic Sc​​ene Graph Generation (PVSG) データセットに基づいて、166 枚の画像と合計 283 セットの質問をカバーする新しいテスト ベンチマーク MagnifierBench を作成しました。

PVSG データセットは、特に一人称の家事ビデオなど、雑然とした複雑なシーンが多数含まれるビデオ データで構成されています。

注釈付けの段階で、チームはデータセット内のすべての質問と回答のペアを注意深く調べ、大きなオブジェクトが関係するものや常識的な知識で簡単に答えられるものを排除しました。たとえば、リモコンのほとんどは黒色なので、簡単に推測できますが、赤や黄色などの色は含まれていません。

図 3 に示すように、MagnifierBench によって設計された質問の種類には、認識、数字、色に関する質問が含まれます。データセットの重要な基準は、質問が十分に複雑で、注釈者が質問に正確に回答するにはフルスクリーン モードで作業し、画像を拡大する必要があることです。

短い回答と比較して、LMM は会話の設定で拡張された回答を生成するのに優れています。

- 複数選択問題

ここで、モデルは質問と複数の回答オプションに直面します。モデルが単一の文字(A、B、Cなど)で回答するように誘導するために、チームは質問の前にヒントとして「回答」の指示の前に、与えられた選択肢の文字を直接追加しました。この場合、正しい選択肢に完全に一致する回答のみが正確な回答とみなされます。

- 未解決の質問

ランダムに推測すると正解になる確率が 25% になるため、複数のオプションがあるとタスクが簡単になります。さらに、ユーザーは通常、モデルに事前定義されたオプションを提供しないため、これはチャット アシスタントが直面する実際のシナリオを反映していません。この潜在的なバイアスを排除するために、チームは、プロンプトオプションを使用せずに、モデルに対して率直で自由形式の質問も行いました。

実験分析

結果によると、多くのモデルが MME や POPE などの確立されたベンチマークで高いスコアを達成している一方で、MagnifierBench でのパフォーマンスは満足のいくものではないことが多いことがわかりました。一方、OtterHD-8B は MagnifierBench で非常に優れたパフォーマンスを発揮しました。

解像度の向上による効果と、OtterHD がさまざまな、潜在的により大きな解像度に一般化する能力をさらに調査するために、チームは固定解像度または動的解像度を使用して Otter8B をトレーニングしました。

x 軸は、解像度が高くなるにつれて、より多くの画像トークンが言語デコーダーに送信され、より多くの画像の詳細が提供されることを示しています。

結果は、解像度が高くなるほど、MagnifierBench のパフォーマンスが向上することを示しています。

テキスト トークンの平均数は一定であるため、解像度が高くなるにつれて、画像とテキスト トークンの数の比率が増加します。

この変更は、特に複雑な視覚的関連付けを必要とするタスクの場合、LMM 解像度の重要性を浮き彫りにします。

さらに、固定トレーニング方法と動的トレーニング方法のパフォーマンスの違いにより、動的サイズ変更の利点が強調され、特に特定の解像度での過剰適合を防止できます。

さらに、動的ポリシーにより、モデルはトレーニング中には見ら​​れなかったより大きな解像度 (1440) に一般化できます。

いくつかの比較

結論は

研究チームが提案したOtterHD-8Bモデルは、Fuyu-8Bの革新的なアーキテクチャに基づいて、さまざまな解像度の画像を効果的に処理でき、ほとんどのLMMにおける固定解像度入力の制限を打ち破ります。

同時に、OtterHD-8B は高解像度画像の処理においても非常に優れたパフォーマンスを発揮します。

これは、複雑なシーンの詳細を識別する LMM の能力を評価することを目的とした新しい MagnifierBench ベンチマークで特に顕著であり、さまざまな解像度に対するより柔軟なサポートの重要性を強調しています。

<<:  ティアン・ユアンドンがOpenAIの謎のQ*プロジェクトに冷水を浴びせる: 合成データはAGIの救世主ではなく、その能力は単純な数学の問題に限られている

>>: 

ブログ    
ブログ    
ブログ    

推薦する

Pythonを使用して機械学習モデルを作成する方法

導入新しいモデルをトレーニングしたときに、Flask コード (Python Web フレームワーク...

将来、AIは人類を脅かすと思いますか?人工知能の未来はどうなるのでしょうか?

AIは現在どのように発展しているのでしょうか?テクノロジーの発展があまりにも速く、人工知能があらゆ...

ナレッジグラフとディープラーニングが「出会う」とき

著者: Xiao Yanghua、復旦大学コンピュータ科学技術学院准教授、博士課程指導教員、上海イン...

...

...

通信会社は AI と機械学習をどのように活用して利益率を向上させることができるでしょうか?

過去 10 年間で世界中のスマートフォン ユーザーの数は急増しており、今後も同様の増加傾向が続くと思...

AIによるIoT革命:なぜ両者が完璧に適合するのか

モノのインターネットは、私たちの生活様式を変えるのと同様に、学習方法も変えています。 AI の専門家...

...

[ビッグガイがやってくるエピソード8] 電子商取引リスク管理ツール - モバイルデバイス向けの信頼できるID

[51CTO.com からのオリジナル記事] ライブショー「ビッグネームがやってくる」の今回のエピ...

AI に役立つ 7 つのオープンソース ツール

[[282843]]人工知能は未来の道を歩み続ける注目すべき技術です。この進化する時代において、それ...

すべてのトップオブジェクト検出アルゴリズムを統合: FAIRオープンソースDetectron

昨日、Facebook AI Research (FAIR) は、業界で最も先進的な物体検出プラット...

Google の 130 億パラメータの多言語モデル mT5 が利用可能になり、101 言語への容易な移行が可能になりました。

Facebook は多言語機械翻訳モデル「M2M-100」をオープンソース化したばかりだが、今度は...

OpenAIがついにオープン:DALL-E 3の論文が発表され、ChatGPTが開始、著者の半数が中国人

最後に、「OpenAI は再びオープンになりました。」 OpenAIが発表したばかりのDALL・E ...

cnBeta は、開発者が AI アプリケーションを構築するのに役立つ 3 つの新しい機械学習ツールをリリースしました。

TechCrunchのウェブサイト、北京時間9月25日によると、多くの競合他社と同様に、Micro...

Googleの上級研究員ネイチャーが記事を公開: 機械学習の3つの大きな「落とし穴」を避ける

アルゴリズム分析は科学研究の重要な方法となっている。生物学者、高エネルギー物理学者、病理学者など、多...