GPT-4Vに挑戦する浙江大学の卒業生が、マルチモーダル大規模モデルのオープンソース版をリリースし、GitHubで6,000以上のスターを獲得しました。

GPT-4Vに挑戦する浙江大学の卒業生が、マルチモーダル大規模モデルのオープンソース版をリリースし、GitHubで6,000以上のスターを獲得しました。

GPT-4 の視覚機能がテスト用に完全にリリースされる前に、オープンソースのライバルが華々しくデビューしました。

浙江大学コンピュータサイエンス学部の卒業生が、マイクロソフトリサーチや他の機関と共同で、マルチモーダルモデル LLaVA の新バージョンを発表しました。

LLaVA は 11 個のテスト データセットで SOTA を達成し、GitHub で 6,000 を超えるスターを獲得しました。

開発者が提供したデータによると、LLaVA の総合的な能力は GPT-4V のレベルの 85% に達し、複雑な推論タスクでは 96% を超えています。

認証コードの読み取り、犬の品種の判別、さらには画像に基づいて Web ページ コードを生成することなど、LLaVA にとってこれらはどれも難しいことではありません。

△𝕏/マット・シューマー

リソースの面では、LLaVA のサンプル サイズはわずか 120 万で、8*A100 マシン 1 台で 1 日でトレーニングを完了できます。

しかし、それを体験したネットユーザーたちは、LLaVA は GPT-4V とはまだいくつかのギャップがあると述べています。

では、LLaVA のパフォーマンスはどうでしょうか? 私たちもテストしました。

GPT-4Vとのギャップはあるが、これも使用可能

LLaVA と GPT-4V のパフォーマンスをより直感的に比較するために、Microsoft が公開している GPT-4V マニュアルの事例をそのまま使用しました。

まず、最も基本的な文字認識を見てみましょう。

ここでの GPT-4V マニュアルで使用されているプロンプトはこの画像について説明しており、私たちも同様のことを行います。

その結果、LLaVAは名前を一つも挙げなかっただけでなく、人数も間違って数え、その中にはサッカー選手、俳優、歌手も含まれていると判定した。

そこで私たちはLLaVAにこれらの人々の名前を尋ね続けましたが、判断を下すには情報が不十分だと言われました。

このラウンドでは GPT-4V がわずかに優れていましたが、おそらく一度に参加者が多すぎたため、LLaVA に別の簡単な質問を与えました。

一連の質問の後、LLaVA は写真に写っているマー氏とザッカーバーグ氏をうまく認識したので、今回は合格とします。

プロの画像はどうですか?たとえば、医療画像診断。

GPT-4V の答えは肺の感染症または炎症であり、LLaVA は喫煙または COPD によって引き起こされるアポトーシス細胞および瘢痕組織を指します。

しかし、どちらのモデルも結論を裏付けず、さらなる検査が必要であると示唆した。しかし、LLaVA が示した「組織の黒い部分は異常である」という点は正しかった。

これらの実際の画像に加えて、テキスト認識もマルチモーダル モデルのテストで一般的なタスクです。

この写真では、LLaVA は英語のテキストを正常に認識しましたが、その下の日本語のカタカナを認識できませんでした。

上記の真面目な内容に加えて、LLaVA は絵文字も解釈できるのでしょうか?

今回、LLaVA はカエルのおもちゃと写真内のテキストを正しく識別し、絵文字の解釈も半分は正しかった。

このミームの皮肉なところは、予定に遅れてしまった人たちが、さらに予定を延期してしまうという点です。LLaVA は前半部分しか言いませんでした。

まとめると、LLaVA は基本的に GPT-4V の認識能力を備えていますが、少し欠けている部分があります。

つまり、それほど強力ではないものの、それでも使用可能です。

それで、LLaVA はどのようにして作られたのでしょうか?

ビクーニャとCLIPの組み合わせ

LLaVA のトレーニングは 2 つの段階に分かれています。

最初のステップは、テキストと画像を揃える事前トレーニング プロセスです。この段階では、合計 600,000 個の画像とテキストのペアが使用されました。

2 番目の段階では、視覚的な指示を使用して、アライメントに基づいてチューニングを実行し、ユーザーが尋ねる可能性のあるさまざまな質問に LLaVA が慣れることができるようにします。

モデル構造としては、LLaVA の言語モデルはアルパカ科の Vicuna で、視覚モデルは OpenAI の CLIP を使用し、モーダルコネクタとして MLP を採用しています。

LLaVA がより専門的な分野のコンテンツを認識できるようにするために、研究チームは開発プロセス中に ScienceQA データセットも使用しました。

開発プロセスが完了した後、研究チームは GPT-4 を使用して LLaVA の出力を評価しました。

開発者は、COCO データセットのコンテンツを使用して 3 種類の質問を設計し、LLaVA に回答を出力させて GPT-4 に渡してスコアリングを行うように依頼しました。

  • 質問応答ダイアログ: COCOデータセットの質問を質問用の文章に書き直す
  • 詳細な説明: LLaVAに画像の内容についてより詳細で具体的な説明を提供するよう依頼します
  • 複雑な推論:LLaVA は、画像に直接含まれていない情報(キャラクター間の関係など)を理解した上で推論する必要があります。

現在、LLaVA のコード、モデル、トレーニング データはオープンソースになっています。7B と 13B のパラメータを持つ 2 つのモデルがあり、どちらも完全に微調整されています。LoRA バージョンも間もなくリリースされる予定です。

著者について

LLaVA 関連論文の第一著者は、ウィスコンシン大学マディソン校の中国人博士課程学生、Haotian Liu 氏です。

彼はまた、ZJU コンピュータサイエンス学院の卒業生でもあり、そこでコンピュータサイエンス学院の Jin Xiaogang 教授と Wu Fei 教授の下で学びました。

彼の現在の指導教員である Yong Jae Lee 氏が、関連論文の責任著者です。

さらに、Microsoft Research とコロンビア大学の学者も LLaVA 関連の研究に携わっています。

プロジェクトのホームページ(DEMO と GitHub、HuggingFace リンクを含む): https://llava-vl.github.io/

論文の宛先:
[1] https://arxiv.org/abs/2304.08485
[2] https://arxiv.org/abs/2310.03744

<<:  GPT-4 ワイルドスポークスマン Terence Tao: 新しい文学ツールは、それがなければ崩壊してしまいます! 11ページの「超短編」新作がオンラインになりました

>>:  Docker が Generative AI スタックと Docker AI をリリース

ブログ    
ブログ    
ブログ    

推薦する

C#DES アルゴリズムの概念と特性の簡単な分析

C# DES アルゴリズムは開発のセキュリティ部分として、その概念といくつかの簡単な歴史的起源を理解...

ChatGPTの10の実用的なビジネスユースケース

ChatGPT のビジネスユースケースは数多く登場していますが、組織は自社の特定のニーズに最適なシナ...

将来のビジネスインテリジェンスにおける人工知能の役割

AI 搭載のチャットボットを導入しているコールセンターから、ディープラーニングを使用して数え切れない...

Google: 人工知能、機械学習などを Wear OS オペレーティング システムに統合

[[244954]]最近、上海世界博覧センターで 2 日間にわたる Google 開発者会議 (Go...

メタ研究者が新たなAIの試み:地図や訓練なしでロボットに物理的なナビゲーションを教える

Meta Platformsの人工知能部門は最近、少量のトレーニングデータのサポートにより、AIモデ...

...

AIが「自由意志」を持つとき

人工知能が盛んに使われる一方で、この技術に伴う問題や潜在的な脅威も現れつつあります。 AI技術の「価...

「あなたは私の中にいて、私はあなたの中にいる」人工知能はビッグデータと恋愛関係になりたい!

最近では、「ビッグデータ」や「人工知能」ほどよく使われる流行語はほとんどありません。多くのデータ分析...

Ray で効率的なディープラーニング データ パイプラインを作成する

ディープラーニング モデルのトレーニングに使用される GPU は強力ですが、高価です。 GPU を効...

中国製ドローンが日本で試験飛行、日本の農業に参入へ

[[227827]] 福岡県香春町で先日、農薬散布ドローンの試験飛行が行われた。以前は、1.8エーカ...

2024年のビッグデータ産業予測(I)

分析するオムニチャネルコマースが拡大するにつれ、広告分析の世界は劇的な変化を遂げるでしょう。オンライ...

最新のClaude2.1とLlama 2をご利用いただけます。アマゾンが生成型AI開発の参入障壁を下げる

良いニュースです。生成 AI アプリケーションの敷居が大幅に下がりました。先ほど、Amazon We...

自動運転はまだ遠いが、スマートコックピットはすでに存在している

[51CTO.com からのオリジナル記事] スマートカーといえば、真っ先に思い浮かぶのは自動運転で...

AIが自ら騙された!生成された写真詐欺はAI識別器の目を楽々と逃れ、マスクのロボットガールフレンドと3メートルの巨人は両方とも「実現」

AI が生成した画像は非常にリアルなので、AI 自身も違いを区別できません。マスク氏とロボットのガ...