GPT-4 の視覚機能がテスト用に完全にリリースされる前に、オープンソースのライバルが華々しくデビューしました。 浙江大学コンピュータサイエンス学部の卒業生が、マイクロソフトリサーチや他の機関と共同で、マルチモーダルモデル LLaVA の新バージョンを発表しました。 LLaVA は 11 個のテスト データセットで SOTA を達成し、GitHub で 6,000 を超えるスターを獲得しました。 開発者が提供したデータによると、LLaVA の総合的な能力は GPT-4V のレベルの 85% に達し、複雑な推論タスクでは 96% を超えています。 認証コードの読み取り、犬の品種の判別、さらには画像に基づいて Web ページ コードを生成することなど、LLaVA にとってこれらはどれも難しいことではありません。 △𝕏/マット・シューマー リソースの面では、LLaVA のサンプル サイズはわずか 120 万で、8*A100 マシン 1 台で 1 日でトレーニングを完了できます。 しかし、それを体験したネットユーザーたちは、LLaVA は GPT-4V とはまだいくつかのギャップがあると述べています。 では、LLaVA のパフォーマンスはどうでしょうか? 私たちもテストしました。 GPT-4Vとのギャップはあるが、これも使用可能LLaVA と GPT-4V のパフォーマンスをより直感的に比較するために、Microsoft が公開している GPT-4V マニュアルの事例をそのまま使用しました。 まず、最も基本的な文字認識を見てみましょう。 ここでの GPT-4V マニュアルで使用されているプロンプトはこの画像について説明しており、私たちも同様のことを行います。 その結果、LLaVAは名前を一つも挙げなかっただけでなく、人数も間違って数え、その中にはサッカー選手、俳優、歌手も含まれていると判定した。 そこで私たちはLLaVAにこれらの人々の名前を尋ね続けましたが、判断を下すには情報が不十分だと言われました。 このラウンドでは GPT-4V がわずかに優れていましたが、おそらく一度に参加者が多すぎたため、LLaVA に別の簡単な質問を与えました。 一連の質問の後、LLaVA は写真に写っているマー氏とザッカーバーグ氏をうまく認識したので、今回は合格とします。 プロの画像はどうですか?たとえば、医療画像診断。 GPT-4V の答えは肺の感染症または炎症であり、LLaVA は喫煙または COPD によって引き起こされるアポトーシス細胞および瘢痕組織を指します。 しかし、どちらのモデルも結論を裏付けず、さらなる検査が必要であると示唆した。しかし、LLaVA が示した「組織の黒い部分は異常である」という点は正しかった。 これらの実際の画像に加えて、テキスト認識もマルチモーダル モデルのテストで一般的なタスクです。 この写真では、LLaVA は英語のテキストを正常に認識しましたが、その下の日本語のカタカナを認識できませんでした。 上記の真面目な内容に加えて、LLaVA は絵文字も解釈できるのでしょうか? 今回、LLaVA はカエルのおもちゃと写真内のテキストを正しく識別し、絵文字の解釈も半分は正しかった。 このミームの皮肉なところは、予定に遅れてしまった人たちが、さらに予定を延期してしまうという点です。LLaVA は前半部分しか言いませんでした。 まとめると、LLaVA は基本的に GPT-4V の認識能力を備えていますが、少し欠けている部分があります。 つまり、それほど強力ではないものの、それでも使用可能です。 それで、LLaVA はどのようにして作られたのでしょうか? ビクーニャとCLIPの組み合わせLLaVA のトレーニングは 2 つの段階に分かれています。 最初のステップは、テキストと画像を揃える事前トレーニング プロセスです。この段階では、合計 600,000 個の画像とテキストのペアが使用されました。 2 番目の段階では、視覚的な指示を使用して、アライメントに基づいてチューニングを実行し、ユーザーが尋ねる可能性のあるさまざまな質問に LLaVA が慣れることができるようにします。 モデル構造としては、LLaVA の言語モデルはアルパカ科の Vicuna で、視覚モデルは OpenAI の CLIP を使用し、モーダルコネクタとして MLP を採用しています。 LLaVA がより専門的な分野のコンテンツを認識できるようにするために、研究チームは開発プロセス中に ScienceQA データセットも使用しました。 開発プロセスが完了した後、研究チームは GPT-4 を使用して LLaVA の出力を評価しました。 開発者は、COCO データセットのコンテンツを使用して 3 種類の質問を設計し、LLaVA に回答を出力させて GPT-4 に渡してスコアリングを行うように依頼しました。
現在、LLaVA のコード、モデル、トレーニング データはオープンソースになっています。7B と 13B のパラメータを持つ 2 つのモデルがあり、どちらも完全に微調整されています。LoRA バージョンも間もなくリリースされる予定です。 著者についてLLaVA 関連論文の第一著者は、ウィスコンシン大学マディソン校の中国人博士課程学生、Haotian Liu 氏です。 彼はまた、ZJU コンピュータサイエンス学院の卒業生でもあり、そこでコンピュータサイエンス学院の Jin Xiaogang 教授と Wu Fei 教授の下で学びました。 彼の現在の指導教員である Yong Jae Lee 氏が、関連論文の責任著者です。 さらに、Microsoft Research とコロンビア大学の学者も LLaVA 関連の研究に携わっています。 プロジェクトのホームページ(DEMO と GitHub、HuggingFace リンクを含む): https://llava-vl.github.io/ 論文の宛先: — |
<<: GPT-4 ワイルドスポークスマン Terence Tao: 新しい文学ツールは、それがなければ崩壊してしまいます! 11ページの「超短編」新作がオンラインになりました
>>: Docker が Generative AI スタックと Docker AI をリリース
コンピューター ビジョンの分野では、You Only Look Once (YOLO) アルゴリズム...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
新たな常態に対応するために自動化プロセスを拡大多くの企業は、ニューノーマルに対処するための重要な技術...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
生成 AI は私たちの働き方を変える運命にある驚異的な技術ですが、それは何を実現できるのでしょうか。...
現在の人工知能の発展は、主にディープラーニングに代表される機械学習技術の恩恵を受けています。ディープ...
12月29日、工業情報化部、国家発展改革委員会、教育部、財政部、中国人民銀行、国家税務総局、金融監督...
現在、AI の最大の可能性は、回帰や分類などの分析技術にあることが知られています。ニューラル ネット...
AI は、軍事への応用、脅威の監視、国家防衛の確保など、私たちの行動様式を変えています。 AIは軍事...
[[206343]]アメリカの企業では、多数のロボットを使って働くことが当たり前になっている。ここ...
ABIリサーチは、ドローン市場は今後10年間で大きく成長し、2030年までに920億ドルの価値に達す...
2020 年は、IT プロフェッショナルがインフラストラクチャを管理およびプロビジョニングする方法を...
2018 年 5 月 25 日、一般データ保護規則 (GDPR) が欧州連合全域で発効し、組織による...
[[320126]] [51CTO.com クイック翻訳]ソフトウェア定義広域ネットワーク (SD-...