国内の多くの大学が共同でオープンソースコミュニティLAMMを構築しています。マルチモーダル言語モデルファミリーに参加する時が来ました

国内の多くの大学が共同でオープンソースコミュニティLAMMを構築しています。マルチモーダル言語モデルファミリーに参加する時が来ました

ChatGPTの登場以来、大規模言語モデル(LLM)は飛躍的な発展を遂げ、自然言語に基づく人間とコンピュータの相互作用のAIパラダイムが広く使用されるようになりました。しかし、人間と世界との相互作用はテキストだけではありません。画像や奥行きなどの他の様式も同様に重要です。しかし、現在のマルチモーダル大規模言語モデル (MLLM) 研究のほとんどはクローズドソースであり、大学やほとんどの研究機関の学生にとって使いにくいものとなっています。さらに、大規模な言語モデルはトレーニング知識によって制限されており、時事問題を認識したり複雑な推論を実行したりする能力が欠けていることがよくあります。これは、質問に素早く答えることはできても、「深く考える」ことができないようなものです。 AI エージェント (人工知能エージェント) は、この問題を解決する鍵です。AI エージェントは、LLM に深く考え、複雑な決定を下す能力を与え、LLM が自律性、応答性、自発性、社会的能力などの特性を備えたインテリジェントなエンティティに成長することを可能にします。 AIエージェント分野は、私たちの生活や仕事のやり方を変えるような成果をさらに生み出すものになると信じており、大規模言語モデルやマルチモーダル大規模モデルにとって重要な進化の方向性です。

北京航空航天大学、復旦大学、シドニー大学、香港中文大学(深圳)などの大学の学者と上海人工知能研究所が共同で、マルチモーダル言語モデルの最も初期のオープンソース コミュニティの 1 つである LAMM(言語支援マルチモーダル モデル)を立ち上げました。私たちは、MLLM のトレーニングと評価、MLLM 駆動型エージェントなどの分野の研究をサポートする、進化するコミュニティ エコシステムに LAMM を構築することを目指しています。 LAMM は、マルチモーダル大規模言語モデル分野における最も初期のオープンソース プロジェクトの 1 つとして、すべての研究者と開発者がそれに基づいて研究を行い、オープンソース コミュニティを共同で構築できるように、オープンな研究コミュニティ エコシステムを確立することを目指しています。

  • プロジェクトのホームページ: https://openlamm.github.io
  • コードアドレス: https://www.github.com/OpenGVLab/LAMM

ここでは、次のことができます。

  • 最小限のコンピューティング リソース コストで MLLM をトレーニングおよび評価します。MLLM のトレーニングと評価を簡単に開始するには、3090 または V100 のみが必要です。
  • ロボット工学やゲームシミュレーターを使用してタスクを定義し、データを生成できる MLLM ベースの具現化されたインテリジェントエージェントを構築します。
  • ほぼあらゆる専門分野で MLLM アプリケーションを拡張します。

オープンソースフレームワーク

LAMM コード ライブラリは、統一されたデータセット形式、コンポーネント ベースのモデル設計、ワンクリック分散トレーニングを実装し、ユーザーが独自のマルチモーダル言語モデルを簡単に開始して実装できるようにします。


  • データセットを微調整するためのさまざまな指示と互換性を持たせるために、標準のデータセット形式を使用します。 LAMM は、マルチモーダル命令の微調整に使用できる標準化されたマルチモーダル命令の微調整データ形式を定義します。LLaVA、LAMM、ShareGPT4V などの一般的に使用されるデータセットは、ワンクリックで直接シームレスに適応して開始できます。
  • コンポーネントベースのモデル構築プロセスにより、モデル アーキテクチャの更新と変更が容易になります。 LAMM のモデルには、ビジョン エンコーダー (Vision Encoder)、機能マッパー (Feature Projector)、言語モデル (LLM) が主なコンポーネントとして含まれています。現在、LAMM は、イメージやポイント クラウドなどのモーダル エンコーダーと、LLaMA/LLaMA2 などの事前トレーニング済み言語モデルをすでにサポートしています。ユーザーは、ニーズに合ったモジュールを自由に選択してパイプラインを構築し、独自の MLLM を実装できます。
  • 最小限の計算リソースで MLLM をトレーニングおよび評価します。 LAMM Repo は、Deepspeed、LightLLM、フラッシュ アテンションなどのアクセラレーション フレームワークを統合し、トレーニング コストを大幅に最適化します。現在、4 つの RTX3090 以降のデバイスで 7B 言語モデルの微調整をサポートしています。同時に、LAMM はマルチモーダル分野の発展を促進するために、新しい大規模言語モデルと最適化フレームワークを継続的にフォローアップしています。
  • MLLM に基づいて具現化されたインテリジェント AI エージェントを構築します。対象タスクを定義し、ロボットまたはシミュレータを使用して対応する指示データを生成した後、LAMM 対応 MLLM は意思決定と分析のための強力な AI エージェントとして機能します。

詳細はプロジェクトホームページをご覧ください。

マルチモーダル大規模言語モデルのトレーニングと評価

最近の多くの研究では、視覚コンテンツの理解とインタラクションにおけるマルチモーダル大規模モデル (MLLM) の能力が実証されており、より複雑な下流のタスクアプリケーションを解決する能力も実証されています。 LAMM は現在、一般的な画像入力に加えて、ポイント クラウドなどの視覚モダリティ入力もサポートしており、ユーザーはニーズに応じて新しいエンコーダーを追加することもできます。同時に、LAMM は効率的な微調整のために PEFT パッケージをサポートし、さらにモデルの計算コストを最適化するためにフラッシュ アテンションや xformer などのツールも導入し、ユーザーが可能な限り低コストで MLLM をトレーニングできるようにします。複雑なマルチタスク学習に直面して、LAMM は MoE などの戦略もサポートし、複数の微調整パラメータ セットを統合して、モデルのマルチタスク機能をさらに向上させ、より汎用性の高い MLLM を実現します。

しかし、標準化された包括的な評価フレームワークがないため、これらのモデルの機能と限界は十分に調査されておらず、これらのモデルの機能が何であるか、何ができるかをまだ確認できません。既存のベンチマーク作業は、主に大規模なマルチモーダルモデルのマルチモーダル評価データセットの構築に焦点を当てていたり、視覚能力の次元の一部のみを評価したり、評価フレームワークを確立しようと試みてもスケーラビリティと包括性が欠けていたりします。各モデルを包括的に評価し、異なるモデル間で公平かつ信頼性の高い比較を行うことは依然として困難です。 LAMM は、大規模なマルチモーダル モデルの信頼性が高く包括的な評価を提供することを目的として、高度にスケーラブルで柔軟な評価フレームワークを実装します。

詳細については、https://openlamm.github.io/paper_list/ChEF を参照してください。

ワンクリックの組み合わせによるマルチモーダル言語モデル評価フレームワーク

LAMM フレームワークに基づくマルチモーダル モデル機能は、次のように部分的に示されています。

2D画像コンテンツに基づく質問回答:

3D ポイントクラウドによる視覚的な質問回答:


マルチモーダル大規模言語モデルによって駆動される具現化エージェント

最近、大規模言語モデル (LLM) の強力な推論および計画機能を使用してエージェントを構築する研究が数多く行われています。たとえば、Minecraft の Voyager と GITM はどちらも LLM とテキスト メモリを使用してインテリジェント エージェントのアクションを計画します。ただし、これらの研究はすべて、インテリジェント エージェントが意思決定を計画するときに正しい環境認識情報をすべて取得できることを前提としており、認識段階を直接スキップし、リアルタイムの一人称視点画像が具現化されたエージェント自身のアクション計画に与える影響を無視しています。これは現実には不可能です。

具現化エージェントが複雑なオープンワールド環境において環境をより良く認識できるようにするために、我々は視覚認識と能動認識能力を特徴とする MLLM 駆動の具現化エージェント MP5 を提案しました。視覚知覚モジュール(モデルの主なアーキテクチャは LAMM)により、MP5 はこれまでにないタスクを解決でき、アクティブ知覚により環境情報を積極的に取得して適切なアクションを実行できます。最後に、MP5 はオープンな認識機能を備えており、さまざまな目的に応じてカスタマイズされた認識結果を提供し、長期的で複雑な環境情報タスクを完了できます。

以下は、複雑な環境情報を必要とするMinecraftのオープンワールドで、「晴れた日の光がたっぷりある水辺の草地の平原にいる豚を見つける」というタスクをMP5が完了するデモです。

要約する

MLLM の強力な機能と幅広い応用可能性に基づいて、マルチモーダル学習は新たな段階に入りました。 LAMM は、マルチモーダル大規模モデルの研究を促進するオープンソース コミュニティの構築を目指しており、データの準備、モデルのトレーニング、パフォーマンス評価など、関連するすべてのデータをコミュニティに公開しています。

マルチモーダル言語モデル研究に投資した最も初期のチームの 1 つとして、私たちは LAMM ツールボックスを継続的に開発し、LAMM オープンソース エコシステム向けに軽量で使いやすいマルチモーダル研究フレームワークを提供し、オープンソースの力と協力してより有意義な研究を促進したいと考えています。

上記のコンテンツは、LAMM ホームページでオープンソースとして引き続き公開されます。ホームページとプロジェクトにご注目ください。また、LAMM コードベースに対するフィードバックや PR の送信も歓迎いたします。

<<:  GauHuman オープンソース: ガウススプラッティングに基づく高品質の 3D 人間高速再構成およびリアルタイム レンダリング フレームワーク

>>:  ChatGPTアプリストアがついにオンラインになり、ネットワーク全体で300万以上のGPTが集まり、OpenAIとお金を共有する時が来ました

ブログ    
ブログ    
ブログ    

推薦する

人工知能の成長がデータセンターの再設計を促している

現在進行中のデータ センターの再設計の主な側面は、AI の大規模で複雑なワークロードと、グラフィック...

自動運転は自動車産業の未来だが、これはドライバーが手を完全に自由にできることを意味するものではない。

自動運転車は未来を象徴しているが、運転手が全てを完全に機械に任せることはできないかもしれない。おそら...

AlphaFold2 の原理: 注意メカニズムが畳み込みネットワークに取って代わり、予測精度が 30% 以上向上

[[412540]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

運輸・物流におけるAIと自動化のユースケース

[[343865]] [51CTO.com速訳]調査によると、コロナウイルスの流行により、多くの国と...

Appleは開発者がアプリのコードを書くのに役立つXcodeのアップデート版を開発中だ

2月18日、海外メディアの報道によると、AppleはXcodeプログラミングソフトウェアの新しい生成...

Baidu Brain CVサービスでは、100~1000元のクーポンを提供しています。

覚えていますか? 「小都」はかつて「The Brain」の舞台でエネルギー溢れる出場者たちと競い合い...

...

IoTとAIの組み合わせ:さまざまなスマートフォンが互いに学習できるようにする

センサーといえば、まず思い浮かぶのはウェアラブルデバイスです。今ではウェアラブルデバイスが広く普及し...

ヴィンセントの画像プロンプトはもう退屈でも長くもありません! LLM強化拡散モデル、簡単な文章で高品質の画像を生成できる

拡散モデルは、テキストプロンプトのガイダンスに基づいて高品質でコンテンツが豊富な画像を生成できる、主...

...

ビッグデータを使用してSalesforce Einstein分析の価値を理解する

ビッグデータを活用する方法を学ぶには、新しく開発されたソフトウェアである Salesforce Ei...

アルパカたちはどこまで来たのでしょうか?研究によると、最高のものはGPT-4のパフォーマンスの68%を達成できる。

大規模言語モデルは最近、かつてないほどの注目を集めています。急速に変化する環境において、オープンソー...

インテリジェントな運用とメンテナンスからスマートな運用まで、Qingchuang Technologyは企業に探偵シャーロックの能力を提供します

[51CTO.com からのオリジナル記事] 運用保守作業は、初期の手動運用保守から自動化運用保守、...

ロボットが人間のように学習できるようにする Google RT-2 AI モデルとは何ですか?

ビッグモデルが急増し、仮想世界から現実世界に進出しています。 Google DeepMind は最近...

AIとIoTが建設業界に価値をもたらす方法

モノのインターネット (IoT) センサーは主に運用スタックの可視性を提供し、リアルタイムで正確な運...