国内の多くの大学が共同でオープンソースコミュニティLAMMを構築しています。マルチモーダル言語モデルファミリーに参加する時が来ました

ChatGPTの登場以来、大規模言語モデル（LLM）は飛躍的な発展を遂げ、自然言語に基づく人間とコンピュータの相互作用のAIパラダイムが広く使用されるようになりました。しかし、人間と世界との相互作用はテキストだけではありません。画像や奥行きなどの他の様式も同様に重要です。しかし、現在のマルチモーダル大規模言語モデル (MLLM) 研究のほとんどはクローズドソースであり、大学やほとんどの研究機関の学生にとって使いにくいものとなっています。さらに、大規模な言語モデルはトレーニング知識によって制限されており、時事問題を認識したり複雑な推論を実行したりする能力が欠けていることがよくあります。これは、質問に素早く答えることはできても、「深く考える」ことができないようなものです。 AI エージェント (人工知能エージェント) は、この問題を解決する鍵です。AI エージェントは、LLM に深く考え、複雑な決定を下す能力を与え、LLM が自律性、応答性、自発性、社会的能力などの特性を備えたインテリジェントなエンティティに成長することを可能にします。 AIエージェント分野は、私たちの生活や仕事のやり方を変えるような成果をさらに生み出すものになると信じており、大規模言語モデルやマルチモーダル大規模モデルにとって重要な進化の方向性です。

北京航空航天大学、復旦大学、シドニー大学、香港中文大学（深圳）などの大学の学者と上海人工知能研究所が共同で、マルチモーダル言語モデルの最も初期のオープンソースコミュニティの 1 つである LAMM（言語支援マルチモーダルモデル）を立ち上げました。私たちは、MLLM のトレーニングと評価、MLLM 駆動型エージェントなどの分野の研究をサポートする、進化するコミュニティエコシステムに LAMM を構築することを目指しています。 LAMM は、マルチモーダル大規模言語モデル分野における最も初期のオープンソースプロジェクトの 1 つとして、すべての研究者と開発者がそれに基づいて研究を行い、オープンソースコミュニティを共同で構築できるように、オープンな研究コミュニティエコシステムを確立することを目指しています。

プロジェクトのホームページ: https://openlamm.github.io
コードアドレス: https://www.github.com/OpenGVLab/LAMM

ここでは、次のことができます。

最小限のコンピューティングリソースコストで MLLM をトレーニングおよび評価します。MLLM のトレーニングと評価を簡単に開始するには、3090 または V100 のみが必要です。
ロボット工学やゲームシミュレーターを使用してタスクを定義し、データを生成できる MLLM ベースの具現化されたインテリジェントエージェントを構築します。
ほぼあらゆる専門分野で MLLM アプリケーションを拡張します。

オープンソースフレームワーク

LAMM コードライブラリは、統一されたデータセット形式、コンポーネントベースのモデル設計、ワンクリック分散トレーニングを実装し、ユーザーが独自のマルチモーダル言語モデルを簡単に開始して実装できるようにします。

データセットを微調整するためのさまざまな指示と互換性を持たせるために、標準のデータセット形式を使用します。 LAMM は、マルチモーダル命令の微調整に使用できる標準化されたマルチモーダル命令の微調整データ形式を定義します。LLaVA、LAMM、ShareGPT4V などの一般的に使用されるデータセットは、ワンクリックで直接シームレスに適応して開始できます。
コンポーネントベースのモデル構築プロセスにより、モデルアーキテクチャの更新と変更が容易になります。 LAMM のモデルには、ビジョンエンコーダー (Vision Encoder)、機能マッパー (Feature Projector)、言語モデル (LLM) が主なコンポーネントとして含まれています。現在、LAMM は、イメージやポイントクラウドなどのモーダルエンコーダーと、LLaMA/LLaMA2 などの事前トレーニング済み言語モデルをすでにサポートしています。ユーザーは、ニーズに合ったモジュールを自由に選択してパイプラインを構築し、独自の MLLM を実装できます。
最小限の計算リソースで MLLM をトレーニングおよび評価します。 LAMM Repo は、Deepspeed、LightLLM、フラッシュアテンションなどのアクセラレーションフレームワークを統合し、トレーニングコストを大幅に最適化します。現在、4 つの RTX3090 以降のデバイスで 7B 言語モデルの微調整をサポートしています。同時に、LAMM はマルチモーダル分野の発展を促進するために、新しい大規模言語モデルと最適化フレームワークを継続的にフォローアップしています。
MLLM に基づいて具現化されたインテリジェント AI エージェントを構築します。対象タスクを定義し、ロボットまたはシミュレータを使用して対応する指示データを生成した後、LAMM 対応 MLLM は意思決定と分析のための強力な AI エージェントとして機能します。

詳細はプロジェクトホームページをご覧ください。

マルチモーダル大規模言語モデルのトレーニングと評価

最近の多くの研究では、視覚コンテンツの理解とインタラクションにおけるマルチモーダル大規模モデル (MLLM) の能力が実証されており、より複雑な下流のタスクアプリケーションを解決する能力も実証されています。 LAMM は現在、一般的な画像入力に加えて、ポイントクラウドなどの視覚モダリティ入力もサポートしており、ユーザーはニーズに応じて新しいエンコーダーを追加することもできます。同時に、LAMM は効率的な微調整のために PEFT パッケージをサポートし、さらにモデルの計算コストを最適化するためにフラッシュアテンションや xformer などのツールも導入し、ユーザーが可能な限り低コストで MLLM をトレーニングできるようにします。複雑なマルチタスク学習に直面して、LAMM は MoE などの戦略もサポートし、複数の微調整パラメータセットを統合して、モデルのマルチタスク機能をさらに向上させ、より汎用性の高い MLLM を実現します。

しかし、標準化された包括的な評価フレームワークがないため、これらのモデルの機能と限界は十分に調査されておらず、これらのモデルの機能が何であるか、何ができるかをまだ確認できません。既存のベンチマーク作業は、主に大規模なマルチモーダルモデルのマルチモーダル評価データセットの構築に焦点を当てていたり、視覚能力の次元の一部のみを評価したり、評価フレームワークを確立しようと試みてもスケーラビリティと包括性が欠けていたりします。各モデルを包括的に評価し、異なるモデル間で公平かつ信頼性の高い比較を行うことは依然として困難です。 LAMM は、大規模なマルチモーダルモデルの信頼性が高く包括的な評価を提供することを目的として、高度にスケーラブルで柔軟な評価フレームワークを実装します。

詳細については、https://openlamm.github.io/paper_list/ChEF を参照してください。

ワンクリックの組み合わせによるマルチモーダル言語モデル評価フレームワーク

LAMM フレームワークに基づくマルチモーダルモデル機能は、次のように部分的に示されています。

2D画像コンテンツに基づく質問回答:

3D ポイントクラウドによる視覚的な質問回答:

マルチモーダル大規模言語モデルによって駆動される具現化エージェント

最近、大規模言語モデル (LLM) の強力な推論および計画機能を使用してエージェントを構築する研究が数多く行われています。たとえば、Minecraft の Voyager と GITM はどちらも LLM とテキストメモリを使用してインテリジェントエージェントのアクションを計画します。ただし、これらの研究はすべて、インテリジェントエージェントが意思決定を計画するときに正しい環境認識情報をすべて取得できることを前提としており、認識段階を直接スキップし、リアルタイムの一人称視点画像が具現化されたエージェント自身のアクション計画に与える影響を無視しています。これは現実には不可能です。

具現化エージェントが複雑なオープンワールド環境において環境をより良く認識できるようにするために、我々は視覚認識と能動認識能力を特徴とする MLLM 駆動の具現化エージェント MP5 を提案しました。視覚知覚モジュール（モデルの主なアーキテクチャは LAMM）により、MP5 はこれまでにないタスクを解決でき、アクティブ知覚により環境情報を積極的に取得して適切なアクションを実行できます。最後に、MP5 はオープンな認識機能を備えており、さまざまな目的に応じてカスタマイズされた認識結果を提供し、長期的で複雑な環境情報タスクを完了できます。

以下は、複雑な環境情報を必要とするMinecraftのオープンワールドで、「晴れた日の光がたっぷりある水辺の草地の平原にいる豚を見つける」というタスクをMP5が完了するデモです。

要約する

MLLM の強力な機能と幅広い応用可能性に基づいて、マルチモーダル学習は新たな段階に入りました。 LAMM は、マルチモーダル大規模モデルの研究を促進するオープンソースコミュニティの構築を目指しており、データの準備、モデルのトレーニング、パフォーマンス評価など、関連するすべてのデータをコミュニティに公開しています。

マルチモーダル言語モデル研究に投資した最も初期のチームの 1 つとして、私たちは LAMM ツールボックスを継続的に開発し、LAMM オープンソースエコシステム向けに軽量で使いやすいマルチモーダル研究フレームワークを提供し、オープンソースの力と協力してより有意義な研究を促進したいと考えています。

上記のコンテンツは、LAMM ホームページでオープンソースとして引き続き公開されます。ホームページとプロジェクトにご注目ください。また、LAMM コードベースに対するフィードバックや PR の送信も歓迎いたします。

<<: GauHuman オープンソース: ガウススプラッティングに基づく高品質の 3D 人間高速再構成およびリアルタイムレンダリングフレームワーク

>>: ChatGPTアプリストアがついにオンラインになり、ネットワーク全体で300万以上のGPTが集まり、OpenAIとお金を共有する時が来ました