清華大学のオープンソースの中国語マルチモーダルモデルVisCPM：対話テキストと画像の双方向生成をサポートし、驚くべき詩と絵画の機能を備えています。

2020年12月にリリースされたCPM-1は、中国初の大型中国語モデルです。2022年9月にリリースされたCPM-Antは、パラメータの0.06％を微調整するだけで、完全なパラメータ微調整の効果を上回ることができます。2023年5月にリリースされたWebCPMは、中国初の検索ベースの質問応答オープンソースモデルです。 CPM-Bee 100億モデルは、チームがリリースした最新のベースモデルです。中国語能力は権威あるリストZeroCLUEで1位にランクされており、英語能力はLLaMAと同等です。

大型機種CPMシリーズは、これまで画期的な成果を次々と生み出し、国内大型機種を新たな高みへと導いてきました。このたび発売したVisCPMも、その証です。 VisCPM は、Mianbi Intelligence、清華大学 NLP 研究所、Zhihu が共同で OpenBMB にオープンソース化した一連のマルチモーダル大規模モデルです。VisCPM-Chat モデルは中国語と英語の両方でマルチモーダル会話機能をサポートし、VisCPM-Paint モデルはテキストから画像への生成機能をサポートしています。評価によると、VisCPM は中国のマルチモーダルオープンソースモデルの中で最高レベルに達しています。

VisCPM は、数百億のパラメータを持つ CPM-Bee モデルでトレーニングされ、視覚エンコーダ (Q-Former) と視覚デコーダ (Diffusion-UNet) を統合して、視覚信号の入出力をサポートします。CPM-Bee ベースの優れたバイリンガル機能により、VisCPM は英語のマルチモーダルデータのみで事前トレーニングでき、一般化して優れた中国語のマルチモーダル機能を実現できます。

VisCPM のシンプルなアーキテクチャ図

VisCPM-Chat と VisCPM-Paint が優れている点を詳しく見てみましょう。

写真

VisCPM リンク: https://github.com/OpenBMB/VisCPM

VisCPM-Chat は、中国語と英語の両方で画像ベースのマルチモーダル会話をサポートします。このモデルは、視覚エンコーダーとしてQ-Formerを使用し、言語相互作用基質モデルとしてCPM-Bee（10B）を使用し、言語モデリングトレーニング目標を通じて視覚モデルと言語モデルを融合します。モデルのトレーニングには、事前トレーニングと指示の微調整の 2 つの段階が含まれます。

チームは、CC3M、CC12M、COCO、Visual Genome、Laionなどを含む約1億の高品質の英語の画像とテキストデータを使用して、VisCPM-Chatを事前トレーニングしました。事前トレーニング段階では、言語モデルのパラメータは固定されたままで、大規模な視覚言語表現の効率的なアライメントをサポートするために Q-Former の一部のパラメータのみが更新されます。

次に、チームは、 LLaVA-150K の英語の指示の微調整データを使用し、対応する中国語の翻訳データを組み合わせてモデルの指示を微調整し、モデルのマルチモーダル基本機能とユーザーの意図を一致させて、VisCPM-Chat の指示を微調整しました。命令の微調整フェーズでは、すべてのモデルパラメータを更新して、命令の微調整データの利用効率を向上させました。

興味深いことに、チームは、コマンドの微調整に英語のコマンドデータのみを使用した場合でも、モデルは中国語の質問を理解できるが、答えられるのは英語だけであることを発見しました。これは、モデルの多言語およびマルチモーダル機能が十分に一般化されていることを示しています。指示の微調整段階で少量の中国語翻訳データをさらに追加することで、モデルの応答言語をユーザーの質問言語に合わせることができます。

チームは、LLaVA 英語テストセットと翻訳された中国語テストセットでモデルを評価しました。評価ベンチマークでは、オープンドメインの対話、画像の詳細説明、複雑な推論におけるモデルのパフォーマンスを調べ、スコアリングに GPT-4 を使用します。 VisCPM-Chat は中国語のマルチモーダル機能において最高の平均パフォーマンスを達成し、一般ドメインの対話と複雑な推論に優れており、英語のマルチモーダル機能も優れていることがわかります。

VisCPM-Chat には、VisCPM-Chat-balance と VisCPM-Chat-zhplus という 2 つのモデルバージョンがあります。前者は英語と中国語でよりバランスの取れた機能を備えており、後者は中国語でより顕著です。 2 つのモデルは、命令の微調整段階で同じデータを使用します。VisCPM-Chat-zhplus は、事前トレーニング段階で、さらに 2,000 万のクリーンアップされた中国語ネイティブの画像テキストペアデータと 1 億 2,000 万の中国語に翻訳された画像テキストペアデータを追加します。

写真

以下は、VisCPM-Chat のマルチモーダル会話機能のデモです。特定のエリアの地図を認識できるだけでなく、落書きや映画のポスターを読んだり、スターバックスのロゴを認識することもできます。さらに、彼は中国語と英語の両方に堪能です!

中国語と英語の両方でテキストから画像への生成をサポートする VisCPM-Paint を見てみましょう。このモデルは、テキストエンコーダーとしてCPM-Bee（10B）、画像デコーダーとしてUNetを使用し、拡散モデルを通じてターゲット融合言語およびビジョンモデルをトレーニングします。

トレーニングプロセス中、言語モデルのパラメーターは常に固定されます。ビジュアルデコーダーは、Stable Diffusion 2.1 の UNet パラメーターを使用して初期化され、主要なブリッジパラメーターを徐々に解凍することで言語モデルと融合されます。最初に、テキスト表現をビジュアルモデルにマッピングする線形レイヤーをトレーニングし、次に UNet のクロスアテンションレイヤーをさらに解凍します。このモデルは、Laion 2B 英語の画像とテキストのペアのデータでトレーニングされました。

VisCPM-Paint と同様に、ベースモデル CPM-Bee のバイリンガル機能により、 VisCPM-Paint は英語のテキストと画像のペアのみでトレーニングでき、一般化して優れた中国語のテキストから画像への生成機能を実現し、中国語のオープンソースモデルの最高の結果を達成できます。さらに、2,000 万件のクリーンな中国語ネイティブ画像テキストペアデータと、中国語に翻訳された 1 億 2,000 万件の画像テキストペアデータを追加することで、モデルの中国語テキストから画像への生成機能がさらに向上しました。同様に、VisCPM-Paint には、balance と zhplus という 2 つの異なるバージョンがあります。彼らは、標準的な画像生成テストセット MSCOCO から 30,000 枚の画像をサンプリングし、生成された画像の品質を評価するために、一般的に使用される画像生成評価メトリック FID (Fréchet Inception Distance) を計算しました。

VisCPM-Paint モデルは、「明るい月が海の上に昇り、世界はこの瞬間を共有します。美的スタイル、抽象スタイル」と「人々が怠惰なとき、甘い香りのキンモクセイの花が散り、月は静かで春の山は空っぽです」という 2 つのプロンプトを入力し、次の 2 つの画像を生成します。

（生成される効果の安定性にはまだ改善の余地があります）

実に素晴らしいです。古代の詩の芸術的概念を正確に捉えていると言えます。今後詩が理解できなくても、絵を生成すれば理解できます。設計に適用すれば、多くの人手を節約できます。 「絵を描く」だけでなく、「詩を朗読する」こともできます。VisCPM-Chat は、画像を使用して詩を逆検索する機能です。例えば、黄河の景色を描写したり解釈したりするために李白の詩を使うことができます。中秋の名月を迎えるときは、蘇軾の「水の旋律」を使って感情を表現することもできます。

VisCPM は優れた生成結果をもたらすだけでなく、ダウンロードバージョンは慎重に設計されており、インストールと使用も非常に簡単です。

VisCPMは中国語版と英語版を用意しています

VisCPM は、誰でもダウンロードして選択できる、さまざまな中国語と英語の機能を備えたモデルバージョンを提供しています。インストール手順は簡単です。使用中は、わずか数行のコードでマルチモーダルダイアログを実現できます。入力テキストと出力画像のセキュリティチェックも、コード内でデフォルトで有効になっています。 (詳細なチュートリアルについては、README を参照してください) 今後、チームは VisCPM を huggingface コードフレームワークに統合し、セキュリティモデルを徐々に改善し、Web ページの高速展開、モデル量子化のサポート、モデルの微調整などの機能をサポートしていきます。アップデートをお楽しみに!

VisCPM シリーズモデルは、個人使用や研究目的に非常に適していることは言うまでもありません。モデルを商用目的で使用したい場合は、[email protected] に連絡して商用ライセンスに関する事項について話し合うこともできます。

従来のモデルは、シングルモーダルデータの処理に重点を置いています。現実世界の情報は、多くの場合、マルチモーダルです。マルチモーダルの大規模モデルは、人工知能システムの知覚相互作用機能を向上させ、AI が現実世界の複雑な知覚と理解のタスクを解決するための新たな機会をもたらします。清華大学傘下の大型モデル会社Mianbi Intelligentは強力な研究開発能力を持っていると言わざるを得ません。共同で発表したマルチモーダル大型モデルVisCPMは強力で、パフォーマンスも素晴らしいです。今後の成果発表に期待しています！

<<: 13万個の注釈付きニューロン、5300万個のシナプス、プリンストン大学などが初の完全な「成虫ミバエ」脳接続グループを発表

>>: BLIP-2とInstructBLIPがトップ3にランクイン！ 12の主要モデル、16のリスト、「マルチモーダル大規模言語モデル」の総合評価