写真とテキストで、3ステップで『原神』原稿がすぐに作れる!最初の70億パラメータの画像とテキストのハイブリッド作成モデルが正式にオープンソース化され、ワンクリックで傑作を生成

写真とテキストで、3ステップで『原神』原稿がすぐに作れる!最初の70億パラメータの画像とテキストのハイブリッド作成モデルが正式にオープンソース化され、ワンクリックで傑作を生成

手を自由にして口で入力する時代が本当に到来しました。

『原神』の宣伝原稿を書きたいとき、ネットでいろいろ資料を集めたりする必要はありません。モデルに「原神に関する記事を書くのを手伝って」と指示するだけです。

ゲームの背景、発売時期、影響など重要なポイントが記されています。次に、LLM で興味深く鮮やかなイラストを自動的に挿入することができます。

あっという間に、カスタマイズされた傑作が完成します。

では、どのようなモデルにそのような魔法の力があるのでしょうか?

InternLM-XComposer(以下「Pu Yu Ling Bi」と略します)です。これは上海人工知能研究所(上海AI実験室)が発表した初の大規模なテキストと画像の混合作成モデルです。

強力なマルチモーダルパフォーマンスにより、ワンクリックでテキストと画像が混在した記事を作成できるようになり、大規模モデルの適用の可能性が広がります。

現在、Pu Yu Ling Bi は、インテリジェント作成および対話 (InternLM-XComposer-7B) およびマルチタスク事前トレーニング (InternLM-XComposer-VL-7B) バージョンをオープンソース化し、無料で商用利用できるように提供しています。

オープンソースリンク: https://github.com/InternLM/InternLM-XComposer

技術レポート: https://arxiv.org/abs/2309.15112

上海AI実験室は今年7月以来、Shusheng·Puyu大規模言語モデルの7B(InterLM-7B)バージョンと20B(InternLM-20B)バージョンを相次いでオープンソース化し、業界に完全な大規模モデルの研究開発と応用基盤、およびフルチェーンツールシステムを提供しました。

Shusheng Puyu Large Language Model (InternLM) をベースにした Puyu Lingbi は、ビジュアルおよび言語モーダル入力を受け入れます。画像とテキストの対話で優れたパフォーマンスを発揮するだけでなく、ワンクリックで画像とテキストの両方を含む記事を「生成」する機能も備えています。

正確な画像とテキストの理解、ワンクリックで画像とテキストを認識

Pu Yulingbi は、中国語と英語のテキストと画像の対話を流暢に行うことができ、画像の内容を正確に理解することができます。 Shusheng Pu Yu の高品質な多言語事前トレーニングの利点により、Pu Yu Lingbi は中国文化に関する深い知識の蓄積を示しています。

例えば、関連する絵画を Pu Yulingbi に入力すると、絵画のテーマが「赤壁の戦い」の暗示であることをすばやく識別してフィードバックできます。また、成功または失敗に影響を与える主要な要因を正確に紹介できるため、画像の内容理解と知識の蓄積における優れたパフォーマンスが反映されています。

プー・ユリンビは中国の文化的暗示を特定する

Pu Yulingbi は、マルチモーダルテキストと画像ダイアログの「基本スキル」に加えて、画像とテキストの両方を含む記事を作成する新しい機能を解き放ちました。

大規模言語モデル (LLM) にはテキストを書く機能がありますが、高品質の記事では、より鮮明にするために正確で興味深いイラストが必要になることがよくあります。

Pu Yu Lingbi チームは、Shusheng Pu Yu の強力な言語機能をマルチモーダルに拡張し、マルチモーダル記事の作成を可能にしました。ユーザーはトピックを指定するだけで、ワンクリックで画像とテキストを含む記事を生成し、新しいビジュアルとテキストの作成パラダイムを体験できます。

たとえば、Pu Yulingbi に旅行ガイドの作成を依頼すると、モデルは歴史的変遷、主要な観光名所、文化遺産を網羅した長い記事を素早く生成し、適切な場所にテキスト情報に対応する写真を自動的に挿入することができます。

Pu Yu Ling Bi は、画像を自動的にマッチングする機能に加えて、ユーザーの実際のニーズに応じてグラフィック コンテンツをカスタマイズするための画像推奨機能と置換機能も提供します。

プー・ユリンビが中国の旅行ガイドを作成

現在、Pu Yu Ling Bi は、科学普及論文、マーケティング広告、ニュースリリース、映画やテレビのレビュー、ライフガイド、その他の種類の記事のテキストと画像の生成をすでにサポートしており、より多様なタスク要件に適応するために、徐々にさらに多くの機能を開放していきます。

Pu Yulingbiが英語の映画レビューを作成

グラフィック記事を作成する3つのステップ

Pu Yulingbi 氏は、グラフィック記事を作成するための「3 段階」アルゴリズム プロセスを設計しました。

Pu Yulingbi のグラフィックとテキスト記事の作成プロセス

ユーザーの指示を理解し、トピックの要件を満たす長い記事を作成します。Pu Yu Ling Bi は強力なライティング機能を備えており、ユーザーが入力したトピックに基づいて素晴らしい記事を作成できます。

記事をインテリジェントに分析し、モデルが自動的にイラストの理想的な位置を計画し、必要な画像の内容要件を生成します。Pu Yu Ling Bi は記事の内容と段落のレイアウトを自動的に分析し、イラスト画像が必要な位置を計画します。各モデルについて、イラストが必要な場所を決定し、画像コンテンツ要件の説明を生成します。

マルチレベル インテリジェント スクリーニングでは、大規模なマルチモーダル モデルの画像理解機能を使用して、ギャラリーから最も完璧な画像をロックします。画像コンテンツを生成するニーズに基づいて、粗いスクリーニングから細かい選択までの戦略を使用して、Pu Yu Ling Bi は最初にテキスト画像検索を使用して、大規模なギャラリーから候補画像のグループを選択します。次に、マルチモーダル大規模モデルの強力な画像理解機能を使用して、候補画像を入力コンテンツとして使用し、モデルが記事のコンテキストと全体的な画像スタイルに最も一致する画像を自動的に選択し、記事の自動イラスト化を完成させます。

能力評価: 包括的な先進オープンソースマルチモーダル大規模モデル

Pu Yulingbi の優れたグラフィックおよびテキスト作成効果は、マルチタスク事前トレーニング済みモデル (InternLM-XComposer-VL-7B) の強力なマルチモーダル理解能力によるものです。

研究者らは、以下の 5 つの主流のマルチモーダル大規模モデル評価を使用して、InternLM-XComposer-VL-7B の機能の詳細なテストを実施しました。

- MME ベンチマーク:モデルの知覚および認識機能に重点を置いた、14 のサブタスクを含むマルチモーダル モデルの包括的な評価。

- MMBench: 20 の能力次元を含み、ChatGPT ループ評価戦略を使用するマルチモーダル評価。

- MMBench-CN:質問と回答を含む MMBench レビューの簡体字中国語版。

- Seed-Bench:手動で注釈が付けられた 19,000 のマルチモーダル多肢選択式質問を含むマルチモーダル評価を提供します。

- CCBench:中国文化理解のための中国語マルチモーダルベンチマーク。

評価結果によると、上記の 5 つの中国語と英語のマルチモーダル評価において、Pu Yu Ling Pen は優れたパフォーマンスを示しました。

Puyu Lingbi と他のオープンソース モデルのパフォーマンス比較

MME ベンチマークはモデルの知覚と認識機能に重点を置いており、Puyu Lingbi は全体的なパフォーマンスで優れています。

MMBenchには20個の能力項目が含まれており、Pu Yulingbiが最高得点を達成しました。

MMBench-CN は、モデルの中国語マルチモーダル理解機能に重点を置いた MMBench 評価の中国語版です。Pu Yu Ling Bi も最高の結果を達成し、その強力な中国語能力を実証しました。

SEED-Bench は、12 の評価次元をカバーする、手動注釈付きの 19,000 のマルチモーダル多肢選択式質問を提供します。Pu Yu Lingbi は、画像コンテンツの理解において優れた精度を備えています。

中国文化を理解するために設計されたマルチモーダル評価であるCCBenchにおいて、Pu Yuling Penのテストスコアは大幅にリードしており、中国文化に関する深い知識の蓄積を鮮明に示しています。

Pu Yu Ling Bi は現在オープンソースであり、GitHub、Hugging Face、ModelScope で入手できます。開発者はぜひダウンロードして試してみてください。

<<:  AIは自己反復と最適化が可能で、わずか26秒で歩行ロボットを設計できる

>>:  「人工知能のゴッドファーザー」ジェフリー・ヒントン氏は再び警告した。AIが人間に取って代わるかもしれない

ブログ    

推薦する

...

確かな情報です!機械学習で知っておくべき 5 つの回帰アルゴリズム!

回帰アルゴリズムといえば、理解しやすく非常に単純なため、多くの人が線形回帰を思い浮かべると思います。...

Metaは14秒でビデオを再構築し、役割を変更できるため、ビデオ合成が44倍高速化されます。

今日の人工知能の発展レベルを考えると、テキストから画像への転送、画像からビデオへの転送、画像/ビデオ...

健康コードがないと旅行するのは難しいですか?顔認識により健康コードのバリアフリー利用が可能に

「公共交通機関では健康コードの提示が求められますが、提示できない場合はどうすればよいですか?」予防と...

...

...

2022年、AIネットワーク管理が信頼を高める

米国で売上高最大のソーセージブランドであるジョンソンビルソーセージのグローバルネットワークオペレーシ...

...

Googleの人工知能部門DeepMindが想像力を駆使した新システムを開発

北京時間8月19日のreadwriteによると、2014年にGoogleに買収された英国の人工知能企...

AIを活用して食材を分析し、より適切な栄養バランスを実現しましょう!

[[396039]]ビッグデータダイジェスト制作出典: Engadget編集:赤道のパンダ人工知能...

加速を解き放つ、8月の自動運転業界の動向の概要

[[419694]]チップ不足と疫病の影響により、今年初めから自動運転産業の発展は減速を余儀なくされ...

Amazon SageMaker を使用した機械学習モデルのトレーニングとデプロイ

[[248715]] [51CTO.com 速訳] re:Invent 2017 カンファレンスで ...

「新しいインフラ」に注力 - Powerleader がコンピューティングパワーで人工知能を強化

「新インフラ」の7つの主要分野の一つとして、人工知能は政策推進と産業成熟度の大幅な向上の恩恵を受け、...