Apple、たった1文で写真をレタッチできる新AIモデルMGIEを披露

Apple、たった1文で写真をレタッチできる新AIモデルMGIEを披露

2月8日、マイクロソフトの急速な発展と比較すると、AppleのAI分野における展開ははるかに控えめであるように思われるが、これはAppleがこの分野で成果を上げていないことを意味するものではない。 Appleは最近、自然言語の指示に基づいて画像を編集できる「MGIE」と呼ばれる新しいオープンソースの人工知能モデルをリリースした。

画像出典: VentureBeat および Midjourney

MGIE の正式名称は MLLM ガイド付き画像編集であり、マルチモーダル大規模言語モデル (MLLM) を使用してユーザーの指示を解釈し、ピクセルレベルの操作を実行します。 MGIE は、ユーザーが指定した自然言語コマンドを理解し、Photoshop スタイルの変更、写真のグローバル最適化、ローカル編集などの操作を実行できます。

Appleとカリフォルニア大学サンタバーバラ校の研究者は協力し、人工知能研究のトップカンファレンスの1つである2024年国際学習表現会議(ICLR)でMGIE関連の研究成果を発表する予定です。

MGIE を紹介する前に、まず MLLM を紹介したいと思います。 MLLM は、テキストと画像を同時に処理できる強力な AI モデルであり、指示ベースの画像編集機能を強化します。 MLLM はクロスモーダル理解と視覚知覚応答生成において優れた能力を示していますが、画像編集タスクではまだ広く使用されていません。

MGIE は、2 つの方法で MLLM を画像編集プロセスに統合します。まず、MLLM を使用して、ユーザー入力から表現指示を導き出します。説明は簡潔で、編集プロセスに関する明確なガイダンスを提供します。

たとえば、入力が「空をもっと青くする」である場合、MGIE は「空の領域の彩度を 20% 上げる」という命令を生成できます。

次に、MLLM を使用して、望ましい編集の潜在的な表現である視覚的な想像力を生成します。この表現は編集の本質を捉えており、ピクセルレベルの操作をガイドするために使用できます。 MGIE は、命令推論、視覚的想像力、画像編集モジュールを共同で最適化するための新しいエンドツーエンドのトレーニング スキームを採用しています。

MGIE は、単純な色調整から複雑なオブジェクト操作まで、幅広い編集状況に対応できます。モデルは、ユーザーの好みに応じてグローバル編集とローカル編集を実行することもできます。 MGIE の機能と特徴の一部を以下に示します。

  • 指示ベースの表現編集: MGIE は簡潔で明確な指示を生成し、編集プロセスを効果的にガイドします。これにより、編集の品質が向上するだけでなく、全体的なユーザー エクスペリエンスも向上します。
  • Photoshop スタイルの変更: MGIE は、切り抜き、サイズ変更、回転、反転、フィルターの追加など、一般的な Photoshop スタイルの編集を実行できます。モデルでは、背景の変更、オブジェクトの追加や削除、画像のブレンドなど、より高度な編集を適用することもできます。
  • グローバル写真最適化: MGIE は、明るさ、コントラスト、鮮明度、色バランスなど、写真の全体的な品質を最適化できます。このモデルでは、スケッチ、絵画、漫画などの芸術的な効果も適用できます。
  • ローカル編集: MGIE は、顔、目、髪、衣服、アクセサリーなど、画像内の特定の領域またはオブジェクトを編集できます。モデルでは、形状、サイズ、色、テクスチャ、スタイルなど、これらの領域またはオブジェクトのプロパティを変更することもできます。

MGIE は GitHub 上のオープンソース プロジェクトであり、ユーザーはコード、データ、事前トレーニング済みモデルを見つけることができます。このプロジェクトでは、MGIE を使用してさまざまな編集タスクを実行する方法を示すデモ ノートブックも提供されます。

<<: 

>>:  今日から彼は、黄仁訓院士です!米国工学アカデミーの2024年会員リストが発表され、清華大学の黄一東氏らが外国人会員に選出される

ブログ    

推薦する

2021年に注目すべき5つのAIトレンド

リモートワークの規模拡大と、特にサイバーセキュリティに関連する企業による必要なテクノロジーの急速な導...

自動運転車の長所と短所

長年にわたる技術の進歩により、交通はより便利になりました。 IoT アプリケーションなどの自動車技術...

第 4 次小売革命を経て、WOT の 3 人の専門家が真のスマート小売とは何かを語ります。

[51CTO.comよりオリジナル記事] 6月21日、WOT2019グローバル人工知能技術サミット...

地球全体をシミュレート: Nvidia の Earth-2 スーパーコンピューターが間もなくオンラインになります

「未来を今日どのように実現するか。その答えはシミュレーションだ」と、NVIDIAの創業者兼CEOのジ...

機械学習の発展が吹き替え技術の向上にどのように役立つか

翻訳者 | 李睿校正 | 梁哲、孫淑娟人工知能 (AI) テクノロジーはここ数年で急速に発展し、ビジ...

...

2018年に人工知能はどのように発展するでしょうか?ここに8つの予測があります

編集者注:PwCは、2018年の人工知能の開発動向を調査し、8つの予測を行ったレポートを発表しました...

...

...

...

科学ニュース!光速でのディープラーニングを実現、GPUに別れを告げる

GPU がディープラーニングを促進したのであれば、今日ではディープラーニングへの欲求はすでに GPU...

...

畳み込みニューラルネットワーク(CNN)を使用して、最大95%の精度で皮膚がんを検出します。

ドイツ、米国、フランスの研究者で構成された研究チームは、10万枚以上の画像を使用して、畳み込みニュー...

...

...