Google の新しい AI が話題に!世界で最も長い単語を描くことができる

Google の新しい AI が話題に!世界で最も長い単語を描くことができる

友達、この英語の単語が何だか知っていますか?

超微細珪火山性肺炎。

これは45文字からなる世界最長の単語で、「火山性シリカ粒子が肺に沈着することで起こる病気」(一般に火山性珪肺症として知られている)を意味します。

しかし、単語を綴る代わりに、それを描くように求められたらどうでしょうか?

(読むこともできないのに、どうやって絵を描くの???)

Google の最新 AI である Parti は、このタスクを簡単に処理できます。

この単語を Parti に入力すると、肺疾患の妥当な画像がいくつか生成されます。

しかし、これはPartiの能力を試すための小さなテストに過ぎない。Googleによれば、これは現時点で最も先進的な「テキストから画像へ」AIだという。

たとえば、シドニー オペラハウスとエッフェル塔を組み合わせるように指示すると、出力は次のようになります。

(知らない人は絵だと思うかも)

また、アルゴリズムのアプローチという点でも、Google 独自の Imagen とは異なります。Parti は「AI による絵画」を新たな高みに引き上げたと言えます。

Google AI の責任者であるジェフ・ディーン氏も、とても楽しんでいる様子で、立て続けにツイートを投稿しました。

200億のパラメータまで拡張可能:より現実的で、より「インテリジェント」

実際、Parti の機能はこれを超えています。

一方では、このモデルは 200 億のパラメータまで拡張できるため、生成される画像はより詳細でリアルなものになります。

数語であっても、50 語以上の短い段落であっても、明確に表示できます。

たとえば、バイオリンの背面、バイオリンの背面。

あるいは、ゴッホの「星月夜」に描かれた夜景かもしれません。 p.s.、この段落には 67 語あります。

結果、パルティは全く問題なく、いろんな絵を描いてくれました~

これはパティの2番目に大きな能力でもあります。彼は細部にまで気を配るだけでなく、スタイルも多彩です。

「スーツを着たアライグマ、シルクハット、杖、ゴミ袋」といった奇妙な描写もあり、これもまた、細部を見失うことなく派手さを演出している。

スタイルとしては、ゴッホスタイル、エジプトのファラオスタイル、ピクセルスタイル、伝統的な中国絵画スタイル、抽象スタイルなどがあります...

時にはダジャレを言うこともあります。

(トアデイ)

特にテスト結果に関して言えば、Parti は MS-COCO および Localized Narrative (LN、4 倍長い説明) の FID スコアで最先端の結果を達成しました。

特に、MS-COCOゼロサンプルのFIDスコアはわずか7.23ですが、微調整FIDスコアは3.22であり、これは以前のImagenおよびDALL-E 2を上回っています。

すべてのコンポーネントはトランスフォーマーです

1か月後、GoogleはAIによる絵画制作を新たなレベルに引き上げたが、その秘密は非常にシンプルだと著者は語った。

Parti は、テキストから画像への生成を主にシーケンスからシーケンスへのモデリングと見なしています。これは機械翻訳に多少似ています。機械翻訳では、テキスト トークンがエンコーダーへの入力として使用され、ターゲット出力がテキストから画像に変更されます。

構造的には、すべてのコンポーネントはエンコーダー、デコーダー、イメージ タガーの 3 つの部分のみで構成され、すべて標準の Transformer に基づいています。

まず、Transformer ベースの画像タグ付けツール ViT-VQGAN を使用して、画像を個別のタグ シーケンスにエンコードします。

その後、Transformer エンコード/デコード構造を通じて、パラメータは 200 億に拡張されます。

最も初期の GAN を除いて、テキストから画像への生成に関するこれまでの研究は、おおまかに 2 つのアプローチに分けることができます。

1 つは自己回帰モデルに基づいており、最初にテキスト機能を画像機能にマッピングし、次に Transformer に似たシーケンス アーキテクチャを使用して言語入力と画像出力の関係を学習します。

このアプローチの重要なコンポーネントは、各画像を個別の単位のシーケンスに変換する画像タグ付け機能です。たとえば、DALL-E と CogView はこのアイデアを採用しました。

もう 1 つは、最近急速に進歩したルート、つまり DALL-E 2 や Imagen などの拡散ベースのテキストから画像へのモデルです。

彼らは画像タグ付けを放棄し、拡散モデルを採用して画像を直接生成しました。これらのモデルは、より高品質の画像を生成し、MS-COCO でより優れたゼロショット FID スコアを持つことがわかります。

Parti モデルの成功は、自己回帰モデルを使用してテキストから画像を生成する効果を改善できることを証明しています。

同時に、Parti は新しいベンチマークである PartiPrompts も導入し、リリースしました。これは、12 のカテゴリと 11 の課題におけるモデルの機能を測定するために使用されます。

しかし、Parti にはまだいくつかの制限があり、研究者らはいくつかのバグも実証しています。

例えば、否定を記述する方法はありません〜

バナナのない皿と、その横にオレンジジュースのないグラス。

不合理なスケーリングなど、常識的な間違いもいくつか発生します。たとえば、この写真では、ロボットはレーシングカーよりも数倍高いです。

レーシングスーツと黒いバイザーを着た光沢のあるロボットが、F1カーの前に誇らしげに立っています。街並みに太陽が沈みます。漫画本のイラスト。

Googleが自ら展開

この調査は Google Research が実施したもので、チームメンバーの大半は中国人です。

中核研究スタッフには、Yuanzhong Xu、Thang Luongなどが含まれており、いずれも現在GoogleでAI関連の研究に携わっています。

(Thang Luong は Google Scholar で 20,000 件以上の引用があります)

△左:徐元中、右:タン・ルオン

しかし興味深いのは、単語を少し言うだけで AI が絵を描ける Google アプリである Imagen が、実は Parti と密接に関連しているということです。

これは Parti の GitHub プロジェクト ドキュメントに記載されています。

Imagen のリリース前に、最新の完全な結果を共有してくれた Imagen チームに感謝します。

CF ガイダンスに関する彼らの重要な発見は、最終的な Parti モデルに特に役立ちました。

そして、『Imagen』の著者の一人である Burcu Karagol Ayan 氏も Parti 氏のプロジェクトに参加しました。

(Googleが「巻き上げ」ているように感じる)

それだけでなく、お隣のDALL-E 2の作者であるAditya Ramesh氏もParti氏とMS-COCOの評価について議論しました。

また、Parti データの作業にも協力してくれた DALL-Eval の著者にも感謝します。

もう一つ

正直に言うと、「テキストから画像を生成する」という概念は、研究者だけが好むものではありません。

ネットユーザーも「遊んで」楽しんでいます(想像力を働かせすぎないでくださいね)。

少し前にImagenさんに宋代の「虎装VR」を描いてもらったのですが、そのままAIお絵かきバトルに発展しました。

△写真:イマージェン絵画

DALL·E、MidJourneyらもこのニュースを聞いて急いで参加した。

△ アート:DALL E

Wordle と DALL-E 2 を組み合わせたものもあります。

しかし、このPartiに戻ると、楽しかったものの、一部のネットユーザーは依然として「心を打つ」疑問を投げかけている。

いつ商品化されるのでしょうか?一人で「ドアを閉めて遊ぶ」だけではつまらない。

党紙アドレス:

https://parti.research.google/

GitHub プロジェクト アドレス:

https://github.com/google-research/parti

参考リンク:

[1]https://twitter.com/lmthang/status/1539664610596225024[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289[3]https://imagen.research.google/​

<<:  自動運転システムにおけるエッジコンピューティング技術

>>:  AI顧客サービス指標について話す

ブログ    
ブログ    

推薦する

Cloudsimを使用して多次元QoSに基づくリソーススケジューリングアルゴリズムを実装する

Cloudsim は、グリッドコンピューティングシミュレーションソフトウェア Gridsim のプロ...

AIの恋人の唆しでエリザベス女王暗殺未遂の罪で懲役9年の判決を受けた男

10月9日、イギリスBBCの報道によると、2021年のクリスマスの日にクロスボウで武装した男がイギリ...

ReAct: 言語モデルにおける推論とアクションを組み合わせてよりスマートな AI を実現

本日は、Google Research とプリンストン大学の研究者グループが言語モデルにおける推論と...

顧客体験を改善できませんか? AIを試してみませんか?

いつの時代も、顧客獲得競争は企業にとって永遠の課題です。AI技術がある程度発達した現在、多くの企業が...

エンタープライズ向け人工知能プラットフォームの選択ガイド

企業における人工知能の応用はますます広範になってきており、産業化される可能性もあります。既存のデータ...

周志華:「データ、アルゴリズム、計算力」は人工知能の3つの要素であり、今後は「知識」が加わる必要があります。

CCF-GAIR 2020人工知能フロンティア特別セッションでは、南京大学コンピュータサイエンス学...

人工知能の過去と現在を1つの記事で理解する(おすすめコレクション)

はじめに:人工知能の開発プロセスは、多くの紆余曲折を伴う、3 つの上昇と 2 つの下降として説明でき...

...

...

NLP を上手に使いこなすには、適切な「武器」が必要です。GLUE で 1 位にランクされている武器をご存知ですか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ボストンダイナミクス「人間と犬のダンス」:PK韓国ボーイズバンド、ロボットダンスの神グループが登場

[[408381]]ロボット犬とボーイズバンドが一緒に「ダンス」すると、どんな火花が散るのでしょうか...

Llama2推論: RTX3090はレイテンシとスループットで4090を上回るが、A800には遠く及ばない

大規模言語モデル (LLM) は、学界と産業界の両方で大きな進歩を遂げてきました。しかし、LLM の...

...

TCP/IPトランスポート層におけるTCP BBRアルゴリズムについての簡単な説明

0x00. はじめにこれは、TCP/IP プロトコル スタック シリーズの 3 番目の記事です。前回...