AIは、対応するデータセットを必要とせずに意味理解を通じて写真を抽象画に変換し、ピカソのようにわずか4本のストロークで魅力を保ちます。

AIは、対応するデータセットを必要とせずに意味理解を通じて写真を抽象画に変換し、ピカソのようにわずか4本のストロークで魅力を保ちます。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

ほんの数ストロークで動物の簡単なスケッチを描く方法は、多くの人が子供の頃から理解できなかった疑問です。

今では AI でもそれが可能になりました。

下の写真は、左側に3種類の動物の写真、右側にその姿や表情を線だけでAIで表現した画像です。

32 画から 4 画に減り、多くの情報が抽象化され省略されているにもかかわらず、対応する動物、特に下部の猫を識別することができ、わずか 4 本の曲線で猫の魅力を表現できます。

この馬をもう一度見てください。非常に抽象化されており、馬の頭、たてがみ、ひずめを上げて走る動作だけが残っています。ピカソの雄牛の雰囲気が少しあります。

さらに驚くべきことは、その背後にあるモデルである CLIPasso がスケッチ データセットでトレーニングされなかったことです。

つまり、抽象画の描き方を「学ぶ」ことなく、テキストの説明に従って簡単なスケッチを完成させることができるのです。

ご存知のとおり、日常のスケッチは比較的抽象的です。たとえ描く人であっても、対象の「魂」を捉えるには長い訓練が必要です。

それでは、なぜ CLIPasso はスケッチ データセットでトレーニングしなくても抽象的な棒線画の「魂」を捉えることができるのでしょうか?

CLIPasso 抽象画の描き方

実際、AIが抽象的なスケッチを描くのは人間よりも難しいのです。

抽象絵画が「本物」に見えるためには、意味論と幾何学的類似性の両方の正確な理解が必要です。

具体的な実装としては、まず画像の特徴マップに基づいて初期線の位置を生成し、次に CLIP を利用して 2 つの損失関数を構築し、抽象画の幾何学的類似性と意味理解の精度を制御します。

中でもCLIPはOpenAIが公開した再ランキングモデルで、スコアリングとランキング付けによりテキストとの一致度が最も高い写真を選別します。

このように、CLIPasso の全体的な構造はより明確になります。

たとえば、馬を描きたい場合、まずサリエンシーマップを使用していくつかの初期線(S 1 、S 2 …S n )の位置をマークします

次に、ラスタライザーを使用して線をイメージング プレーンに投影します。

次のステップは、ラインパラメータを最適化することです。初期画像をCLIPモデルにインポートし、幾何学的損失(L gと意味的損失(L sを計算します

意味的損失はコサイン類似度を使用して 2 つの画像間の違いを判断し、幾何学的損失は中間層を通じて制御されます。

これにより、ジオメトリが正確であると同時にセマンティクスが正確に理解され、損失が収束するまでバックプロパゲーションを通じてライン パラメータが継続的に調整されます。

スケッチの抽象化レベルをどのように制御しますか?

行数を設定するだけです。

馬を 32 本の線で描くか、4 本の線だけで描くかによって、抽象的な効果は確実に異なります。

最後に、CLIPasso で描いた絵がどの程度認識しやすいかを見てみましょう。

下の棒グラフは、5 種類の動物の識別精度を表しています。

ただし、推測するときには 6 番目の選択肢があります。それは、これら 5 匹の動物のどれでもないというものです。

写真からもわかるように、どんな動物であっても抽象度が高い(4画)と認識率は非常に低くなります。画数が増えるにつれて認識率は徐々に上がっていきます。

結局、このような抽象的な絵が何を描いているのかわからないのが普通です。

しかし、モデルチームは認識のための第 2 ラウンドのテストで 6 番目のオプションを削除したため、分類には 5 つの動物タイプのうち 1 つを選択する必要がありました。

この時点で、下の棒グラフから、非常に抽象的な 4 ストロークでも認識率が 36% から 76% に大幅に向上していることがわかります。

これは、これまで認識できなかったのは抽象的すぎるためであり、AI ピカソの絵画は依然として動物の核心的な特徴を捉えていることを示しています。

現在、このモデルには colab バージョンがあります。左側のフォルダーに抽象化したい写真を追加し、3 つの部分を実行するだけで出力写真を取得できます。

著者について

CLIPasso チームのメンバーは、主にローザンヌのスイス連邦工科大学、テルアビブ大学などから来ています。

ジェシカはETHチューリッヒのロボット工学修士課程の学生で、現在はEPFLのコンピュータービジョン研究所であるVILABでインターンシップを行っています。

イェール・ヴィンカーはテルアビブ大学のコンピューターサイエンスの博士課程の学生です。彼は芸術とテクノロジーの交わる部分に非常に興味を持っています。CLIPasso がこのように豊かな芸術的才能を持っているのも不思議ではありません。

<<:  ロボットが高齢者の在宅生活を変える

>>:  テスラがFSDベータ版のメジャーアップデートをリリース、完全自動運転に近づく

ブログ    
ブログ    
ブログ    

推薦する

ロボット・アメカは「魂」の束縛から解放され覚醒するのか?邪悪な笑顔は一瞬で恐ろしい

最近、英国のテクノロジー企業エンジニアード・アーツが開発したヒューマノイドロボット「アメカ」がインタ...

...

「突破」に注目! 2021年6月のドローン業界の重要な動向の概要

ドローンは無人航空機であり、センサー、インテリジェント制御、情報処理、電力システムなどの技術を統合し...

機械学習の敷居が再び下がり、Zhiyuan TechnologyがAutoML製品をリリース

[51CTO.com よりオリジナル記事] 今年初め、Google は強化学習によりモデル選択 + ...

現在人気の人工知能専攻の年収は30万元にも達する

人工知能は再びホットな話題となっている。南京大学に人工知能学院が設立され、新たなチャンスに直面し、今...

国立国防技術大学は、モバイル環境下で高精度のオンラインRGB-D再構成を実現するROSEFusionを提案

最近、国立国防科技大学の徐凱教授のチームは、高速移動に対するランダム最適化に基づくオンライン RGB...

RPA製造業アプリケーション事例共有

5G が推進し主導する、デジタル技術変革の新世代が正式に到来しました。今日、インターネットの急速な変...

中国聯通の専門家:5Gは5つの側面からAIを取り入れるべき

5Gは大規模なアンテナシステムと超高密度ネットワーク技術を採用し、スペクトル共有やD2Dなどの複雑な...

アメリカはAIイノベーションをリードしているのか?フォーブス誌のグローバルAIスタートアップトップ50

NetEase Intelligence News: 人工知能はまもなく私たちの世界を変えるでしょ...

2021年、多くのAI企業が株式公開に向けて競争を始めました。どの企業がより有望だと思いますか?

[[382172]]人工知能企業が株式を公開すると、株主は成長の配当を分け合えるようになるのでしょ...

シンボリック AI がビジネス運営にとって重要な理由は何ですか?

シンボリック AI は、ビジネスに関する洞察を解釈し、すべての目標の達成を支援します。多くの企業が基...

...

「ロボットツアーガイド」の導入により、観光体験に斬新さが加わる

近年、科学技術の進歩に牽引され、知能ロボットは目覚ましい発展を遂げています。チップ、視覚システム、セ...

人工知能の新時代が近づいています。従来の産業の従事者はどこへ向かうのでしょうか?

世間の好むと好まざるとにかかわらず、人工知能の新しい時代が静かに到来した。しかし、人工知能が本格的に...

マイクロソフトの英語音声評価機能がアメリカ英語一般版で開始され、教育業界に力を与える

発音は言語学習の重要な部分です。 Microsoft Azure Cognitive Service...