この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 ほんの数ストロークで動物の簡単なスケッチを描く方法は、多くの人が子供の頃から理解できなかった疑問です。 今では AI でもそれが可能になりました。 下の写真は、左側に3種類の動物の写真、右側にその姿や表情を線だけでAIで表現した画像です。 32 画から 4 画に減り、多くの情報が抽象化され省略されているにもかかわらず、対応する動物、特に下部の猫を識別することができ、わずか 4 本の曲線で猫の魅力を表現できます。 この馬をもう一度見てください。非常に抽象化されており、馬の頭、たてがみ、ひずめを上げて走る動作だけが残っています。ピカソの雄牛の雰囲気が少しあります。 さらに驚くべきことは、その背後にあるモデルである CLIPasso がスケッチ データセットでトレーニングされなかったことです。 つまり、抽象画の描き方を「学ぶ」ことなく、テキストの説明に従って簡単なスケッチを完成させることができるのです。 ご存知のとおり、日常のスケッチは比較的抽象的です。たとえ描く人であっても、対象の「魂」を捉えるには長い訓練が必要です。 それでは、なぜ CLIPasso はスケッチ データセットでトレーニングしなくても抽象的な棒線画の「魂」を捉えることができるのでしょうか? CLIPasso 抽象画の描き方実際、AIが抽象的なスケッチを描くのは人間よりも難しいのです。 抽象絵画が「本物」に見えるためには、意味論と幾何学的類似性の両方の正確な理解が必要です。 具体的な実装としては、まず画像の特徴マップに基づいて初期線の位置を生成し、次に CLIP を利用して 2 つの損失関数を構築し、抽象画の幾何学的類似性と意味理解の精度を制御します。 中でもCLIPはOpenAIが公開した再ランキングモデルで、スコアリングとランキング付けによりテキストとの一致度が最も高い写真を選別します。 このように、CLIPasso の全体的な構造はより明確になります。 たとえば、馬を描きたい場合、まずサリエンシーマップを使用していくつかの初期線(S 1 、S 2 …S n )の位置をマークします。 次に、ラスタライザーを使用して線をイメージング プレーンに投影します。 次のステップは、ラインパラメータを最適化することです。初期画像をCLIPモデルにインポートし、幾何学的損失(L g )と意味的損失(L s )を計算します。 意味的損失はコサイン類似度を使用して 2 つの画像間の違いを判断し、幾何学的損失は中間層を通じて制御されます。 これにより、ジオメトリが正確であると同時にセマンティクスが正確に理解され、損失が収束するまでバックプロパゲーションを通じてライン パラメータが継続的に調整されます。 スケッチの抽象化レベルをどのように制御しますか? 行数を設定するだけです。 馬を 32 本の線で描くか、4 本の線だけで描くかによって、抽象的な効果は確実に異なります。 最後に、CLIPasso で描いた絵がどの程度認識しやすいかを見てみましょう。 下の棒グラフは、5 種類の動物の識別精度を表しています。 ただし、推測するときには 6 番目の選択肢があります。それは、これら 5 匹の動物のどれでもないというものです。 写真からもわかるように、どんな動物であっても抽象度が高い(4画)と認識率は非常に低くなります。画数が増えるにつれて認識率は徐々に上がっていきます。 結局、このような抽象的な絵が何を描いているのかわからないのが普通です。 しかし、モデルチームは認識のための第 2 ラウンドのテストで 6 番目のオプションを削除したため、分類には 5 つの動物タイプのうち 1 つを選択する必要がありました。 この時点で、下の棒グラフから、非常に抽象的な 4 ストロークでも認識率が 36% から 76% に大幅に向上していることがわかります。 これは、これまで認識できなかったのは抽象的すぎるためであり、AI ピカソの絵画は依然として動物の核心的な特徴を捉えていることを示しています。 現在、このモデルには colab バージョンがあります。左側のフォルダーに抽象化したい写真を追加し、3 つの部分を実行するだけで出力写真を取得できます。 著者についてCLIPasso チームのメンバーは、主にローザンヌのスイス連邦工科大学、テルアビブ大学などから来ています。 ジェシカはETHチューリッヒのロボット工学修士課程の学生で、現在はEPFLのコンピュータービジョン研究所であるVILABでインターンシップを行っています。 イェール・ヴィンカーはテルアビブ大学のコンピューターサイエンスの博士課程の学生です。彼は芸術とテクノロジーの交わる部分に非常に興味を持っています。CLIPasso がこのように豊かな芸術的才能を持っているのも不思議ではありません。 |
>>: テスラがFSDベータ版のメジャーアップデートをリリース、完全自動運転に近づく
人工知能、データサイエンス、機械学習はすべて同じ分野に属します。問題は、この場合、どちらが正しい目的...
皆さんこんにちは、Luga です。今日も引き続き、人工知能 (AI) エコシステムに関連するテクノロ...
この分野の専門家は、AI技術が従業員に大きな変化をもたらし、企業のビジネスのやり方を変えていると述べ...
「 AI攻撃を阻止するために人力を使うことはできません。AIと戦うにはAIを使わなければなりません。...
「九章」量子コンピューティングのプロトタイプ、「天極」脳型チップ、国内最大直径のシールドマシン「景華...
ディープラーニングを使用して株価を予測することは、以前は少し神秘的に思えたかもしれませんが、新しいこ...
ディープラーニングディープフェイクの危険性: 2024 年には、特に仮想顧客サービス環境において、消...
簡単に言えば、機械学習とは、非常に複雑なアルゴリズムと技術に基づいて、人間の行動を無生物、機械、また...
数日前、テンセントの製品に違反があり、合計4回に分けて報告されました。工業情報化部はテンセントに対し...
2023年はソフトウェアテスト業界にとって変化とチャンスに満ちた年です。ソフトウェア業界の急速な発展...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
今日は、ビッグデータ、人工知能、認知問題の解決の関係ロジックについて話す記事を書こうと思います。した...
AI は、通常は人間の知能を必要とする活動を実行できるアルゴリズムを研究および開発するコンピュータ...