OpenAI のもう一つの「大ヒット作」: AI に芸術的創造性を与える

OpenAIがまた爆弾発言をしました。

昨年夏に人気の言語モデルGPT-3を発表したOpenAIの研究チームは今月初め、DALL-Eと呼ばれる新しいAIモデルを発表した。 GPT-3ほど普及しているわけではありませんが、AIの将来の発展にさらに大きな影響を与える可能性があります。

つまり、DALL-E はテキストの説明を入力として受け取り、それに基づいて生の画像出力を生成することができます。 (DALL-E という名前は、シュールレアリストの芸術家サルバドール・ダリと、ピクサー・スタジオが作成したかわいいロボットキャラクター WALL-E にちなんで付けられました。)

たとえば、「五角形の緑の時計」、「火の玉」、「建物の壁に描かれた青いカボチャの壁画」などの入力を与えると、DALL-E は驚くほど正確なビジュアルを生成できます。

▲「建物の壁に青いカボチャの壁画」を生成するよう求められた後、OpenAIの新しいディープラーニングモデルDALL-Eは上記のオリジナル画像を生成することができた。

DALL-E が重要なのはなぜですか?

まず、これは「マルチモーダル AI」と呼ばれるまったく新しい AI パラダイムの出現を告げるものです。このパラダイムは人工知能の未来を表しているようです。 DALL-Eを例にとると、マルチモーダルAIシステムは複数の情報モードを解釈、合成、翻訳することができ、それによって状況、言語、画像をマッピングすることができます。 DALL-E は最初のマルチモーダル AI ソリューションではありませんが、これまでで最も驚くべき実用的な効果をもたらします。

OpenAIの共同創設者であるイリヤ・スツケバー氏は次のようにまとめています。「世界は言葉だけで構成されているわけではありません。人間は視覚的に自分を表現し、視覚的要素は非常に重要です。」

現在存在するほとんどの AI システムは、1 種類のデータしか処理できません。自然言語処理モデル (GPT-3 などの NLP モデル) はテキストのみを処理でき、コンピュータービジョンモデル (顔認識システムなど) は画像のみを処理できます。しかし、人間の脳が示す知能は明らかにより適応性が高く、より柔軟に情報を処理することができます。

人間は、視覚、聴覚、触覚、嗅覚、味覚の五感から常に情報を取り入れ、統合することで、周囲の世界を理解しています。これを基に、私たちは音声、テキスト、ボディランゲージ、表情、音楽など、さまざまな形でこの色彩豊かな世界に情報を伝えます。

自然言語理解と視覚的表現を生成する能力を組み合わせることで（つまり、「読み取り」と「視覚」を組み合わせることで）、DALL-E はマルチモーダル AI の大きな可能性を再び実証します。

これはほんの始まりに過ぎません。今後数か月から数年のうちに、新しい AI システムがオーディオ、ビデオ、音声、画像、テキスト、タッチなどの要素をシームレスに統合することが期待されています。 AI が複数の種類の情報をますます複雑な方法で組み合わせることを学習するにつれて、世界を理解し、新たな洞察を生み出す能力が爆発的に向上するでしょう。

DALL-E には、おそらくもっと根本的な別の意義がある。それは、人工知能に内在する膨大な創造性を人間が否定することがますます困難になりつつあるということだ。

DALL-E によって生成される画像は、人間の想像の範囲をはるかに超えています。これらは決して、インターネット上で見つかった既成画像を単純に修正したものではなく、むしろ、アーティストを驚かせるような巧妙さと独創性を備えた、前例のないレンダリングです。実際、DALL-E の開発者でさえ、それがどのように作られているのか理解していないことがよくあります。

以下、DALL-E の作品をいくつか見てみましょう。最初は「ラーメンの絵文字」、次は「アボカドでできたペンギン」でした。これらの結果が人間の設計者から生まれたものであれば、私たちは間違いなくそれを有形の創造物とみなすでしょう。この場合、DALL-E を否定または拒否する理由はまだあるのでしょうか?

▲「ラーメン丼絵文字」を元にDALL-Eが出力した画像

▲「アボカドでできたペンギン」を元にDALL-Eが生成した画像

この強力な創造性により、DALL-E は製品デザイン、ファッション、建築などの分野における AI テクノロジーの実用的な重要性を実証することができます。近い将来、人間のデザイナーは、アイデア創出の補助として、あるいはインスピレーションの源として、DALL-E のような AI システムを使用することに慣れるようになるかもしれません。

たとえば、「ドーナツスタイルのアームチェア」のデザインを依頼されたとき、DALL-E はさまざまなグラフィックオプションを提案しました。もちろん、デザインや見た目もかなり高いです。将来、家具デザイナーが DALL-E を繰り返し使用してモデルの出力を探索し、入力テキストを調整してデザインの反復を行い、最終的に AI 要素を自分の作品に導入することは想像に難くありません。同様の創造プロセスは、自動車からランプ、宝石から住宅まで、幅広い製品に適用されます。

▲「ドーナツ型アームチェア」をベースにDALL-Eで生成した出力画像

もちろん、DALL-E は完璧からは程遠く、生成される画像は入力テキストを常に正確に表すわけではありません。たとえば、色、量、空間関係などで間違いがよく起こります。

OpenAI が公開した DALL-E の動作例は、CLIP ニューラルネットワークによって分類および選別されています。各テキスト入力について、スクリーニング後、システムは 512 個のサンプルのうち最も信頼度の高い上位 32 個のサンプルのみを表示します。言い換えれば、DALL-E は実際にはより多くの画像を生成しましたが、そのほとんどは品質が低かったのです。

まとめると、DALL-E の創造力は驚異的であり、テクノロジー自体も現在も急速な進化を続けています。

AI の他の主要な開発と同様に、DALL-E は、機械は人間よりもますます賢くなっているのだろうかという古くからの疑問を思い起こさせます。

一方で、DALL-E の誕生は、超知能技術に関する誇張された発言を引き起こしました。しかし一方で、ディープラーニングの著名な批評家であるゲイリー・マーカス氏に代表される懐疑論者は、DALL-E は AI 技術の発展に具体的な推進力をもたらしていないと考えています。

マーカスの指摘は真剣に検討する価値がある。ディープラーニング（DALL-E および GPT-3 の基盤となる最先端のトランスフォーマーアーキテクチャを含む）には、インテリジェントな概念をモデル化する上で依然として重大な制限があります。

しかし、ある意味では、この議論は実は要点を外している。 OpenAI の新しいモデルが「人工汎用知能」への次のステップを示すものなのか、あるいはディープラーニングが本当に人間と同じレベルの認知能力を持つ機械知能の結果をもたらすことができるのかに関わらず、DALL-E 自体が依然として並外れた新しい機能を備えていることは疑いの余地のない事実となっています。

DALL-E とその後継製品は、人間と機械の創造的な関係に新たな可能性をもたらし、それによって莫大な経済的価値を生み出し、革新的な新興企業や製品の新たな波の基盤を築くことが期待されています。

無限の可能性に直面して、私たちはただ期待に満ち溢れていなければなりません。

<<: 2021年以降の人工知能トレンドに関する5つの予測

>>: AI技術がデータセンターの省エネに向けた新たな戦いに参入

OpenAI のもう一つの「大ヒット作」: AI に芸術的創造性を与える

このアルゴリズムチームは 2020 年に何をしましたか?

BaiduのNLP自然言語処理技術の最も包括的な分析

AI の専門家に転身した男性の感動的なストーリー。素人から Alibaba Cloud で最優秀賞を獲得するまで、彼が経験した落とし穴は 100 日間で学ぶには十分です。

調査結果：人工知能はクリエイターにより多くのファンと収入をもたらす可能性がある

現実は素晴らしい、Googleとコーネル大学が提案した実画像補完技術RealFill

ハイテク：米国は1キロメートル以内のターゲット認識を実現する長距離顔認識システムを開発

2万本の論文が過去5年間の機械学習の変遷を物語る

金メダルレベルの数学スキル：DeepMindの幾何学的推論モデルがNatureに掲載され、コードはオープンソースで、フィールズ賞受賞者が賞賛

Cloud Pak for Data 3.0は、企業のコスト削減と効率性の向上を支援し、AI導入を加速します。

人工知能は研究をどのように変えているのでしょうか?

推薦する

視覚化: 画像のテーマカラーを抽出するアルゴリズムは高度すぎませんか?

強風にも耐えられるドローン？カリフォルニア工科大学は12分間の飛行データを使い、ドローンに風の中での飛行を教える

世界のAI支出は2024年に1100億ドルに達すると予想

AI アバターが CES に登場! Samsung の Neon チャットボットは学習、進化、記憶が可能です!

北京大学の学部生がチップ研究で世界大会で優勝！筆頭著者はトップクラスのEDAカンファレンスで8本の論文を発表

「あなたのことを理解します」に向けて：ロボットは「他人の視点から考える」ことができる

人工知能を実現する方法 - データからインテリジェンスへ

AIの今後の4つの動向、人類は集団的に失業するのか？

産業用 IoT を実装するための 3 つの重要なステップ

人工知能の10の典型的な応用分野とその技術原理の詳細な説明

2024年の最大の落とし穴は？ディープラーニングに基づくエンドツーエンドの自動運転の最新レビュー

2022 年の優れたインテリジェントオートメーションのトレンドと予測