OpenAI のもう一つの「大ヒット作」: AI に芸術的創造性を与える

OpenAI のもう一つの「大ヒット作」: AI に芸術的創造性を与える

OpenAIがまた爆弾発言をしました。

昨年夏に人気の言語モデルGPT-3を発表したOpenAIの研究チームは今月初め、DALL-Eと呼ばれる新しいAIモデルを発表した。 GPT-3ほど普及しているわけではありませんが、AIの将来の発展にさらに大きな影響を与える可能性があります。

つまり、DALL-E はテキストの説明を入力として受け取り、それに基づいて生の画像出力を生成することができます。 (DALL-E という名前は、シュールレアリストの芸術家サルバドール・ダリと、ピクサー・スタジオが作成したかわいいロボットキャラクター WALL-E にちなんで付けられました。)

たとえば、「五角形の緑の時計」、「火の玉」、「建物の壁に描かれた青いカボチャの壁画」などの入力を与えると、DALL-E は驚くほど正確なビジュアルを生成できます。

▲「建物の壁に青いカボチャの壁画」を生成するよう求められた後、OpenAIの新しいディープラーニングモデルDALL-Eは上記のオリジナル画像を生成することができた。

DALL-E が重要なのはなぜですか?

まず、これは「マルチモーダル AI」と呼ばれるまったく新しい AI パラダイムの出現を告げるものです。このパラダイムは人工知能の未来を表しているようです。 DALL-Eを例にとると、マルチモーダルAIシステムは複数の情報モードを解釈、合成、翻訳することができ、それによって状況、言語、画像をマッピングすることができます。 DALL-E は最初のマルチモーダル AI ソリューションではありませんが、これまでで最も驚くべき実用的な効果をもたらします。

OpenAIの共同創設者であるイリヤ・スツケバー氏は次のようにまとめています。「世界は言葉だけで構成されているわけではありません。人間は視覚的に自分を表現し、視覚的要素は非常に重要です。」

現在存在するほとんどの AI システムは、1 種類のデータしか処理できません。自然言語処理モデル (GPT-3 などの NLP モデル) はテキストのみを処理でき、コンピューター ビジョン モデル (顔認識システムなど) は画像のみを処理できます。しかし、人間の脳が示す知能は明らかにより適応性が高く、より柔軟に情報を処理することができます。

人間は、視覚、聴覚、触覚、嗅覚、味覚の五感から常に情報を取り入れ、統合することで、周囲の世界を理解しています。これを基に、私たちは音声、テキスト、ボディランゲージ、表情、音楽など、さまざまな形でこの色彩豊かな世界に情報を伝えます。

自然言語理解と視覚的表現を生成する能力を組み合わせることで(つまり、「読み取り」と「視覚」を組み合わせることで)、DALL-E はマルチモーダル AI の大きな可能性を再び実証します。

これはほんの始まりに過ぎません。今後数か月から数年のうちに、新しい AI システムがオーディオ、ビデオ、音声、画像、テキスト、タッチなどの要素をシームレスに統合することが期待されています。 AI が複数の種類の情報をますます複雑な方法で組み合わせることを学習するにつれて、世界を理解し、新たな洞察を生み出す能力が爆発的に向上するでしょう。

DALL-E には、おそらくもっと根本的な別の意義がある。それは、人工知能に内在する膨大な創造性を人間が否定することがますます困難になりつつあるということだ。

DALL-E によって生成される画像は、人間の想像の範囲をはるかに超えています。これらは決して、インターネット上で見つかった既成画像を単純に修正したものではなく、むしろ、アーティストを驚かせるような巧妙さと独創性を備えた、前例のないレンダリングです。実際、DALL-E の開発者でさえ、それがどのように作られているのか理解していないことがよくあります。

以下、DALL-E の作品をいくつか見てみましょう。最初は「ラーメンの絵文字」、次は「アボカドでできたペンギン」でした。これらの結果が人間の設計者から生まれたものであれば、私たちは間違いなくそれを有形の創造物とみなすでしょう。この場合、DALL-E を否定または拒否する理由はまだあるのでしょうか?

▲「ラーメン丼絵文字」を元にDALL-Eが出力した画像

▲「アボカドでできたペンギン」を元にDALL-Eが生成した画像

この強力な創造性により、DALL-E は製品デザイン、ファッション、建築などの分野における AI テクノロジーの実用的な重要性を実証することができます。近い将来、人間のデザイナーは、アイデア創出の補助として、あるいはインスピレーションの源として、DALL-E のような AI システムを使用することに慣れるようになるかもしれません。

たとえば、「ドーナツ スタイルのアームチェア」のデザインを依頼されたとき、DALL-E はさまざまなグラフィック オプションを提案しました。もちろん、デザインや見た目もかなり高いです。将来、家具デザイナーが DALL-E を繰り返し使用してモデルの出力を探索し、入力テキストを調整してデザインの反復を行い、最終的に AI 要素を自分の作品に導入することは想像に難くありません。同様の創造プロセスは、自動車からランプ、宝石から住宅まで、幅広い製品に適用されます。

▲「ドーナツ型アームチェア」をベースにDALL-Eで生成した出力画像

もちろん、DALL-E は完璧からは程遠く、生成される画像は入力テキストを常に正確に表すわけではありません。たとえば、色、量、空間関係などで間違いがよく起こります。

OpenAI が公開した DALL-E の動作例は、CLIP ニューラル ネットワークによって分類および選別されています。各テキスト入力について、スクリーニング後、システムは 512 個のサンプルのうち最も信頼度の高い上位 32 個のサンプルのみを表示します。言い換えれば、DALL-E は実際にはより多くの画像を生成しましたが、そのほとんどは品質が低かったのです。

まとめると、DALL-E の創造力は驚異的であり、テクノロジー自体も現在も急速な進化を続けています。

AI の他の主要な開発と同様に、DALL-E は、機械は人間よりもますます賢くなっているのだろうかという古くからの疑問を思い起こさせます。

一方で、DALL-E の誕生は、超知能技術に関する誇張された発言を引き起こしました。しかし一方で、ディープラーニングの著名な批評家であるゲイリー・マーカス氏に代表される懐疑論者は、DALL-E は AI 技術の発展に具体的な推進力をもたらしていないと考えています。

マーカスの指摘は真剣に検討する価値がある。ディープラーニング(DALL-E および GPT-3 の基盤となる最先端のトランスフォーマー アーキテクチャを含む)には、インテリジェントな概念をモデル化する上で依然として重大な制限があります。

しかし、ある意味では、この議論は実は要点を外している。 OpenAI の新しいモデルが「人工汎用知能」への次のステップを示すものなのか、あるいはディープラーニングが本当に人間と同じレベルの認知能力を持つ機械知能の結果をもたらすことができるのかに関わらず、DALL-E 自体が依然として並外れた新しい機能を備えていることは疑いの余地のない事実となっています。

DALL-E とその後継製品は、人間と機械の創造的な関係に新たな可能性をもたらし、それによって莫大な経済的価値を生み出し、革新的な新興企業や製品の新たな波の基盤を築くことが期待されています。

無限の可能性に直面して、私たちはただ期待に満ち溢れていなければなりません。

<<:  2021年以降の人工知能トレンドに関する5つの予測

>>:  AI技術がデータセンターの省エネに向けた新たな戦いに参入

推薦する

将来展望: 2024 年の人工知能

生成型人工知能 (GenAI) ツールから AIOps の採用まで、AI の未来がどうなるかをご紹介...

Redditのネットユーザーが議論中!コンピューティング能力とデータは本当にすべてを解決できるのでしょうか?

誰もが知っているように、コンピューティング能力とデータは非常に重要ですが、それだけで十分でしょうか?...

企業で文明的な AI を推進するための 6 つのヒント

「文明化された AI」への期待が高まるにつれ、コンサルタントは公平で偏見のないアルゴリズムを作成する...

Metaの最新自社開発チップの結果が明らかに、7nmプロセス、RISC-V CPUを統合

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

AIが人間の翻訳者に取って代わり、有名なテクノロジーウェブサイトは13歳の従業員まで解雇し、ウェブサイトはすべてAIによって制作されている

AIは本当に人間の仕事を奪う——有名なテクノロジーウェブサイト「ギズモード」が、スペイン語チャンネル...

...

...

70%は輸入品。中国の産業用ロボットはチップのような悲劇をどう回避できるのか?

ロボットは産業の魂です。 [[386663]]しかし、私たちの身近な国である日本が、20年もの間、世...

将来、軍隊は完全に人工知能になるのでしょうか?空想するのはやめてください!全体的な傾向と方向性は変えられない

現在の国際情勢から判断すると、将来の軍事兵器の開発は主に宇宙に向けられることになるが、スペースシャト...

史上最大のAI著作権訴訟を徹底分析! OpenAI は失敗する運命にあるのでしょうか、それともニューヨーク・タイムズが勝つ可能性はゼロなのでしょうか?

ニューヨーク・タイムズによるOpenAIとマイクロソフトに対する訴訟は、AI技術の発展に影響を及ぼす...

...

...

AIエージェントに完全な人生を与えましょう! HKU NYU Xie Sainingらによる最新の知的研究:仮想は現実である

より強力な AI エージェントを構築するにはどうすればよいでしょうか?答えは、彼らに完全で現実的な世...

プレミアリーグの試合にファンを呼び戻すために AI は何ができるでしょうか?

COVID-19の影はまだ消えていないが、今年のプレミアリーグの試合の最初の週末は珍しい「好天」を...

...