左に狂気、右に合理性、真ん中にアルゴリズム

著者: Qianshan

校正：ウー・ムー

テクノロジーの進歩により、AIは大きな発展の可能性を示しています。世界チャンピオンを破った最初の人間の囲碁プレイヤーである AlphaGo から、自分自身をプログラムできる AlphaCode まで、AI の可塑性はしばしば驚くべきものです。しかし、顔認識に伴うプライバシーの問題や、大量のフェイクニュースの自動生成など、AIに関連する論争は常に存在しています。

今日、OpenAIが新たに発表したDALL・E 2システムが再び注目を集めています。このシステムは、テキストの説明に基づいてさまざまな絵を自動的に生成できます。これらの絵はリアルなだけでなく、奇妙な表現力を持つことも少なくありません。しかし、この機能の背後では、偏見や偽造に関する懸念が再び浮上しています。なぜなら、テクノロジーは善でも悪でもないが、人間の本質はその試練に耐えられないかもしれないからだ。

タイムズスクエアでテディベアがスケートボードをしているのを見たことがありますか?宇宙飛行士が宇宙で馬に乗っているのを見たことがありますか?

DALL-E 2 では、現実には存在しない上記 2 つの画像を「見る」ことができます。

DALL-E 2とは何ですか?これは、世界的に有名なOpenAIが開発したテキスト画像変換ツールであるDALL-Eの最新バージョンであり、最近ちょっとしたブレイクスルーを起こして話題を呼んでいるAIシステムでもあります。

DALL-E 2: 画質の向上と二次創作機能の強化

2021年1月、OpenAIはDALL-Eを作成しました。このシステムは、GPT-2/GPT-3 言語モデルと CLIP 画像認識システムに基づいて生成されています。 DALL-Eという名前は、シュールレアリストの画家サルバドール・ダリとピクサーアニメ「ウォーリー」の主人公ウォーリーの名前を組み合わせたものから来ていると考えられています。

DALL-E 2は、第1世代のDALL-Eと比較して、精度とリアリティがそれぞれ71.7%と88.8%向上し、画質の質的飛躍を実現しました。たとえば、第 1 世代の DALL·E イメージピクセルは 256×256 しかありませんが、DALL·E 2 ピクセルは 1024×1024 に達し、解像度が高く、レイテンシが低くなっています。

たとえば、「クロード・モネ風の日の出の野原に座るキツネの絵画」という同じテキストの説明に対して、2 世代のシステムによって生成される画像には明らかな違いがあります。直感的に見ると、左側（DALL-E 1）はラフな漫画のように見え、ぼやけていますが、右側（DALL-E 2）は鮮明度が大幅に向上し、まさに油絵のような質感になっています。

画像出典: OpenAI公式サイト

さらに、DALL-E 2 には、写真の編集やレタッチに使用できる「インペインティング」と「バリエーション」という 2 つの新機能が追加されました。

画像の修復は、既存の画像の一部をローカルに変更するプロセスです。具体的には、DALL·E 2 は、ソファの枕を子犬に置き換えたり、おもちゃのアヒルをプールに置いたりするなど、元の画像とシームレスに接続しながら、AI が生成した画像を使用して画像内の個々のオブジェクトを塗りつぶしたり置き換えたりします。

画像出典: OpenAI公式サイト

「バリエーション」とは、画像を設計図として使用し、異なる角度やスタイルで新しい画像を再現することを意味します。ユーザーはオリジナルの画像をアップロードしてさまざまなスタイルの変更を加えたり、2 つの画像にオブジェクトを重ねて新しい画像を生成することもできます。

画像出典: OpenAI公式サイト

ブレークスルーと課題: リアルな画像が生成される仕組み

Open AI が発表した新バージョン DALL-E 2 は、CLIP と呼ばれるコンピュータービジョンシステムをベースにしています。 CLIP は、何億もの画像とそれに関連するキャプションを使用してトレーニングされ、特定のテキストスニペットが画像にどの程度関連しているかを学習します。

注目すべきは、OpenAI が CLIP を反復して「unCLIP」 (説明に基づいて画像生成の目標に向かって動作する新しいシステム) を作成し、それを DALL-E 2 に使用したことです。 unCLIP は、CLIP の欠点、つまり「人がオブジェクトに別の意味を持つ単語のラベルを付けることによって、システムが見たものを誤って識別するように仕向けることができる」という欠点を部分的に改善することができます。

たとえば、飛行機の写真に「車」というラベルが付けられているなど、間違った名前のオブジェクトがシステムに教えられた場合、後でユーザーが「車」の画像を生成したいときに、代わりに飛行機の画像が生成されることがあります。このプロセスは、間違った単語を覚えた人と話すようなものです。この点では、unCLIP は CLIP よりもはるかに優れたパフォーマンスを発揮します。

同時に、新しいシステムは拡散モデルをサポートします。拡散モデルは、ランダムなポイントによって形成されたパターンから始まり、より具体的な記述の焦点が得られると徐々に画像に変化します。その利点は、多様性と忠実性をトレードオフできるガイド付き技術と組み合わせて使用すると、高品質の合成画像を生成できることです。

しかし、テキストから画像への生成に関する研究は進歩しているものの、DALL-E 2 もトレーニングの盲点によって制限されているように、常に不満足な側面があります。

例えば、学習画像と正しいラベルを通じて理解した「サル」という単語をDALL-E 2に入力すると、興味深いサルの画像がたくさん生成されます。しかし、「ホエザル」と入力しても、「ホエザル」が何であるかを学習していないと、それが実際に種の名前であることを認識できません。すると、DALL-E 2 は、最も良い結果であると考えられるもの、つまり叫んでいる猿を表示します。現状では、DALL-E 2 の可能性と限界は同様に顕著かつ明確です。

テクノロジーは探求する必要があるが、人間の本質は探求できない

興味深いことに、Open AI は DALL-E モデルを完全に公開したことはありません。現在、ユーザーは公式ウェブサイトでアカウントを登録するとツールをプレビューできます。関係する研究者らは、段階的なプロセスを継続して技術を安全に公開したいとだけ述べている。

DALL-E 2 の成果は素晴らしいものですが、この技術の背後に隠れた懸念にすでに多くの人が気づいています。アルゴリズムが発足当初から批判されてきた偏りの問題はさておき、本物とほとんど区別がつかない写真の質だけでも、人々に恐怖感を与えるのに十分だ。アリゾナ州立大学のコンピュータサイエンス教授スバラ氏はこう語った。「良いことに使うこともできますが、ディープフェイクの写真や動画など、もっとクレイジーなことに使うこともできます。」

GPT-3 がフェイクニュースの作成に使用された疑いがあったのと同様に、DALL-E 2 などの画像生成ツールも悪用される可能性があります。シームレスに見える偽の写真を誰でも簡単に大量に出力できるようになったら、誰もが危険にさらされるまでに長い時間がかかるのでしょうか? 「人々はオンラインで目にするほとんどすべてのものに対して疑念を持たざるを得なくなるだろう」ということに疑いの余地はない。

DALL-E 2に関する海外メディアの報道で、ある読者は次のように指摘した。「もしこの件が公表されたら、最も賢明なのはインターネットやテレビから完全に距離を置き、インターネットで見たものを伝えようとする人々との接触を避けることだ。将来ホログラム画像が主流になれば、私たちは未来の世代のためにディストピア的な地獄を作り出すことになるだろう。」

OpenAIもこれを予測しており、DALL-Eの構築を継続しながら、画像の偏りや誤情報などの潜在的な問題に対処するための保護戦略を採用すると述べています。これらの対策には以下が含まれます。

DALL-E 2 によって生成された画像には、人工知能から生成されたものであることを示す透かしが入ります。

DALL-E 2 は、不良素材を除外した後のデータに基づいてトレーニングされます。理想的には、有害なコンテンツを生成する能力は制限されています。

不正使用防止機能により、DALL-E 2 が名前で認識可能な人物の顔を勝手に生成するのを防ぎます。

ユーザーは、このツール上で「憎悪のシンボル、ヌード、卑猥なジェスチャー、進行中の主要な地政学的出来事に関連する陰謀や解説をアップロードしたり作成したりすること」が禁止されている。

ユーザーは、画像を生成するために人工知能が行った変更を説明する必要があり、生成された画像をソフトウェアやウェブサイトを通じて他人に渡すことはできません。

結果がどうなるかはわかりませんが、少なくとも DALL-E 2 は依然として「ディープボックス」に閉じ込められています。もちろん、DALL-E 2 の強力な機能により、これまでは不可能だった方法で画像を使って自分を表現できるようになったことは認めざるを得ません。これまでは、「アボカドのような椅子」、「ギターを弾くホッキョクグマ」、「ダリ風の空中庭園」、「モヒカン刈りのモナリザ」などがどのようなものかは誰も知りませんでした。現在、DALL-E2 により、これらすべてを現実に近い形で一般公開できるようになりました。同時に、DALL-E 2 は、複雑な人工知能システムがどのように私たちの世界を観察し理解するかを人々に理解させるのにも役立ちます。これは、有用で安全な AI を開発する上で非常に重要です。

参考リンク:

https://openai.com/dall-e-2/

https://www.assemblyai.com/blog/how-dall-e-2-actually-works/

https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing?scrolla=5eb6d68b7fedc32c19ef33b4

https://www.seattletimes.com/business/technology/meet-dall-e-the-ai-that-draws-anything-at-your-command/?utm_campaign=Artificial+Intelligence+Weekly&utm_medium=email&utm_source=Artificial_Intelligence_Weekly_270

https://www.bilibili.com/video/BV1L3411n7nd?spm_id_from=333.337.search-card.all.click

<<: 自動運転時代のヒューマンマシンインタラクションの発展動向

>>: GoogleのAIチップ設計能力は人間より優れているのか？社内研究者が疑問を呈し解雇された