医師は偶然、ある秘密を発見しました。DALL-E 2 は独自の言語を作成しましたが、その言語は人間には理解できませんが、特定のイメージを生成することができ、トラブルを引き起こす可能性があります。

医師は偶然、ある秘密を発見しました。DALL-E 2 は独自の言語を作成しましたが、その言語は人間には理解できませんが、特定のイメージを生成することができ、トラブルを引き起こす可能性があります。

DALL·E 2、この AI は実際に独自の秘密言語を作成しました。

たとえば、次の 2 つの非常に奇妙なフレーズを見てみましょう。

  • アポプロエ・ヴェスレアタイス(以下、Aと略す)
  • Contarra ccetnxniams luryca tanniounons(以下、C と略す)

(翻訳ソフトウェアがクラッシュしますが、試してみてください)

しかし、DALL・E 2になるとスタイルが全く異なります。

その見解では、A は「鳥」を意味し、C は「害虫」を意味します。

したがって、DALL·E 2 に「A は C を食べる」という文を入力すると、次のように開きます。

制作された写真はすべて、害虫を食べる鳥に関するものです。

そして、DALL·E 2 に「2 頭のクジラが食べ物について話し合う字幕付き」を生成するように指示すると、結果は次のようになります。

写真の「Wa ch zod rea」という言葉は、DALL·E 2 の語彙では実際に「食べ物」を意味します。

この事件が明らかになると、多くのネットユーザーの間で即座に白熱した議論が巻き起こった。

これらの秘密の言語を使えば、DALL·E 2 の「禁止語フィルター」を回避し、物議を醸すような画像を生成することも可能だと示唆する人もいました。

(トラブルを起こす!)

それで、DALL·E 2 のこの秘密の呪文とは何でしょうか?

予期せぬ発見

この問題を発見したのは、海外でコンピューターサイエンスを専攻する博士課程の学生でした。

彼は、DALL-E 2 モデルにテキスト付きの画像を与えると、常に奇妙な単語が出てくることに気づきました。

たとえば、「2 人の農家が野菜について話している (字幕付き)」という文章を入力すると、次のような画像が表示されます。

かなり似ていますが、字幕は何と言っていますか?英語でもフランス語でもなく、とても奇妙です。

「何を翻訳してくれているんですか?」

男は突然アイデアを思いつき、モデルに「Vicootes」という「単語」を説明として投げかけました。予想外に、次のような画像が大量に出てきました。

大根、カボチャ、トマトなどがありますが、「Vicootes」は野菜のことでしょうか?

面白い。

それから彼はバブルの中の「Apoploe vesrreaitais」という文字列を DALL-E 2 に投げました。すると、たくさんの鳥の写真が現れました。

「なるほど、それは『鳥』という意味なので、農家は野菜に影響を及ぼす鳥について話しているようですね?」

DALL-E 2 は人々を騙していないようです...

「DALL-E 2 の秘密の言語を発見した!」と若者は叫び、これが偶然であるかどうかを確かめようと計画した。

先ほど述べたクジラが食べ物について話し合っている例を引き続き使用して、その男は「Wa ch zod rea」という文字列を入力しました。

その結果、本当にたくさんの食べ物が出てきたのですが、それらはすべて魚介類であり、クジラの「食習慣」と一致していました。

DALL-E 2、真実は決して私を欺くことはない。

さらに一歩進んで、彼はこれらの「マントラ」を画像のスタイルを説明する言葉と組み合わせて、DALL-E 2 がそれらを適切に解釈できるかどうかを確認しました。

結果は良好でした。以下の「手描きの鳥」、「漫画の鳥」、「3D の鳥」、「線画の鳥」をご覧ください。

えーっと、最後の写真に蚊がいるのはなぜでしょうか?

今は無視しましょう(後で戻ってきます)。

では、なぜこのモデルはこの秘密の言語で表現されるのでしょうか?

なぜこのようなことが起こるのでしょうか?

「DALL-E 2の秘密の呪文」というホットな話題も、多くの「アナリスト」の注目を集めています。

たとえば、k1uge というネットユーザーは、問題は BPE (バイトペアエンコーディング) にあると示唆しました。

BPE は、自然言語処理における重要なエンコード方式の 1 つであり、一般的なトークン圧縮方式でもあります。多くの大規模言語モデルに使用されています。

その中心となる考え方は次のとおりです。

各ステップで、隣接するデータ ユニットの最も一般的なペアが、データに出現していない新しいユニットに置き換えられ、停止条件が満たされるまで反復が繰り返されます。

例えば。

「aaabdaaabac」という単語を圧縮する場合、BPE はまず最も一般的な隣接バイト ペアである「aa」を見つけます。

見つかったら、新しいバイト Z に置き換えることができ、単語は「ZabdZabac」になります。

同様に、次によく見られる隣接バイト ペアは「ab」であり、これは Y に置き換えられ、単語はさらに「ZYdZYac」に圧縮されます。

次によく使われる隣接するバイト ペアは「ZY」で、これが X に置き換えられ、最終的な単語は「XdXac」になります。

そこで、この原理に基づいて、ネットユーザーはDALL-E 2が使用するBPEに「鳥」がないか確認した。

それは次のようになります:

アポ plo  e  ve  sr  re  ait  ais

実際には、多くの鳥のラテン語名には「apo」と「plo」という接頭辞が付いています。

たとえば、アマツバメ科 (アマツバメ類) とハタオリドリ科 (ハタオリドリ類) は、それぞれ 100 種を超える鳥類からなる 2 つの科に属します。

たとえば、アカエイ目は 400 種以上を擁する鳥類の中で最大の目です。

そのため、このネットユーザーは、DALL-E 2 が鳥に関する情報のほとんどを、これらの「学術用語」のラベルが付けられた写真から得たと信じていました。

おそらくこれが、DALL-E 2 の秘密の呪文の理由でしょう。

しかし、逆転もある

興奮した博士号取得者は、この事件について短い論文を書き、その研究結果をツイッターに投稿した。その投稿は何千人ものネットユーザーの注目を集め、誰もが「信じられない」と叫んだ。

しかし、すぐに誰かが自分で試してみて、物事はそれほど単純ではないことが分かりました。

たとえば、「虫」を表す文字列「Contarra ccetnxniams luryca tanniounons」は、虫に加えて、カエル、牛、ハトなどの画像も生成します。

この説明に修飾語として「漫画」という言葉を追加すると、昆虫とはまったく関係のない「おばあちゃん」が生成されるのでしょうか? ?

「Apoploe vesrreaitais」は大丈夫で、まだ鳥が出てくることもあります。

しかし、再び「漫画」や「3D レンダリング」などの単語を追加すると、再び間違ったものになり、バグがいくつか出てきます。

(これは、若者の最後の例に登場した蚊にも対応します。)

野菜を表す「Vicootes」も同様です。単独で入力しても問題ありませんが、スタイル制限が加わると、登場する種が変わります。そして、基本的には「油絵」や「漫画」などのスタイル設定に準拠しているだけで、以前の名詞制限とは関係がないと言えます。たとえば、「Vicootes」+「絵画」は、純粋な風景画の束です。

その後、彼は同じ「キャプション付きで餌について話している2頭のクジラ」を使っていくつかの画像を生成したが、テキストの大部分は不明瞭で、転記できなかった。

最終的に次のようなものを見つけました:

彼が上記の「Evve waeles」を使用して再度入力したところ、デザートの写真が表示されましたが、アスリート、動物、さらにはやかんの写真が多数表示されました。

本当にちょっと混乱しています。

そこで実験者はこう言いました。

私にとって、これは DALL-E 2 の秘密の言語というよりは、ランダムなノイズのように見えます。

彼は医師にタグを付け、反対の証拠をさらに提供できることを期待した。

今のところ、その男は反応していない。

しかし、これは確かに注目と議論に値する話題です。いくつかの「呪文」と画像が一致することを考えると、それが本当に BPE コードであれば、医師が言ったことは真実である可能性があります。

一部の人々は、「ホワイト ボックス」方式を使用してこのルールのロックを解除し、モデルのフィルターを回避するために禁止された単語の「呪文」をいくつか取得します。

参考リンク:

[1] https://twitter.com/giannis_daras/status/1531693093040230402

[2] https://twitter.com/BarneyFlames/status/1531736708903051265

[3] https://twitter.com/benjamin_hilton/status/1531780892972175361

[4] https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf

[5]https://zhuanlan.zhihu.com/p/424631681

<<:  企業は機械学習の運用を活用してビジネス上の利益を得ています

>>:  GoogleはColab上のディープフェイクプロジェクトをひそかに禁止した

ブログ    

推薦する

CNNを称賛するのはやめろ。類似点と相違点さえ区別できない

[[416629]]セサミストリートには「One of These Things Is Not Li...

人工知能の簡単な歴史 | (1) ディープラーニング、人工知能の新たな盛り上がり

人工知能はまだ少し遠く、Google の巨大なデータセンターの部屋や神秘的な MIT ロボット工学研...

2020年中国インテリジェントIoT(AIoT)白書

インテリジェントなモノのインターネット(AIoT)は、2018年に登場した概念です。さまざまな情報セ...

人間支援型人工知能の6つの利点

人工知能は最近話題になっていますが、現実には人間のように考えることができるコンピューターの実現にはま...

2021年、人工知能は再び疫病との戦いで役割を果たすだろう

[[344407]] COVID-19パンデミックが世界を席巻する以前から、人工知能(AI)、特にそ...

2021年中国人工知能産業の現在の市場状況と有利な軌道の分析コンピュータビジョン軌道

——原題:2021年中国人工知能産業の市場現状と有利な軌道の分析。コンピュータビジョンは1000億...

人工知能

[[200702]] 250年以上にわたり、技術革新は経済発展の根本的な原動力となってきました。これ...

人工知能温度測定が「スタンドガード」に登場!立ち止まる必要がなく、複数人が同時に温度を測定できます

この期間中、自宅に留まっている人々は、定期的にスーパーマーケットに行って商品を購入するという問題にも...

彼らはAIを使って時の塵を拭い去り、半世紀前のアジア競技大会で中国が初めて金メダルを獲得した時の記憶を再現した。

杭州アジア競技大会初の金メダルが誕生した。女子軽量級ダブルスカルボート決勝では、中国の鄒佳琦選手と邱...

強化学習の博士号を取得して卒業することは人気がありますか? Redditユーザーがキャリアプランニングのアドバイスを求める

最近、修士号を取得して卒業しようとしているネットユーザーがネットユーザーに助けを求めました。「強化学...

人工知能の5大セキュリティ問題への対策

Google、スタンフォード大学、カリフォルニア大学バークレー校、OpenAI の研究者が論文「AI...

...

seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表

[[397649]]シーケンスツーシーケンス (seq2seq) モデルは、自然言語生成タスクに対す...

...