医師は偶然、ある秘密を発見しました。DALL-E 2 は独自の言語を作成しましたが、その言語は人間には理解できませんが、特定のイメージを生成することができ、トラブルを引き起こす可能性があります。

医師は偶然、ある秘密を発見しました。DALL-E 2 は独自の言語を作成しましたが、その言語は人間には理解できませんが、特定のイメージを生成することができ、トラブルを引き起こす可能性があります。

DALL·E 2、この AI は実際に独自の秘密言語を作成しました。

たとえば、次の 2 つの非常に奇妙なフレーズを見てみましょう。

  • アポプロエ・ヴェスレアタイス(以下、Aと略す)
  • Contarra ccetnxniams luryca tanniounons(以下、C と略す)

(翻訳ソフトウェアがクラッシュしますが、試してみてください)

しかし、DALL・E 2になるとスタイルが全く異なります。

その見解では、A は「鳥」を意味し、C は「害虫」を意味します。

したがって、DALL·E 2 に「A は C を食べる」という文を入力すると、次のように開きます。

制作された写真はすべて、害虫を食べる鳥に関するものです。

そして、DALL·E 2 に「2 頭のクジラが食べ物について話し合う字幕付き」を生成するように指示すると、結果は次のようになります。

写真の「Wa ch zod rea」という言葉は、DALL·E 2 の語彙では実際に「食べ物」を意味します。

この事件が明らかになると、多くのネットユーザーの間で即座に白熱した議論が巻き起こった。

これらの秘密の言語を使えば、DALL·E 2 の「禁止語フィルター」を回避し、物議を醸すような画像を生成することも可能だと示唆する人もいました。

(トラブルを起こす!)

それで、DALL·E 2 のこの秘密の呪文とは何でしょうか?

予期せぬ発見

この問題を発見したのは、海外でコンピューターサイエンスを専攻する博士課程の学生でした。

彼は、DALL-E 2 モデルにテキスト付きの画像を与えると、常に奇妙な単語が出てくることに気づきました。

たとえば、「2 人の農家が野菜について話している (字幕付き)」という文章を入力すると、次のような画像が表示されます。

かなり似ていますが、字幕は何と言っていますか?英語でもフランス語でもなく、とても奇妙です。

「何を翻訳してくれているんですか?」

男は突然アイデアを思いつき、モデルに「Vicootes」という「単語」を説明として投げかけました。予想外に、次のような画像が大量に出てきました。

大根、カボチャ、トマトなどがありますが、「Vicootes」は野菜のことでしょうか?

面白い。

それから彼はバブルの中の「Apoploe vesrreaitais」という文字列を DALL-E 2 に投げました。すると、たくさんの鳥の写真が現れました。

「なるほど、それは『鳥』という意味なので、農家は野菜に影響を及ぼす鳥について話しているようですね?」

DALL-E 2 は人々を騙していないようです...

「DALL-E 2 の秘密の言語を発見した!」と若者は叫び、これが偶然であるかどうかを確かめようと計画した。

先ほど述べたクジラが食べ物について話し合っている例を引き続き使用して、その男は「Wa ch zod rea」という文字列を入力しました。

その結果、本当にたくさんの食べ物が出てきたのですが、それらはすべて魚介類であり、クジラの「食習慣」と一致していました。

DALL-E 2、真実は決して私を欺くことはない。

さらに一歩進んで、彼はこれらの「マントラ」を画像のスタイルを説明する言葉と組み合わせて、DALL-E 2 がそれらを適切に解釈できるかどうかを確認しました。

結果は良好でした。以下の「手描きの鳥」、「漫画の鳥」、「3D の鳥」、「線画の鳥」をご覧ください。

えーっと、最後の写真に蚊がいるのはなぜでしょうか?

今は無視しましょう(後で戻ってきます)。

では、なぜこのモデルはこの秘密の言語で表現されるのでしょうか?

なぜこのようなことが起こるのでしょうか?

「DALL-E 2の秘密の呪文」というホットな話題も、多くの「アナリスト」の注目を集めています。

たとえば、k1uge というネットユーザーは、問題は BPE (バイトペアエンコーディング) にあると示唆しました。

BPE は、自然言語処理における重要なエンコード方式の 1 つであり、一般的なトークン圧縮方式でもあります。多くの大規模言語モデルに使用されています。

その中心となる考え方は次のとおりです。

各ステップで、隣接するデータ ユニットの最も一般的なペアが、データに出現していない新しいユニットに置き換えられ、停止条件が満たされるまで反復が繰り返されます。

例えば。

「aaabdaaabac」という単語を圧縮する場合、BPE はまず最も一般的な隣接バイト ペアである「aa」を見つけます。

見つかったら、新しいバイト Z に置き換えることができ、単語は「ZabdZabac」になります。

同様に、次によく見られる隣接バイト ペアは「ab」であり、これは Y に置き換えられ、単語はさらに「ZYdZYac」に圧縮されます。

次によく使われる隣接するバイト ペアは「ZY」で、これが X に置き換えられ、最終的な単語は「XdXac」になります。

そこで、この原理に基づいて、ネットユーザーはDALL-E 2が使用するBPEに「鳥」がないか確認した。

それは次のようになります:

アポ plo  e  ve  sr  re  ait  ais

実際には、多くの鳥のラテン語名には「apo」と「plo」という接頭辞が付いています。

たとえば、アマツバメ科 (アマツバメ類) とハタオリドリ科 (ハタオリドリ類) は、それぞれ 100 種を超える鳥類からなる 2 つの科に属します。

たとえば、アカエイ目は 400 種以上を擁する鳥類の中で最大の目です。

そのため、このネットユーザーは、DALL-E 2 が鳥に関する情報のほとんどを、これらの「学術用語」のラベルが付けられた写真から得たと信じていました。

おそらくこれが、DALL-E 2 の秘密の呪文の理由でしょう。

しかし、逆転もある

興奮した博士号取得者は、この事件について短い論文を書き、その研究結果をツイッターに投稿した。その投稿は何千人ものネットユーザーの注目を集め、誰もが「信じられない」と叫んだ。

しかし、すぐに誰かが自分で試してみて、物事はそれほど単純ではないことが分かりました。

たとえば、「虫」を表す文字列「Contarra ccetnxniams luryca tanniounons」は、虫に加えて、カエル、牛、ハトなどの画像も生成します。

この説明に修飾語として「漫画」という言葉を追加すると、昆虫とはまったく関係のない「おばあちゃん」が生成されるのでしょうか? ?

「Apoploe vesrreaitais」は大丈夫で、まだ鳥が出てくることもあります。

しかし、再び「漫画」や「3D レンダリング」などの単語を追加すると、再び間違ったものになり、バグがいくつか出てきます。

(これは、若者の最後の例に登場した蚊にも対応します。)

野菜を表す「Vicootes」も同様です。単独で入力しても問題ありませんが、スタイル制限が加わると、登場する種が変わります。そして、基本的には「油絵」や「漫画」などのスタイル設定に準拠しているだけで、以前の名詞制限とは関係がないと言えます。たとえば、「Vicootes」+「絵画」は、純粋な風景画の束です。

その後、彼は同じ「キャプション付きで餌について話している2頭のクジラ」を使っていくつかの画像を生成したが、テキストの大部分は不明瞭で、転記できなかった。

最終的に次のようなものを見つけました:

彼が上記の「Evve waeles」を使用して再度入力したところ、デザートの写真が表示されましたが、アスリート、動物、さらにはやかんの写真が多数表示されました。

本当にちょっと混乱しています。

そこで実験者はこう言いました。

私にとって、これは DALL-E 2 の秘密の言語というよりは、ランダムなノイズのように見えます。

彼は医師にタグを付け、反対の証拠をさらに提供できることを期待した。

今のところ、その男は反応していない。

しかし、これは確かに注目と議論に値する話題です。いくつかの「呪文」と画像が一致することを考えると、それが本当に BPE コードであれば、医師が言ったことは真実である可能性があります。

一部の人々は、「ホワイト ボックス」方式を使用してこのルールのロックを解除し、モデルのフィルターを回避するために禁止された単語の「呪文」をいくつか取得します。

参考リンク:

[1] https://twitter.com/giannis_daras/status/1531693093040230402

[2] https://twitter.com/BarneyFlames/status/1531736708903051265

[3] https://twitter.com/benjamin_hilton/status/1531780892972175361

[4] https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf

[5]https://zhuanlan.zhihu.com/p/424631681

<<:  企業は機械学習の運用を活用してビジネス上の利益を得ています

>>:  GoogleはColab上のディープフェイクプロジェクトをひそかに禁止した

ブログ    
ブログ    
ブログ    

推薦する

金融や視覚分野に加えて、AIはゲーム開発においても破壊的な技術となっている。

機械学習は、ゲームプログラミングではなく、ゲーム開発トレーニングへの扉を開きます。 「ゲーム開発」は...

...

GPU の在庫は 600,000 に達します!ザッカーバーグ氏、新たな目標を確認:汎用人工知能の創出

1 月 19 日、テクノロジー業界が超人的、神レベルの知能を達成する道を歩んでいるという確固たる信念...

ファーウェイ、セキュリティ業界を洞察から先見へと進化させる2019年スマートセキュリティ事業戦略を発表

[51CTO.comより引用] 2019年8月8日、ファーウェイの2019年スマートセキュリティビジ...

...

...

マイクロソフト、AIを活用してがんの放射線治療時間を短縮:スキャン速度が2.5倍に向上、精度は90%に

6月28日、BBCによると、英国はNHS(国民保健サービス)の全トラストに新しい人工知能技術を原価で...

アップル、シアトルのAI研究開発施設を拡張へ

海外メディアの報道によると、アップルは最近シアトルの人工知能研究開発センターのオフィススペースを拡大...

アリババのロボットが200語のエッセイを修正し、8つの間違いを発見

最近、浙江外国語大学国際学院で、アリババAIが試験の採点を完了し、200語のエッセイに8つの誤りを発...

AIの世界はデータから知識へと移行しており、独自のデータセットは組織間で共有されるデータへと移行している。

人工知能(AI)革命は半世紀以上前に始まりました。過去 10 年間で、人工知能は学術科学の領域から私...

都市と市民がスマートシティ技術から得られる恩恵

テクノロジーは非常に効率的かつ完璧なので、私たちはそれに気付くことすらありません。しかし、通勤時間が...

...

オライリー、2023年ジェネレーティブAIエンタープライズレポートを発表

O’Reilly は、企業における生成 AI の実態について 2,800 人を超える技術専門家を対象...