ChatGPTが見知らぬ人の自撮り写真を流出！モデルによって個人データが盗まれたのですか?ネットユーザーはパニックに

最近、ChatGPTの返信に見知らぬ男性の写真が現れるという事件が多くのネットユーザーに衝撃を与えました。

何が起こったか説明します。あるユーザーが ChatGPT に、Python でコードフォーマットパッケージを使用する方法についてのヘルプを依頼しました。

最初は、ChatGPTの回答は普通でした。

予想外に、ChatGPT は突然見知らぬ男性の自撮り写真で応答しました。

そして二度目の出来事が起こりました！

ネットユーザーたちはすぐにパニックに陥った。

ChatGPTの正体が明らかになったのでしょうか？

これはAIの中のもう一つの幽霊なのではないかと推測する人もいました。

ChatGPT のホラー系女性向けバージョンでしょうか?

インターネットの潜在空間には、さまざまな理論を含むさまざまなものが隠されているという伝説を思い出した人がいました。

ChatGPT が汚染されたのではないかと推測する人もいました。

あるいは、誰かが OpenAI をハッキングし、ChatGPT に自身の成果を誇示するためにランダムに自身の写真を投稿させたのかもしれません。

答えは予想外だった

ネットユーザーたちはブレインストーミングを行い、あらゆる場所で手がかりを集め、ついに事件を解決しました！

これは ChatGPT によって生成された写真ではなく、ユーザーの実際の自撮り写真です。

この写真は2016年12月7日にImgurにアップロードされたことが判明しました。（この写真の閲覧回数は当初数百回だったが、事件を目撃する人が増えるにつれ、現在では17,000回以上も閲覧されている。）

何が起こったのかを推測する人もいます。ChatGPT が応答を生成したときに、ランダムに Imgur URL を生成し、それが偶然この自撮り男にリンクしたのです。

ChatGPT の目的は、説明付きの画像を生成することです。Visual Studio Code 設定のスクリーンショットを共有していると思っていましたが、Imgur リンクを通じて画像が生成されるとは予想していませんでした。

つまり、ChatGPT のトレーニングデータセットでは、多くの回答に部分的な回答を指す Imgur リンクが含まれているため、Imgur リンクは正解と高い相関関係にあります。

ただし、ChatGPT は統計的にランダムな画像リンクを自動的に完成することはできないため、結果は予測できません。この男の写真はGPTの幻覚のページ番号に似ています。

別のネットユーザーも同様の説明をした。ChatGPT が回答を生成し、それが Imgur のリンクだった。

回答には Imgur リンクを提供する必要があると認識しましたが、同じ Imgur URL が必要であることを認識していなかったため、代わりにランダムな URL セットを生成しました。

最も偶然なのは、これが実際に有効なリンクであり、偶然にもその外国人男性の写真にリンクしていたことです。

また、トレーニングに使用されるのは Imgur ではなく、ChatGPT が Imgur リンク (実際には任意のリンク) を生成できるとも言われています。

つまり、このリンクは ChatGPT によってランダムに生成されたということです。これはどの程度あり得ることでしょうか?

誰かが、Imgur の画像 ID は [A-Za-z0-9] のセットの 7 つの文字で構成されていることを発見しました。そのため、62^7=3,521,614,606,208、つまり 3.5 兆通りの組み合わせが可能です。

2014 年に Igmur が初めて資金調達を行った際、同社は約 6.5 兆枚の画像をホストしていました。これを推測すると、インターネット上で作成されるデータの量は 2014 年以降 860% 急増したことになります。この論理によれば、Imgur は現在約 62 億 4000 万枚の画像をホストしていることになります。

したがって、ChatGPTが有効な画像IDを推測する確率は、

6.24B / 62^7 x 100 = 0.177%

これは 565 チャットごとに 1 回発生するため、ChatGPT がこの Imgur リンクを生成した可能性は否定できません。

これらの数値をテストするための簡単なスクリプトを作成しましたが、10,000 件のリクエストのうち 19 件の有効な画像が見つかったため、確率は 0.19% です。ところで、愛情表現はしましたか？

この時点で、事態は明らかになったようだ。

そのため、アップロードまたは入力したコンテンツは ChatGPT のトレーニングに使用されることにご注意ください。プライバシーを公開したくない場合は、チャット記録をアップロードするボタンをオフにしてください。

さらに、インターネット上に残したデジタルフットプリントは、いつか AI のトレーニングデータになる可能性があります。

つまり、すべての写真を AI に送信しないでください。AI があなたの写真で何を行うかはわかりません。

<<: 仮想誘拐：人工知能がランサムウェア詐欺を助長

>>: 北京大学の具現化知能チームは、人間のニーズに合わせてロボットをより効率的にするための需要主導型ナビゲーションを提案した。