OpenAI: ニューヨークタイムズは私を攻撃するためにハッカーを雇った

OpenAI: ニューヨークタイムズは私を攻撃するためにハッカーを雇った

新聞社が雇ったハッカーが AI の巨人を攻撃するのはなぜでしょうか?

ニューヨーク・タイムズがOpenAIに対して著作権侵害で起こした数十億ドル規模の訴訟の最新動向:

最新の裁判所提出書類で、OpenAIはニューヨーク・タイムズがハッカーに金銭を支払ってChatGPTを攻撃させ、侵害結果を人為的に作り出したと主張した。

非常に異常な結果を得るためには、欺瞞的な手段を用いた何万回もの試行が必要でした。

写真

この訴訟で敗訴すれば、OpenAIにとって壊滅的な打撃となる可能性がある。

数十億ドルの罰金は大したことではありません。法的分析によると、ChatGPT でさえも完全に排除され、最初から再度トレーニングを強いられる可能性があります。

周知のとおり、アメリカの法律は過去の判例の原則に従っています。

過去数十年間のテクノロジー企業と著作権保有者を巻き込んだ訴訟において、裁判所は必ずしもテクノロジー企業の側に立っていたわけではない。

今回、OpenAI がニューヨーク・タイムズにハッカーを雇うよう提唱したことは、本当に重要です。

ニューヨークタイムズがChatGPTを攻撃した経緯

昨年12月、ニューヨーク・タイムズは、ChatGPTとCopilotの両社が許可なくコンテンツをトレーニングに使用したとして、OpenAIとその親会社であるマイクロソフトを訴えた。

当時、ニューヨークタイムズは、GPT-4 が実際の報道の段落を逐語的に暗唱する例を 100 件公開しました。

このように、ChatGPT は新聞の競合相手と見なすことができます。

写真

OpenAIは、これは脆弱性であると主張し、すでに修正中であると約束した。

具体的には、AI がトレーニング データと非常によく似たサンプルを生成すると、人間が前の文を聞いた後に条件反射として次の文を続けるのと同じように、「トレーニング データの逆流」が発生する可能性があり、誰もそれを止めることはできません。

彼らは、ニューヨークタイムズが特別なプロンプトを使用して ChatGPT に特定の記事の冒頭を出力するように要求し、次の文を要求し続けることでこの抜け穴を利用したと考えています。

OpenAI は、これらの記事全体を生成するには何万回もの試行が必要で、記事は順序どおりではなく「散在して無秩序な引用」になると見積もっています。

普通の人は ChatGPT をこのように使用したり、それを The New York Times の代わりとして考えたりはしないでしょう。

OpenAIは、ChatGPTが記事のスニペットを吐き出す順序を「省略記号を使って不明瞭にし」、ChatGPTが記事の連続した途切れないスニペットを生成したという誤った印象を与えることで、ニューヨーク・タイムズが意図的に裁判所を誤解させたと非難した。

さらに、ニューヨークタイムズは、これらの証拠を生成するために使用した特定のプロンプト、システムプロンプトが変更されたかどうか、およびその他の詳細を一度も公開しておらず、これは非常に有罪です。

プロンプトワード攻撃がハッキング行為とみなされるかどうかについては、一部のネットユーザーは、もちろんそうではないと述べている。プロンプトワードエンジニアリングが確かにエンジニアリングの一種であると認識されれば、プロンプトワード攻撃は攻撃とみなされる。

写真

現在、OpenAI は次の 2 つの主な側面から反撃しています。

1つは、この種のキューワード攻撃はOpenAIの製品利用規約の明白な違反であると主張することです。

写真

2つ目は、インターネット上の公開コンテンツが合理的に利用できることを主張することです。

そのためには、Google に頼らなければなりません。20 年前、Google は数百万冊もの書籍をスキャンして検索エンジンに載せるという大事業を行い、多くの出版社や作家協会から訴えられました。

訴訟は10年以上続き、Googleはようやく非常に苦労して勝訴し、データは公正に使用されたとの判決が下された。

当時の判決では、ユーザーは書籍の短い断片しか見ることができず、著作権で保護された書籍から長い文章を復元することは決してできないとされていた。

Google が検索機能を提供するために書籍のデジタルコピーを作成したことは、書籍の実質的な代替品を公衆に提供することなく原告の書籍に関する情報を提供することで公衆の知識を増やすという変革的な使用であった。

OpenAIだけでなく、同じく著作権訴訟に直面しているStability AIなどのAI画像生成企業も、当時のGoogleと同じことをしていると主張している。

どちらも「トレーニングデータ内の作品に関する情報を学習しますが、作品自体の創造的な表現を再現するものではありません。」

しかし、AIGC 製品が、トレーニング対象の作品と直接競合する創造的な作品を生み出すという点には議論の余地があります。

したがって、この AI 企業グループが直面している危機は、当時 Google が直面していた危機よりもさらに大きいのです。

データを売るのは遅すぎる

実際、ニューヨーク・タイムズのように AI に関して不快な経験をしたコンテンツ企業はまれです。

より多くのインターネット企業が自社のデータを売ろうと躍起になっている。結局のところ、これらの AI 企業は資金に困っているわけではない。

ソラのビデオには、OpenAIのパートナーであるShutterstockの素材の明らかな痕跡が見つかった。

写真

先週、アメリカのフォーラムであるRedditはGoogleと年間6000万ドルの契約を結び、GoogleがAIトレーニングのためにフォーラムのデータをリアルタイムで取得できるようにした。

OpenAIはずっと前から使っていたはずです。何しろサム・アルトマン自身もRedditと密接な関係があり、GPT-1よりも前のプロトタイプ研究はRedditのデータを元にチャットボットをトレーニングするというものでした。

現在、TumblrとWordPressもこれに追随し、ユーザーデータをOpenAIとMidjourneyに販売している。

写真

ユーザーはこのニュースを聞いて残念に思ったが、どうすることもできなかった。アカウントを登録する際には、データの所有権を明記した利用規約に同意する必要があった。

写真

もちろん、AI企業はこれらのデータをただ購入してAIに詰め込むだけではありません。学術界も現在、データを効率的に使用する方法を研究しています。

言語モデルのトレーニングのためのデータ選択に関する最近のレビューが公開され、さまざまなデータ選択方法を比較対照するためのフレームワークが提案され、次のことが提唱されています。

  • データ品質を直接評価し、高価なモデルトレーニングへの依存を減らすメトリックの開発など、データ選択の研究を加速します。
  • データ分布の特性をより深く理解することで、より正確なデータ選択が可能になります。
  • 計算時間をモデルトレーニングからデータ処理にシフトします。

写真

AI 生成コンテンツがインターネット上に広がるにつれ、将来的に大規模モデルのトレーニングを行う際には AI 生成データの使用を避けられなくなります。OpenAI によってトレーニングされたことを「認めた」大規模モデルがいくつあるかを見ればわかります。

同様に、中国のデータも文欣の言葉を避けることはできず、Google Gemini もジョークを飛ばしたほどだ(修正済み)。

写真

人間が昔ながらの方法で手作業で生成した大量のデータを所有するインターネット企業が、それをすぐに販売しなければ、AI は自立するようになるだろう。

参考リンク:
[1]https://s3.documentcloud.org/documents/24443836/nysd-case-612697.pdf

[2] https://arstechnica.com/tech-policy/2024/02/openai-accuses-nyt-of-hacking-chatgpt-to-set-up-copyright-suit/

[3] https://arxiv.org/abs/2402.16827

<<:  GenAI が近づくにつれて、データ ガバナンスはどのように進化するべきでしょうか?

>>:  人間と踊る!中国の6団体が制作したヒューマノイドロボットがストリートショーに進出

ブログ    

推薦する

2019 年に CIO が AI 導入をリードできる 5 つの方法

[[261760]]詳細な宿題のレビューからバックオフィスの自動化まで、AI の進歩は今後 1 年間...

マイクロソフトの社内文書が公開:パノス・パナイ氏が退社後、WindowsとSurfaceの将来について説明

マイクロソフトは9月21日午前1時、ニューヨーク市でSurfaceの新製品発表会を開催する。海外テク...

人工知能は企業マーケティングの未来を変えるのか?

企業マーケティングにおける人工知能の利点AI を取り巻くメディアの多くは否定的ですが、AI は企業の...

...

致命的な幻覚問題、GPU 代替品の開発、大規模モデルが直面するその他の 10 の課題

ChatGPT、GPT-4などのリリースにより、大規模モデル(LLM)の魅力が明らかになった一方で、...

AI業界で働く人々はどうすれば失業を回避できるのでしょうか?

「人工知能によって人間が失業したわけではない。人工知能に携わる人々が先に失業したのだ」これはもとも...

ChatGPT が「Paper Artifact」プラグインをリリースしました。キーワードなしで2億件の記事を検索、リンクは完全に本物です

ChatGPT には、「Consensus」と呼ばれる新しい「論文検索アーティファクト」プラグインが...

AI/MLを使用してテクノロジースタックを最適化し、ビジネス効率を向上させる方法

業界メディアとのインタビューで、レノボ グループのサービスおよびソリューション グループのシニア バ...

...

EUのAI法案は企業に厳しい規則と巨額の罰金をもたらす

EUが長らく議論されてきたEU AI法案を前進させ、AIの使用に関するガードレールを導入しようと最近...

GAN はたった 1 枚の画像でトレーニングできます。 Adobe が画像生成方法を改善 | オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Pythonを使用して機械学習モデルを作成する方法

導入新しいモデルをトレーニングしたときに、Flask コード (Python Web フレームワーク...

...

Baidu がモバイル検索ランキングアルゴリズムを調整し、アプリのランキング結果を改善

百度の関係者は、現在、携帯電話でPCのウェブサイトにアクセスした場合、最高の閲覧体験を得ることは難し...

高性能自動運転ドメインコントローラ設計の主要要素

[[438361]]次世代自動運転システムの設計における反復的な更新は、主に新機能の継続的な反復に反...