OpenAI: ニューヨークタイムズは私を攻撃するためにハッカーを雇った

OpenAI: ニューヨークタイムズは私を攻撃するためにハッカーを雇った

新聞社が雇ったハッカーが AI の巨人を攻撃するのはなぜでしょうか?

ニューヨーク・タイムズがOpenAIに対して著作権侵害で起こした数十億ドル規模の訴訟の最新動向:

最新の裁判所提出書類で、OpenAIはニューヨーク・タイムズがハッカーに金銭を支払ってChatGPTを攻撃させ、侵害結果を人為的に作り出したと主張した。

非常に異常な結果を得るためには、欺瞞的な手段を用いた何万回もの試行が必要でした。

写真

この訴訟で敗訴すれば、OpenAIにとって壊滅的な打撃となる可能性がある。

数十億ドルの罰金は大したことではありません。法的分析によると、ChatGPT でさえも完全に排除され、最初から再度トレーニングを強いられる可能性があります。

周知のとおり、アメリカの法律は過去の判例の原則に従っています。

過去数十年間のテクノロジー企業と著作権保有者を巻き込んだ訴訟において、裁判所は必ずしもテクノロジー企業の側に立っていたわけではない。

今回、OpenAI がニューヨーク・タイムズにハッカーを雇うよう提唱したことは、本当に重要です。

ニューヨークタイムズがChatGPTを攻撃した経緯

昨年12月、ニューヨーク・タイムズは、ChatGPTとCopilotの両社が許可なくコンテンツをトレーニングに使用したとして、OpenAIとその親会社であるマイクロソフトを訴えた。

当時、ニューヨークタイムズは、GPT-4 が実際の報道の段落を逐語的に暗唱する例を 100 件公開しました。

このように、ChatGPT は新聞の競合相手と見なすことができます。

写真

OpenAIは、これは脆弱性であると主張し、すでに修正中であると約束した。

具体的には、AI がトレーニング データと非常によく似たサンプルを生成すると、人間が前の文を聞いた後に条件反射として次の文を続けるのと同じように、「トレーニング データの逆流」が発生する可能性があり、誰もそれを止めることはできません。

彼らは、ニューヨークタイムズが特別なプロンプトを使用して ChatGPT に特定の記事の冒頭を出力するように要求し、次の文を要求し続けることでこの抜け穴を利用したと考えています。

OpenAI は、これらの記事全体を生成するには何万回もの試行が必要で、記事は順序どおりではなく「散在して無秩序な引用」になると見積もっています。

普通の人は ChatGPT をこのように使用したり、それを The New York Times の代わりとして考えたりはしないでしょう。

OpenAIは、ChatGPTが記事のスニペットを吐き出す順序を「省略記号を使って不明瞭にし」、ChatGPTが記事の連続した途切れないスニペットを生成したという誤った印象を与えることで、ニューヨーク・タイムズが意図的に裁判所を誤解させたと非難した。

さらに、ニューヨークタイムズは、これらの証拠を生成するために使用した特定のプロンプト、システムプロンプトが変更されたかどうか、およびその他の詳細を一度も公開しておらず、これは非常に有罪です。

プロンプトワード攻撃がハッキング行為とみなされるかどうかについては、一部のネットユーザーは、もちろんそうではないと述べている。プロンプトワードエンジニアリングが確かにエンジニアリングの一種であると認識されれば、プロンプトワード攻撃は攻撃とみなされる。

写真

現在、OpenAI は次の 2 つの主な側面から反撃しています。

1つは、この種のキューワード攻撃はOpenAIの製品利用規約の明白な違反であると主張することです。

写真

2つ目は、インターネット上の公開コンテンツが合理的に利用できることを主張することです。

そのためには、Google に頼らなければなりません。20 年前、Google は数百万冊もの書籍をスキャンして検索エンジンに載せるという大事業を行い、多くの出版社や作家協会から訴えられました。

訴訟は10年以上続き、Googleはようやく非常に苦労して勝訴し、データは公正に使用されたとの判決が下された。

当時の判決では、ユーザーは書籍の短い断片しか見ることができず、著作権で保護された書籍から長い文章を復元することは決してできないとされていた。

Google が検索機能を提供するために書籍のデジタルコピーを作成したことは、書籍の実質的な代替品を公衆に提供することなく原告の書籍に関する情報を提供することで公衆の知識を増やすという変革的な使用であった。

OpenAIだけでなく、同じく著作権訴訟に直面しているStability AIなどのAI画像生成企業も、当時のGoogleと同じことをしていると主張している。

どちらも「トレーニングデータ内の作品に関する情報を学習しますが、作品自体の創造的な表現を再現するものではありません。」

しかし、AIGC 製品が、トレーニング対象の作品と直接競合する創造的な作品を生み出すという点には議論の余地があります。

したがって、この AI 企業グループが直面している危機は、当時 Google が直面していた危機よりもさらに大きいのです。

データを売るのは遅すぎる

実際、ニューヨーク・タイムズのように AI に関して不快な経験をしたコンテンツ企業はまれです。

より多くのインターネット企業が自社のデータを売ろうと躍起になっている。結局のところ、これらの AI 企業は資金に困っているわけではない。

ソラのビデオには、OpenAIのパートナーであるShutterstockの素材の明らかな痕跡が見つかった。

写真

先週、アメリカのフォーラムであるRedditはGoogleと年間6000万ドルの契約を結び、GoogleがAIトレーニングのためにフォーラムのデータをリアルタイムで取得できるようにした。

OpenAIはずっと前から使っていたはずです。何しろサム・アルトマン自身もRedditと密接な関係があり、GPT-1よりも前のプロトタイプ研究はRedditのデータを元にチャットボットをトレーニングするというものでした。

現在、TumblrとWordPressもこれに追随し、ユーザーデータをOpenAIとMidjourneyに販売している。

写真

ユーザーはこのニュースを聞いて残念に思ったが、どうすることもできなかった。アカウントを登録する際には、データの所有権を明記した利用規約に同意する必要があった。

写真

もちろん、AI企業はこれらのデータをただ購入してAIに詰め込むだけではありません。学術界も現在、データを効率的に使用する方法を研究しています。

言語モデルのトレーニングのためのデータ選択に関する最近のレビューが公開され、さまざまなデータ選択方法を比較対照するためのフレームワークが提案され、次のことが提唱されています。

  • データ品質を直接評価し、高価なモデルトレーニングへの依存を減らすメトリックの開発など、データ選択の研究を加速します。
  • データ分布の特性をより深く理解することで、より正確なデータ選択が可能になります。
  • 計算時間をモデルトレーニングからデータ処理にシフトします。

写真

AI 生成コンテンツがインターネット上に広がるにつれ、将来的に大規模モデルのトレーニングを行う際には AI 生成データの使用を避けられなくなります。OpenAI によってトレーニングされたことを「認めた」大規模モデルがいくつあるかを見ればわかります。

同様に、中国のデータも文欣の言葉を避けることはできず、Google Gemini もジョークを飛ばしたほどだ(修正済み)。

写真

人間が昔ながらの方法で手作業で生成した大量のデータを所有するインターネット企業が、それをすぐに販売しなければ、AI は自立するようになるだろう。

参考リンク:
[1]https://s3.documentcloud.org/documents/24443836/nysd-case-612697.pdf

[2] https://arstechnica.com/tech-policy/2024/02/openai-accuses-nyt-of-hacking-chatgpt-to-set-up-copyright-suit/

[3] https://arxiv.org/abs/2402.16827

<<:  GenAI が近づくにつれて、データ ガバナンスはどのように進化するべきでしょうか?

>>:  人間と踊る!中国の6団体が制作したヒューマノイドロボットがストリートショーに進出

ブログ    
ブログ    

推薦する

...

2019 ディープラーニング フレームワーク対決: PyTorch がトップ AI カンファレンスを席巻し、NeurIPS 2019 で再び優勝!

最近、Reddit のホットな投稿が機械学習コミュニティで大きな議論を巻き起こしました。 NeurI...

AI導入の課題

人々は、データ、人、ビジネスなど、AI を導入する際の課題を理解する必要があります。 [[27672...

フロントエンド上級編: よく使われるいくつかの JS 検索アルゴリズムの概要とパフォーマンス比較

[[356180]]序文今日は引き続き js アルゴリズムについてお話ししましょう。以下の説明を通じ...

生態学的な閉ループを作り、RV を運転して、愛する人を楽しい景色の中に連れて行きましょう。

夏休みがやってきました。旅行が必要です。彼/彼女にサプライズをあげたいですか?通常、私たちの旅行は自...

...

Amazon SageMaker を使用した機械学習モデルのトレーニングとデプロイ

[[248715]] [51CTO.com 速訳] re:Invent 2017 カンファレンスで ...

...

人間の生理学的パラメータのモニタリング分野に焦点を当て、Pulse Geekはウェアラブルでこの分野に参入し、AIを活用して心臓の守護者となる

近年、人工知能技術は、医療、金融、小売、教育、その他のサブ産業を含む多くの垂直分野に応用されています...

人工知能の人気は実は私たちの周りに現れているのに、私たちはそれを知らないだけなのでしょうか?

人工知能は今のところ目新しいものではありません。結局のところ、人工知能は私たちの生活のあらゆるところ...

2021年の中国の人工知能市場の現状と応用動向の分析人工知能は業界規模を5000億に押し上げ、幅広い応用産業を持っています

人工知能業界の主要上場企業:現在、国内の人工知能業界の上場企業は主に百度(BAIDU)、テンセント(...

5四半期連続で前年同期比で減少: AIはデルの危機を逆転できるか?

企業の時代はなく、時代の企業だけがある!新たなトレンドに直面しても、古い大手企業は反応が遅く、固定観...

Programiz: 多くの人がChatGPTを使ってプログラミングを学んでおり、Web開発分野はAIの影響を最も受けやすい

プログラマー育成ウェブサイトProgramizは10月18日、ChatGPTがプログラミング教育分野...

自動運転車を巡る最大の論争の一つは、それが保険業界にどのような影響を与えるかということだ。

自動運転車は新しい概念ではありません。ほぼすべての大手自動車メーカーが何らかの形の自動運転車を開発し...