OpenAIの「コピー&ペースト」の背後にあるのは、盗作者が全てを無料で手に入れたいということ

OpenAIの「コピー&ペースト」の背後にあるのは、盗作者が全てを無料で手に入れたいということ

今日では、盗作された記事や作品が出版され、盗作者がそれを無料で使用したり、利益を得たりすることは珍しくありません。これはインターネットから AI まで当てはまります。

たとえば、現在人気を集めている OpenAI は、その AI モデルが使用するコンテンツに対してほとんど料金を支払わないにもかかわらず、2023 年に 13 億ドルの収益を生み出しました。

OpenAIの不満

ニューヨーク・タイムズ紙がOpenAIに対して起こした著作権訴訟において、OpenAIは「インターネット上で公開されているコンテンツをAIモデルのトレーニングに使用するのは合理的である」と反論した。

OpenAIの論理によれば、自分の作品をオンラインに公開する人は誰でも公正な対象となり、同社の大規模言語モデルに利用され組み込まれる可能性がある。

ニューヨーク・タイムズ紙は、同紙が発行した数百万の記事が現在、OpenAIによって、同社とビジネスで競合するチャットボットのトレーニングに使用されていると主張している。彼らは新聞の記者や編集者に報酬を支払うことなく、彼らの仕事から数十億ドルを稼いでいる。

OpenAIはさらに、ニューヨークタイムズがChatGPTのLLMで記事を使用しない選択をすることもできると主張した。しかし、そうだとしたら、ChatGPT がピューリッツァー賞を受賞したニューヨークタイムズの調査レポートを直接盗用したことをどう説明すればよいのでしょうか?この報告書は、ニューヨーク市のタクシー業界における略奪的融資慣行についてニューヨーク・タイムズの記者が18か月にわたって行った調査の結果である。

OpenAIは、事実に直面して、ChatGPTがいわゆる「メモリ」方式を採用した可能性があると説明した。同社は、「当社は学習と改善を続けているが、これはまれな失敗だが、特定のコンテンツがトレーニングデータに複数回出現する場合、たとえばそのコンテンツのスニペットがさまざまな公開ウェブサイトに出現する場合などは、より一般的である」と主張した。

同時に、OpenAIは「ニューヨークタイムズの報道は、既存のモデルのトレーニングに有意義な貢献をしておらず、将来のトレーニングにも十分な影響を与えないだろう」と主張した。GPT-3で最も重み付けされたデータセットはCommon Crawlであり、上位3つのデータソースはWikipedia、米国特許データベース、ニューヨークタイムズである。

盗作者はすべてを無料で手に入れたい

ウェブサイト「Futurism」のスタッフライター、ビクター・タンガーマン氏は、OpenAIの最近の記事で次のように書いている。「OpenAIのビジネスモデル全体は、著作権で保護された素材を含む、できるだけ多くのデータを収集することに依存しています。」

これは、OpenAI が英国議会へのプレゼンテーションで表明した見解でもあります。 「今日の著作権は、ブログの投稿、写真、フォーラムの投稿、ソフトウェアコードのスニペット、政府の文書など、ほぼすべての種類の人間の表現をカバーしているため、著作権で保護された素材を使用せずに主要なAIモデルをトレーニングすることは不可能です」と同社は述べた。

故 SF 作家のハーラン・エリスンは、かつて「作家への支払い」という記事の中でこう言っています。「盗作者はすべてを無料で手に入れたい。彼らは作家に報酬を支払うだろうか? いいえ、彼らは常に作家に無料で働いてほしいと思っているのです!」

これは、OpenAI やその他の生成 AI 開発者が行っていることです。彼らは出版社、出版物、作家、編集者の作品を盗み、誰にも支払うことなく利益を得ています。

歴史は繰り返す

歴史は常に繰り返される。新聞や雑誌などの出版物は、その内容がインターネットに移行し、出版社が利益を上げることができなくなったため、1990年代に衰退し始めました。これにより、Google は広告を通じてニュース メディア コンテンツを収益化できる一方で、ニュース出版物は収益を失っています。

出版社が再びこの間違いを繰り返さないことを祈ります。出版社にはそれに応じた報酬が支払われるべきです。もちろん、このような状況が再び起こる可能性もあります。そうなれば、将来がどうなるかが分かるでしょう。ブロガーでありSF作家でもあるコリー・ドクトロウは、ウェブサイトのコンテンツと情報の質の低下を指して、この状況を説明するために「エンシット化」という言葉を作り出した。

最近の調査によると、Google の検索結果は効果が低下し、スパム サイトが増えていることがわかりました。 SEO ベースや AI によって生成されたナンセンスなコンテンツが増えています。同時に、コンテンツの量に比べて質が低下すると、出版社や作家の収益が減少することになります。これはつまり、生成 AI エンジンをトレーニングするための価値あるストーリーがますます少なくなることを意味します。

OpenAI と生成 AI 開発者が賢明であるならば、その富をコンテンツ作成者と共有する必要があります。長い目で見れば、これはテクノロジー業界の億万長者であろうとフリーランスのライターであろうと、誰にとっても前進する唯一の道なのです。

<<:  マイクロソフトとIDCの最新レポート:AIへの1ドル投資で3.5ドルの利益が生まれる

>>:  Code Llama 70B は 5 か月の練習を経て GPT-4 を破り、3 回連続でチャートのトップを獲得しました。ザッカーバーグは自ら新しい

ブログ    
ブログ    
ブログ    

推薦する

Midjourneyに匹敵します!なぜミャオヤカメラは突然人気が出たのでしょうか?

編纂者:ユン・ジャオ、ワン・ルイピン、ノア「家族の写真がついに出てきました…」最近、ミャオヤカメラの...

史上最も高いガンダムロボットが横浜港で公開される。高さ18メートルで歩行も可能

2月7日、横浜港で今年10月から1年間にわたり、歩行ガンダムロボットの大規模競技会が開催されることが...

...

マイクロソフトのグローバル副社長ハリー・シャム氏:AIは社会変革を極限まで推し進める

[[248704]] 11月6日午前のニュース、第20回「21世紀のコンピューティング」学術セミナー...

...

...

【専門家がここにいるエピソード3】大量ログ分析とインテリジェントな運用・保守

1. AIOpsとインテリジェントログセンター1.1 AIOps の 5 つのレベルインテリジェント...

Google の大きな暴露: 謎の AI ツールが明らかに、Gemini が PaLM 2 に取って代わる

「大リーク:コードネームStubbsというGoogleの謎のAIツールが暴露された」と、Xという名の...

スタンフォードのAIエージェント研究が熱い! 「好奇心リプレイ」アルゴリズムにより、AIは自分自身を振り返り、積極的に新しい世界を探索することができる。

一夜にして、AI エージェントが突然インターネット全体を支配しました。業界のリーダーたちは、その焦点...

...

...

自分の写真がディープフェイクに使われるのではないかと心配ですか?ボストン大学の新しい研究を試してみてください

顔を入れ替えた動画は、DL を悪用した大きな結果です。インターネット上にあなたの写真がある限り、あな...

...

...

JD.comクラウドファンディング599元、業界最安値を突破、Nokelock X1セルフパワースマートドアロックがイノベーション革命をリード

2019年5月15日、深センIoTロックテクノロジー株式会社は北京金宇シェラトンホテルで「nokel...