OpenAIの「コピー&ペースト」の背後にあるのは、盗作者が全てを無料で手に入れたいということ

OpenAIの「コピー&ペースト」の背後にあるのは、盗作者が全てを無料で手に入れたいということ

今日では、盗作された記事や作品が出版され、盗作者がそれを無料で使用したり、利益を得たりすることは珍しくありません。これはインターネットから AI まで当てはまります。

たとえば、現在人気を集めている OpenAI は、その AI モデルが使用するコンテンツに対してほとんど料金を支払わないにもかかわらず、2023 年に 13 億ドルの収益を生み出しました。

OpenAIの不満

ニューヨーク・タイムズ紙がOpenAIに対して起こした著作権訴訟において、OpenAIは「インターネット上で公開されているコンテンツをAIモデルのトレーニングに使用するのは合理的である」と反論した。

OpenAIの論理によれば、自分の作品をオンラインに公開する人は誰でも公正な対象となり、同社の大規模言語モデルに利用され組み込まれる可能性がある。

ニューヨーク・タイムズ紙は、同紙が発行した数百万の記事が現在、OpenAIによって、同社とビジネスで競合するチャットボットのトレーニングに使用されていると主張している。彼らは新聞の記者や編集者に報酬を支払うことなく、彼らの仕事から数十億ドルを稼いでいる。

OpenAIはさらに、ニューヨークタイムズがChatGPTのLLMで記事を使用しない選択をすることもできると主張した。しかし、そうだとしたら、ChatGPT がピューリッツァー賞を受賞したニューヨークタイムズの調査レポートを直接盗用したことをどう説明すればよいのでしょうか?この報告書は、ニューヨーク市のタクシー業界における略奪的融資慣行についてニューヨーク・タイムズの記者が18か月にわたって行った調査の結果である。

OpenAIは、事実に直面して、ChatGPTがいわゆる「メモリ」方式を採用した可能性があると説明した。同社は、「当社は学習と改善を続けているが、これはまれな失敗だが、特定のコンテンツがトレーニングデータに複数回出現する場合、たとえばそのコンテンツのスニペットがさまざまな公開ウェブサイトに出現する場合などは、より一般的である」と主張した。

同時に、OpenAIは「ニューヨークタイムズの報道は、既存のモデルのトレーニングに有意義な貢献をしておらず、将来のトレーニングにも十分な影響を与えないだろう」と主張した。GPT-3で最も重み付けされたデータセットはCommon Crawlであり、上位3つのデータソースはWikipedia、米国特許データベース、ニューヨークタイムズである。

盗作者はすべてを無料で手に入れたい

ウェブサイト「Futurism」のスタッフライター、ビクター・タンガーマン氏は、OpenAIの最近の記事で次のように書いている。「OpenAIのビジネスモデル全体は、著作権で保護された素材を含む、できるだけ多くのデータを収集することに依存しています。」

これは、OpenAI が英国議会へのプレゼンテーションで表明した見解でもあります。 「今日の著作権は、ブログの投稿、写真、フォーラムの投稿、ソフトウェアコードのスニペット、政府の文書など、ほぼすべての種類の人間の表現をカバーしているため、著作権で保護された素材を使用せずに主要なAIモデルをトレーニングすることは不可能です」と同社は述べた。

故 SF 作家のハーラン・エリスンは、かつて「作家への支払い」という記事の中でこう言っています。「盗作者はすべてを無料で手に入れたい。彼らは作家に報酬を支払うだろうか? いいえ、彼らは常に作家に無料で働いてほしいと思っているのです!」

これは、OpenAI やその他の生成 AI 開発者が行っていることです。彼らは出版社、出版物、作家、編集者の作品を盗み、誰にも支払うことなく利益を得ています。

歴史は繰り返す

歴史は常に繰り返される。新聞や雑誌などの出版物は、その内容がインターネットに移行し、出版社が利益を上げることができなくなったため、1990年代に衰退し始めました。これにより、Google は広告を通じてニュース メディア コンテンツを収益化できる一方で、ニュース出版物は収益を失っています。

出版社が再びこの間違いを繰り返さないことを祈ります。出版社にはそれに応じた報酬が支払われるべきです。もちろん、このような状況が再び起こる可能性もあります。そうなれば、将来がどうなるかが分かるでしょう。ブロガーでありSF作家でもあるコリー・ドクトロウは、ウェブサイトのコンテンツと情報の質の低下を指して、この状況を説明するために「エンシット化」という言葉を作り出した。

最近の調査によると、Google の検索結果は効果が低下し、スパム サイトが増えていることがわかりました。 SEO ベースや AI によって生成されたナンセンスなコンテンツが増えています。同時に、コンテンツの量に比べて質が低下すると、出版社や作家の収益が減少することになります。これはつまり、生成 AI エンジンをトレーニングするための価値あるストーリーがますます少なくなることを意味します。

OpenAI と生成 AI 開発者が賢明であるならば、その富をコンテンツ作成者と共有する必要があります。長い目で見れば、これはテクノロジー業界の億万長者であろうとフリーランスのライターであろうと、誰にとっても前進する唯一の道なのです。

<<:  マイクロソフトとIDCの最新レポート:AIへの1ドル投資で3.5ドルの利益が生まれる

>>:  Code Llama 70B は 5 か月の練習を経て GPT-4 を破り、3 回連続でチャートのトップを獲得しました。ザッカーバーグは自ら新しい

推薦する

ユニサウンド、50倍の性能を誇る世界初のIoT向けAIチップを発売

業界をリードするモノのインターネット(IoT)人工知能サービス企業であるUnisoundは、約3年間...

【専門家がここにいるエピソード6】インタラクションのための人工知能

[51CTO.comからのオリジナル記事] 今回のライブ番組「ビッグネームがやってくる」のゲストは、...

IoTとAIがスマートホームにもたらす効果

スマートシティ建設が国家戦略となり、ハイテクが急速に発展するにつれて、スマートシティはバージョン1....

AIは細胞構造の識別において人間にはできないことができる

[[390952]]人工知能 (AI) を使用して細胞の 3D 構造にラベルを付けて識別することは、...

人工知能システムが薬剤耐性菌を殺す新しい抗生物質を発見

海外メディアの報道によると、人工知能技術を利用した新薬の発見は成果を上げているようだ。マサチューセッ...

...

...

モバイクの尹大飛氏:人工知能が何百万台もの自転車の運行改善に貢献

[51CTO.comより引用] 2017年7月21日から22日まで、51CTO主催の人工知能をテーマ...

EUはAI規制のルールを強化する計画で、最も厳しい法案を発表

欧州委員会は4月21日にAIに関する法案草案を正式に発表した。 81ページに及ぶ草案では、EUは社会...

...

...

8x7B オープンソース MoE が Llama 2 に勝ち、GPT-4 に迫る!欧州版OpenAIがAI界に衝撃を与え、22人の企業が半年で20億ドルの評価額を獲得

オープンソースの奇跡が再び起こりました。Mistral AI が初のオープンソース MoE 大規模モ...

ビッグデータと AI は食品・飲料業界の発展にどのように役立つのでしょうか?

[[320404]]デジタル化は金融サービスからヘルスケアまでほぼすべての業界に混乱をもたらしてお...