OpenAI: 著作権のあるコンテンツを使用しないと、ChatGPTのようなAIモデルを開発することはできない

OpenAI: 著作権のあるコンテンツを使用しないと、ChatGPTのようなAIモデルを開発することはできない

IT Homeは1月10日、ChatGPTの開発元であるOpenAIが最近、ChatGPTのようなAIツールの開発は著作権で保護された素材と切り離せないものであることを認め、これらの素材がなければこれらのツールは生まれなかっただろうと述べたと報じた。デイリー・テレグラフによると、OpenAIは英国貴族院通信・デジタル問題特別委員会の大規模言語モデルに関する調査に提出した文書の中でこの声明を発表した。

ChatGPTや画像ジェネレーターDALL-EなどのAIモデルが強力なのは、膨大な量のコンテンツでトレーニングされているからである。そのコンテンツの一部はインターネット上で公開されているコンテンツから収集されており、必ずしも著作権者の許可を得ているわけではない(OpenAIはトレーニングコンテンツの一部にライセンスを与えている)。この「自由な」クローリング手法は、学術的な機械学習研究において長い歴史がありますが、最近、ディープラーニング AI モデルが商用化されるにつれて、厳しい監視を受けるようになりました。

「現在、著作権はブログ投稿、写真、フォーラム投稿、ソフトウェアコードの一部、政府文書など、人間の表現のほぼすべてをカバーしているため、著作権で保護されたコンテンツを使用せずに今日の主要なAIモデルをトレーニングすることは不可能だ」とOpenAIは貴族院への提出書類で述べた。

OpenAIはさらに、トレーニングデータが「1世紀前の」パブリックドメインの書籍や図面に限定されている場合、「現代の市民のニーズを満たす」AIシステムをトレーニングすることは不可能であると述べた。

IT Homeは、昨年12月にニューヨーク・タイムズがOpenAIとOpenAIの主要投資家であるマイクロソフトを相手取り、同紙のコンテンツを自社製品で許可なく違法に使用したとして訴訟を起こしたことを報じた。 OpenAIは月曜日に自社のウェブサイトでこの訴訟に反応し、訴訟には根拠がないとし、ジャーナリズムと報道機関との提携に対する支持を改めて表明した。

OpenAIの抗弁は主に「フェアユース」という法理に基づいており、これは特定の状況下で著作権者の許可なく著作権で保護されたコンテンツを限定的に使用することを許可するものだ。同社は、著作権法ではそのような素材をAIモデルのトレーニングに使用することを禁止していないと主張している。

「AIモデルのトレーニングにインターネット上で公開されている素材を使うのはフェアユースだという見解は、長年にわたり広く受け入れられてきた前例によって裏付けられている」とOpenAIは月曜日に公開したブログ記事に記した。「この原則はクリエイターにとってフェアであり、イノベーターにとって必要であり、アメリカの競争力にとって極めて重要であると私たちは信じている」

OpenAIがAIトレーニングデータに関してフェアユースの抗弁を主張したのは今回が初めてではない。 8月には、OpenAIはコメディアンのサラ・シルバーマンによる著作権訴訟に対して、フェアユースを理由に公開素材の使用を擁護した。 OpenAIは、このコメディアンが著作権の範囲を「誤解」しており、大規模言語モデルのような最先端のAIイノベーションが発展するために必要な余地を残す「公正使用」などの制限や例外を考慮に入れていなかったと主張した。

<<:  マルチモーダル LLM を自動運転の意思決定者として使用すると、説明可能になります。 SenseTimeの特別なシナリオの純粋なエンドツーエンド処理よりも優れています

>>:  コードコーパス、大規模モデル、インテリジェントエージェントの魔法の杖を振ると、より強力なエネルギーが呼び出されます

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

AI業界は依然として寒い冬に:資金調達規模はピーク時の半分以下、上場ブームは倒産の波を伴う

[[351301]]資本の冬を経験した後、疫病のブラックスワンが次々と起こり、AI初期に蓄積された非...

現代ロボットの父:スーパーAIは単なる空想

編集者注: この記事は、MIT Technology Review の副編集長兼編集長であり、AP ...

AIがIT業界とAV業界にもたらす変化

[51CTO.com クイック翻訳]人工知能が情報技術 (IT) 業界とオーディオビジュアル (AV...

ChatGPTは来週Androidでリリースされ、事前登録が開始されました

ChatGPTは来週Android版をリリースすることを公式に発表し、Google Playストアで...

面接の質問: Nginx の負荷分散アルゴリズムはどのように実装されていますか?なぜ動きと静止を区別する必要があるのでしょうか?

面接の質問Nginx の負荷分散アルゴリズムはどのように実装されていますか? Nginx の負荷分散...

トップ 10 のディープラーニング フレームワークの比較分析

2016 年が過ぎ、BEEVA Labs のデータ アナリスト Ricardo Guerrero G...

...

人工知能は人間の臨床試験に取って代わることができるでしょうか?

2013年のノーベル化学賞受賞者であるアリエ・ワーシェル氏は、COVID-19パンデミックと製薬業...

無人運転技術がますます成熟するにつれて、将来も運転免許証を取得する必要があるのでしょうか?それは確かだ

北京や上海などの街では、特別な車をよく見かけます。これらの車は車体の上部と側面に特別な装置が付いてい...

TensorFlow から Theano まで: 7 つのディープラーニング フレームワークの水平比較

ディープラーニング プロジェクトを開始する前に、適切なフレームワークを選択することが非常に重要です。...

AI、機械学習、IoTが健康を改善する7つの方法

[[402211]]画像ソース: https://pixabay.com/images/id-575...

CNN の弱点を見つけ、MNIST の「ルーチン」に注意する

[[191828]] CNN は現在非常に人気のあるモデルです。多くの画像検索問題において、CNN ...

ディープラーニングモデルの知的財産権をどのように保護するか? IJCAI 2021ワークショップの内容をご覧ください

先日終了したIJCAI 2021カンファレンスでは、「ディープラーニングモデルの知的財産保護に関する...