OpenAIが「公式クローラー」をリリース: GPT-5はこれでトレーニングされ、必要に応じてブロックできる

OpenAIが「公式クローラー」をリリース: GPT-5はこれでトレーニングされ、必要に応じてブロックできる

周知のとおり、OpenAI は GPT-4 以降、技術的な詳細を完全に秘密にしてきました。当初は、ベンチマーク結果を示すために技術レポートのみを使用していましたが、トレーニング データとモデル パラメータについては沈黙していました。その後、ネットユーザーがこのニュースを報じたが、OpenAIは反応しなかった。

GPT-4 のトレーニングには膨大な量のデータが必要であることは想像に難くありませんが、これはお金を払って解決できる問題ではありません。おそらく、OpenAI は Web クローラーを使用しました。多くのユーザーはOpenAIがユーザーの著作権とプライバシー権を侵害していると非難した。

ちょうど今、OpenAI がそのカードを公開しました。インターネット全体からデータをクロールする Web クローラーである GPTBot を直接リリースしたのです。

このデータは、GPT-4 や GPT-5 などの AI モデルのトレーニングに使用されます。ただし、GPTBot は、クロールされたコンテンツにプライバシー ソースを侵害し、支払いを必要とするコンテンツが含まれないことを保証します。

OpenAIは、「GPTBotを使用してWebデータをクロールすることは、AIモデルの精度、機能性、安全性を向上させることです」と述べた。

ウェブサイトの所有者は、必要に応じて GPTBot によるウェブサイト データのクロールを許可または制限できます。次に、GPTBot の仕組みを確認し、シールド方法について学びましょう。

まず、GPTBot の User-Agent 文字列は次のとおりです。

 User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

GPTBot が Web サイトにアクセスするのを禁止するには、次の方法を使用して、Web サイトの robots.txt に GPTBot を追加します。

 User-agent: GPTBot Disallow: /

GPTBot がサイトの特定の部分のコンテンツにアクセスできるようにすることもできます。

 User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/

最近、OpenAIは明示的な承認なしにウェブサイトのデータを使ってGPT-4などの大規模言語モデルをトレーニングしたことで反発に直面した。批評家は、OpenAIのような企業は、コンテンツが一般に公開されている場合でもトレーニングプロトコルに従うべきだと主張している。また、コンテンツが AI システムに入力されると文脈から外れてしまうのではないかという懸念もあります。

しかし、ロボット プロトコルに従ったとしても、それは標準ではなく単なる慣例であるため、Web サイトのプライバシーを保証することはできません。

GPTBot のリリース以来、その開発は Hacker News 上で議論を巻き起こしており、人工知能システムをトレーニングするためにスクレイピングされた Web データを使用することの倫理性と合法性に焦点が当てられています。

GPTBot のリリースは、公開データを使用して AI モデルを開発することの「グレーゾーン」を示していると考える人もいます。

「モデルをトレーニングした後にデータをクロールしているのは素晴らしいことです。おそらく、これらのヘッダーは、GPT をトレーニングするためにすでにクロールしたページには影響しません。」

「今や彼らは反スクレーピング規制を求めてロビー活動を行い、他のあらゆる追い上げの試みを阻止することができる。」

GPTBot は自己識別するため、ウェブマスターは robots.txt を介してブロックできますが、トラフィックを促進する検索エンジン クローラーとは異なり、ブロックを許可してもメリットがないと主張する人もいます。

懸念されるのは、著作権で保護された素材が帰属表示なしで使用される場合です。 ChatGPT には現在帰属表示がありません。

GPTBot がサイト上でライセンスされた画像、ビデオ、音楽、その他のメディアをどのように扱っているのか疑問視する人もいます。これらのメディアをモデルのトレーニングに使用すると、著作権侵害にあたる可能性があります。

他の専門家は、AI が作成したコンテンツがトレーニングにフィードバックされると、クローラーによって生成されたデータによってモデルのパフォーマンスが低下する可能性があると考えています。

対照的に、OpenAI はオンライン コンテンツから学習する人に例え、公開されている Web データを自由に使用する権利があると主張する人もいます。しかし、OpenAIが商業目的でネットワークデータを収益化するのであれば、その利益を分配すべきだと主張する人もいる。

要約すると、GPTBot は、所有権、公正使用、オンライン コンテンツ作成者のインセンティブに関する複雑な議論を引き起こします。 robots.txt に従うことは良いステップですが、透明性がまだ欠けています。

AI 製品の急速な発展に伴い、「データ」はどのように活用されるべきか、これがテクノロジー業界の世論の次の焦点となるかもしれません。

<<:  1つのGPUで数千の環境と800万ステップのシミュレーションをわずか3秒で実行。スタンフォード大学が強力なゲームエンジンを開発

>>:  もう終わりですか? LK-99は単なる強磁性体であり、超伝導体ではない。北京大学などの研究論文が発表された。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

海底撈のIPOは1000億元規模:将来、厨房に必要なのはエンジニア2人だけ

[[245580]] 2018年9月26日、海底撈国際ホールディングス株式会社(06862.HK)が...

1 つの記事で NLP 実装の難しさを理解する

[51CTO.comからのオリジナル記事] 近年、自然言語処理技術は徐々に最も広く使用されている人工...

インテリジェントロボットはCOVID-19パンデミックとの戦いでどのように大きな役割を果たすことができるのでしょうか?

COVID-19の流行がもたらした厳しい課題に直面して、科学技術はそれに対抗する最も強力な武器の一...

AIはプログラマーの仕事を破壊する最初のものとなるでしょうか?プログラマーの90%は就職が難しくなっていると考えており、大学生もキャリアプランの調整が必要

一夜にしてプログラマーは仕事を見つけられなくなるようですね?海外メディアのマザーボードとブラインドが...

人工知能は人々を失業させるだけでしょうか?マッキンゼーの調査と分析では、異なる答えが出ました。

AIへの追加投資は2030年までに雇用の5%に貢献し、創出される追加の富は労働需要を促進し、雇用を...

Google は、DQN と同等で、より優れた一般化パフォーマンスを備えた 2 つの新しい強化学習アルゴリズムを実装しました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIが銀行業務をどう変えるか

今日、人工知能 (AI) は多くの業界に多くの資産と利点をもたらし、チャットボットから Siri や...

AIOpsの構築と導入を成功させるための3つの要素

今日、ビッグデータ アプリケーションがビジネスのあらゆる側面で急増しているため、IT チームは膨大な...

重要なポイントを強調します。最大2億元の支援、AIイノベーション開発パイロットゾーンの5つの重点政策を理解する

[[344168]] 2019年8月、科学技術部は「国家新世代人工知能イノベーション開発パイロットゾ...

自動運転の浮き沈み:バブルが消えた後

[51CTO.comよりオリジナル記事] 静かな2019年を経て、自動運転業界は新年を迎え、徐々に活...

人気は高まり続け、医療AIは業界の爆発的な成長の重要なポイントに達している

現在、世界の注目は5Gに集中しているが、人工知能の発展も軽視できない。わが国では、継続的な優遇政策の...

劉玉樹:人工知能における中国と米国の格差は縮まっているが、まだやるべきことはある

著者の劉玉樹氏は中国人民大学重陽金融研究所学務委員会委員、マクロ研究部部長、研究者である。本稿は11...

CNN モデルの圧縮と加速アルゴリズムのレビュー

[[201727]]序文AlexNet が ILSVRC 2012 ImageNet 画像分類コンテ...

...