周知のとおり、OpenAI は GPT-4 以降、技術的な詳細を完全に秘密にしてきました。当初は、ベンチマーク結果を示すために技術レポートのみを使用していましたが、トレーニング データとモデル パラメータについては沈黙していました。その後、ネットユーザーがこのニュースを報じたが、OpenAIは反応しなかった。 GPT-4 のトレーニングには膨大な量のデータが必要であることは想像に難くありませんが、これはお金を払って解決できる問題ではありません。おそらく、OpenAI は Web クローラーを使用しました。多くのユーザーはOpenAIがユーザーの著作権とプライバシー権を侵害していると非難した。 ちょうど今、OpenAI がそのカードを公開しました。インターネット全体からデータをクロールする Web クローラーである GPTBot を直接リリースしたのです。 このデータは、GPT-4 や GPT-5 などの AI モデルのトレーニングに使用されます。ただし、GPTBot は、クロールされたコンテンツにプライバシー ソースを侵害し、支払いを必要とするコンテンツが含まれないことを保証します。 OpenAIは、「GPTBotを使用してWebデータをクロールすることは、AIモデルの精度、機能性、安全性を向上させることです」と述べた。 ウェブサイトの所有者は、必要に応じて GPTBot によるウェブサイト データのクロールを許可または制限できます。次に、GPTBot の仕組みを確認し、シールド方法について学びましょう。 まず、GPTBot の User-Agent 文字列は次のとおりです。 GPTBot が Web サイトにアクセスするのを禁止するには、次の方法を使用して、Web サイトの robots.txt に GPTBot を追加します。 GPTBot がサイトの特定の部分のコンテンツにアクセスできるようにすることもできます。 最近、OpenAIは明示的な承認なしにウェブサイトのデータを使ってGPT-4などの大規模言語モデルをトレーニングしたことで反発に直面した。批評家は、OpenAIのような企業は、コンテンツが一般に公開されている場合でもトレーニングプロトコルに従うべきだと主張している。また、コンテンツが AI システムに入力されると文脈から外れてしまうのではないかという懸念もあります。 しかし、ロボット プロトコルに従ったとしても、それは標準ではなく単なる慣例であるため、Web サイトのプライバシーを保証することはできません。 GPTBot のリリース以来、その開発は Hacker News 上で議論を巻き起こしており、人工知能システムをトレーニングするためにスクレイピングされた Web データを使用することの倫理性と合法性に焦点が当てられています。 GPTBot のリリースは、公開データを使用して AI モデルを開発することの「グレーゾーン」を示していると考える人もいます。 「モデルをトレーニングした後にデータをクロールしているのは素晴らしいことです。おそらく、これらのヘッダーは、GPT をトレーニングするためにすでにクロールしたページには影響しません。」 「今や彼らは反スクレーピング規制を求めてロビー活動を行い、他のあらゆる追い上げの試みを阻止することができる。」 GPTBot は自己識別するため、ウェブマスターは robots.txt を介してブロックできますが、トラフィックを促進する検索エンジン クローラーとは異なり、ブロックを許可してもメリットがないと主張する人もいます。 懸念されるのは、著作権で保護された素材が帰属表示なしで使用される場合です。 ChatGPT には現在帰属表示がありません。 GPTBot がサイト上でライセンスされた画像、ビデオ、音楽、その他のメディアをどのように扱っているのか疑問視する人もいます。これらのメディアをモデルのトレーニングに使用すると、著作権侵害にあたる可能性があります。 他の専門家は、AI が作成したコンテンツがトレーニングにフィードバックされると、クローラーによって生成されたデータによってモデルのパフォーマンスが低下する可能性があると考えています。 対照的に、OpenAI はオンライン コンテンツから学習する人に例え、公開されている Web データを自由に使用する権利があると主張する人もいます。しかし、OpenAIが商業目的でネットワークデータを収益化するのであれば、その利益を分配すべきだと主張する人もいる。 要約すると、GPTBot は、所有権、公正使用、オンライン コンテンツ作成者のインセンティブに関する複雑な議論を引き起こします。 robots.txt に従うことは良いステップですが、透明性がまだ欠けています。 AI 製品の急速な発展に伴い、「データ」はどのように活用されるべきか、これがテクノロジー業界の世論の次の焦点となるかもしれません。 |
<<: 1つのGPUで数千の環境と800万ステップのシミュレーションをわずか3秒で実行。スタンフォード大学が強力なゲームエンジンを開発
>>: もう終わりですか? LK-99は単なる強磁性体であり、超伝導体ではない。北京大学などの研究論文が発表された。
要点: AI システムが学習する前に、入力されたデータにラベルを付ける作業が必要です。これは、自動運...
簡単に言えば、機械学習とは、非常に複雑なアルゴリズムと技術に基づいて、人間の行動を無生物、機械、また...
社会が急速に変化する時代において、ブランドセーフティ戦略は分裂を招き、保護対象であるブランド評判その...
具現化された知能は、ビッグモデルの将来の応用にとって重要な方向性です。現在、大規模なモデルでサポート...
ご存知のとおり、機械学習フレームワークの分野では、PyTorch と TensorFlow がそれぞ...
これらの提案により、LLM 申請の精度が向上し、適切な LLM を選択する方法についての考慮事項も含...
[[412426]]今日は、Github 上の非常に強力な JavaScript アルゴリズムとデ...
8月1日、市場調査会社ガートナーが発表した最新のレポートによると、世界中のカスタマーサービスセンター...
画期的な論文word2vec は、当然の NeurIPS Test of Time Award を受...
論文リンク: https://arxiv.org/pdf/2309.08504.pdfコードリンク:...
3月6日火曜日(米国時間)、Googleは、検索結果に蔓延するAI生成のスパムを排除し、ユーザーが検...
[[416242]]オブジェクト検出、オブジェクト認識、セグメンテーション タスク用の自動注釈ソリュ...
表現力豊かな人間の姿勢と形状の推定 (EHPS) の分野では大きな進歩が遂げられていますが、最も先進...
[[432233]]文章1. 通訳モード言語に対して、その文法表現(言語のルールを定義するために使...