速報です！ OpenAIがByteDanceアカウントを禁止！コンテンツ生成のための GPT の不正使用に関する内部告発

ノアが編集

海外メディアのザ・ヴァージは北京時間今朝未明、生成AIをめぐる熾烈な競争の中で、バイトダンスが密かにOpenAIの技術を使って「近道をとっている」と報じ、バイトダンスが中国でGPT生成データを使って自社の大規模モデルをトレーニングし、マイクロソフトとOpenAIの開発者ライセンスを侵害していると指摘した。その後まもなく、OpenAIの広報担当者ニコ・フェリックス氏は声明を発表し、バイトダンスのアカウントが停止され、さらなる調査が行われることを確認した。

1. 「彼らはすべてが合法であることを確認したいが、本当に捕まりたくないだけなのだ」

海外メディアは、バイトダンスの行動はOpenAIの利用規約に違反していると報じた。この条項では、モデルの出力は「当社の製品やサービスと競合する AI モデルの開発」には使用できないと規定されています。 ByteDanceは、同様のポリシーを持つMicrosoftを通じてOpenAIの使用権を購入している。

しかし、記者のアレックス・ヒース氏は、バイトダンスの内部文書を見たところ、モデルのトレーニングや評価を含むほぼすべての開発段階で、バイトダンスはOpenAI APIに依存して、コード名「プロジェクト・シード」と呼ばれる基本的な大規模モデルを開発していることが確認できると述べた。

報道によれば、バイトダンスが約1年前に社内で「シードプロジェクト」を立ち上げて以来、同プロジェクトは優先度の高い秘密プロジェクトとなっているという。この業務に従事する従業員は、別途秘密保持契約に署名する必要があります。関係する従業員も、この暴露の影響を十分に認識しています。アレックス・ヒース氏は、フェイシュの国際版であるラークの内部通信記録で、「データの感度低下」を通じて証拠を「ごまかす」方法についての会話を見たことがある。「乱用があまりにも横行していたため、シードプログラムの従業員は API アクセスの上限に達することがよくありました。」

内部文書によれば、シードプログラムの初期段階では、OpenAIプラットフォームの使用はより悪質なものだったという。しかし数か月前、バイトダンスはチームに対し、「モデル開発のどの段階でも」GPTで生成されたテキストの使用をやめるよう命じた。バイトダンスが中国規制当局の承認を得て、AIビッグモデル「豆宝」を通じてシードプランを開始したのはこの頃だった。

それでもアレックス氏は、このAPIの使用方法は、Beanbagの背後にあるモデルのパフォーマンス評価を含め、OpenAIとMicrosoftの利用規約に違反していると述べた。記事では、バイトダンスの内部事情に詳しいと主張する内部告発者の言葉を引用し、「彼らは全てが合法であることを確認したいと言っているが、本当は捕まりたくないだけだ」と述べている。

2. OpenAIの対応: さらなる調査のためアカウントを停止

バイトダンス、マイクロソフト、OpenAIの広報担当者はいずれもこの報道に反応した。

報告書に詳述された事実に対して、バイトダンスの広報担当者ジョディ・セス氏は、GPTで生成されたデータはシードプログラムの初期開発段階でモデルに注釈を付けるために使用され、今年半ば頃にバイトダンスのトレーニングデータから削除されたと述べた。

「バイトダンスはマイクロソフトからGPT APIの使用ライセンスを取得しました」と彼女は述べた。「当社は中国以外の市場で製品や機能を動かすためにGPTを使用していますが、中国でのみ利用可能なDoubaoを動かすために独自に開発したモデルを使用しています。」

「Azure OpenAIサービスのようなマイクロソフトのAIソリューションは、当社の限定アクセスフレームワークの一部であり、すべての顧客はアクセスを申請し、マイクロソフトから承認を受ける必要がある」とマイクロソフトの広報担当フランク・ショー氏は声明で述べた。「当社はまた、顧客が責任を持って当社の利用規約を遵守してこれらの技術を使用できるよう、基準を設定し、リソースを提供しているほか、企業が当社の行動規範に違反した場合には、不正使用を検出してアクセスを停止するプロセスも整備している」

OpenAIの広報担当者ニコ・フェリックス氏は、ByteDanceのアカウントが停止されたことをレポートの著者に認めた。「当社の技術が適切に使用されるよう、すべてのAPI顧客は当社の使用ポリシーを遵守する必要があります。ByteDanceによる当社APIの使用は最小限ですが、さらなる調査のためアカウントを停止しました。使用がこれらのポリシーに準拠していないことが判明した場合、必要な変更を行うか、アカウントを終了するよう要求します。」

3. グレーゾーン: クレイジーなレースでリスクを負う

今年初めから、OpenAIが立ち上げた生成AIコンペティションでは、大手企業も新興企業も、ある種の「クレイジー」な渦に巻き込まれている。時間がどんどんなくなってきているという不安な気持ちが、みんなの頭にきつく巻き付いています。こうして、グレーゾーンが生まれました。

中小企業が独自の AI モデル、特に OpenAI のモデルを使用して競合製品を構築することは、一般的な慣行になっています。 OpenAIとMicrosoftはまだ違反者を公に「厳しく処罰」していないため、これは一般的に法的にグレーゾーンとみなされている。 Databricks のジェネレーティブ AI 担当副社長 Naveen Rao 氏は次のように語っています。「現在、多くのスタートアップ企業がそのリスクを負っています。」

海外メディアは、今回の事件ではバイトダンスのような規模の企業にとってこのような行為は非常に異例であると強調した。これは、シードプログラムチームが迅速に成果を出すよう大きなプレッシャーを受けていることを示しています。

シードプロジェクトが開発しているとされる2つの主要製品は、現在中国で利用可能なAIチャットボット「Doubao」と、現在開発中でByteDanceのクラウド部門を通じて販売される予定のビジネスに特化したボットプラットフォームだ。 Seed Projectは、中国のサーバーで開発されたTikTokとは一切関係ありません。このプロジェクトのリーダーはバイトダンスの検索部門責任者である朱文佳氏で、同社の最高エンジニアリング責任者である楊振元氏に報告している。

従業員には、シードプログラムの目標は最終的にはOpenAIのような汎用人工知能を構築することだと伝えられていたが、本当の目標はできるだけ早く中国のChatGPTになることだったようだ。チームは今年末までにGPT-3.5のパフォーマンスに匹敵し、2024年半ばまでにGPT-4のパフォーマンスに匹敵するよう命じられている。現在の Seed モデルには約 2000 億個のパラメータがあります。比較すると、GPT-3.5 には 1750 億のパラメータがあり、GPT-4 のパラメータサイズはまだ発表されていません。

競合他社を構築するために GPT を悪用するのは、孤立したケースではありません。今年初め、Googleの研究者は、一部の従業員がChatGPTでアップロードされた会話を含むウェブサイトのデータを使用しようとしたことに抗議して辞職した。この事件は世論を巻き起こさなかったものの、社内では依然として不名誉なこととみなされていた。

4. 微分問題：巨大モデル錯視の強化

OpenAI は現在、潜在的な誤用や乱用を防ぐために API 出力を特定する作業を行っていますが、パンドラの箱はすでに開かれています。バイトダンスの行動が中国と米国の非常に緊張した関係をさらに悪化させるかどうかは不明だが、結局のところ、両国とも人工知能を国家安全保障の問題とみなしている。

解決しなければならないもう 1 つの問題は、大規模なモデルが他の大規模なモデルの構築にますます貢献するようになるにつれて、オンライン情報の品質がどうなるかということです。基本モデルは事実に基づかない人工的に作成されたデータでトレーニングされているため、それを使用してさらに大規模なモデルを構築すると、幻覚の問題がさらに拡大するだけです。綱渡りをしながら、濃い霧に落ちないように注意しなければなりません。人工知能の未来はどこへ向かうのでしょうか。おそらく私たちは混乱の中で前進し続け、より深いゲームの中で答えを見つけるしかないのでしょう。

参考リンク:

https://www.theverge.com/2023/12/15/24003151/bytedance-china-openai-microsoft-competitor-llm

https://www.theverge.com/2023/12/15/24003542/openai-suspends-bytedances-account-after-it-used-gpt-to-train-its-own-ai-model

<<: ChatGPTの曖昧な問題への対応力を高める方法についてお話ししましょう

>>: Google DeepMind が AI モデルが複雑な離散数学問題を計算できるようにする「FunSearch」トレーニング方法をリリース

ブログ

速報です！ OpenAIがByteDanceアカウントを禁止！コンテンツ生成のための GPT の不正使用に関する内部告発

1. 「彼らはすべてが合法であることを確認したいが、本当に捕まりたくないだけなのだ」

2. OpenAIの対応: さらなる調査のためアカウントを停止

3. グレーゾーン: クレイジーなレースでリスクを負う

4. 微分問題：巨大モデル錯視の強化

参考リンク:

顔認識の60年: EU一般データ保護規則は本当に「史上最も厳しい」ものなのか?

AI の成功のための 10 の重要な役割

RPAとAIを組み合わせることで、自動化の新しい世界が開かれます

JD.comのインテリジェント顧客サービスブランドがリニューアル：「Yanxi」が2020 JDDカンファレンスでデビュー

マイクロソフト、学習者の読解力向上を支援する独立AIツール「リーディングコーチ」を発表

7 種類の AI 金採掘者: それぞれが才能を披露していますが、実際にお金を稼ぐのは誰でしょうか?

サイバー犯罪におけるAI時代の到来

海外マーケティングデジタル人材が越境EC企業の海外ライブ放送の容易な開始を支援

BiLSTMとCRFアルゴリズムを徹底的に理解する

推薦する

アリババDAMOアカデミーが自動運転の技術的困難を突破：3D物体検出の精度と速度の両方を実現

復活したジャンルのトップ10を数えると、必ず気に入るジャンルが見つかる

人工知能はデータセンター管理における破壊的技術となる

テンセントは、分散ベクトル化統計分析と因果推論に使用できるデータコンポーネントであるFast-Causal-Inferenceをオープンソース化しました。

女神があなたを好きかどうか知りたいなら、AI マシンであなたの顔をスキャンするだけです。

カリフォルニア大学バークレー校の教授が驚くべき予測を発表: 2030年までにGPTは180万年分の人間の作業を実行し、2,500年分の知識を1日で学習できるようになる

人工知能チュートリアル (V): Anaconda とさらなる確率理論

iPhoneで初めての機械学習モデルを構築する方法

JD Search EE リンクの進化

DGX-2 および SXM3 カードが GTC 2018 で発表されました

AIが光子の時間を3D画像に変換し、時間の経過による世界を視覚化する

ルカン氏の論文は「盗作」と非難されたのか？ LSTMの父は怒りの投稿を投稿しました：私をコピーした人はオリジナルにもマークを付けてください