RLHF の欠陥が完全に明らかに! MIT、ハーバード大学、その他32名の学者が共同で発表

RLHF の欠陥が完全に明らかに! MIT、ハーバード大学、その他32名の学者が共同で発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

MIT、ハーバード、スタンフォードなどの研究機関の32人の科学者が共同で指摘した。

ChatGPT 成功の鍵とされる RLHF には欠陥があり、それがさまざまなリンクに分散しています。

彼らは250件の関連論文を調査・検討したが、研究本文だけで18ページあり、そのうち7ページで具体的な欠陥について説明されていた。

この研究は発表されるとすぐに大きな注目を集めました。

一部のネットユーザーは「これは素晴らしい試みだ」とコメントした。これらすべては、RLHF の学術的課題を開始するために役立ちます。

第一著者のキャスパー氏は、RLHF に「新たな説明」も与えた。

歴史的失敗から教訓を再考する
歴史の失敗から学ぶ

問題を指摘するだけでなく、解決策も提供する

著者らは論文の中で、この研究には主に3つの貢献があると述べています。

1 つ目は、人間のフィードバック、報酬モデル、意思決定という 3 つの主要な側面における RLHF の欠陥を指摘することです。

2 番目のポイントでは、これらの問題に対する具体的な解決策を示します。

3つ目は、RLHF によって訓練されたモデルの透明性を高めることを求め、訓練情報の公開が企業責任の向上に役立つだろうと述べた。

まずは各リンクで著者が指摘している具体的な欠陥を見てみましょう。

人間によるフィードバックの限界

RLHF と他の強化学習方法の主な違いは、人間からのフィードバックです。

しかし、著者らは、人間によるフィードバックは不正確になりやすく、重大な欠陥の原因となると主張している。

人間からのフィードバックのセクションで、著者はまず、人間は誤解を招くような評価をする可能性があると述べました。

大規模なモデルの場合、関係する専門分野はあらゆる側面をカバーしており、誰もすべてに精通することはできません。

そのため、さまざまな分野の代表者を選出し、質の高いフィードバックをもらうことが必要です。

しかし、実際にはこの作業は非常に困難です。

さらに、人間は完全に合理的ではないため、個々の評価者の意見は必然的に偏り、有害となる可能性もあります。

概念上の問題によって引き起こされる「意図的な」逸脱に加えて、いくつかの逸脱は「偶発的」です。

時間と注意力が不足しているため、人為的なミスを避けることは困難です。

混乱を招く情報も人間を誤解させる可能性があります。

ある程度難しいタスクの場合、人間が評価することさえ困難です。

この論文では、バイアスは評価を行うときにのみ生じるのではなく、評価を収集するプロセスもバイアスの大きな原因となることを紹介しています。

評価の有用性は収集プロセス中に評価する必要があるため、評価者の主観的な意見も影響を与える可能性があります。

このプロセスでは、コストと品質の間で必然的にトレードオフが発生し、精度の度合いに影響します。

フィードバックの内容に加えて、フィードバックの形式にも一定の制限があり、これもコスト上の考慮によるものです。

報酬モデルと戦略も改善する必要がある

そして著者らは、人間からのフィードバックに加えて、RLHF 自身の報酬モデルと意思決定方法も改善する必要があると指摘した。

報酬関数は価値判断を正確に記述することが難しい場合があり、単一の関数で人間社会全体の価値観を表すことはできません

報酬モデルには一般化能力が低いという問題もあり、報酬メカニズムが悪用される危険性もあります。

さらに、報酬モデルの品質を評価することは難しく、たとえ達成できたとしてもコストがかかります。

なぜなら、真の報酬関数は通常は不明であり、ポリシーの最適化を通じて間接的にしか評価できないからです。

戦略面では、戦略を効率的に最適化することが難しく、戦略の堅牢性を確保することが難しいと指摘しています。

戦略実行フェーズでは、報酬フェーズと異なり、これまではうまく対応できていたコンテンツが突然問題になることがあります。

戦略段階では、事前にトレーニングされたモデルがいくつか使用される場合があり、その中に偏った情報も含まれる可能性があります。

さらに、報酬モデルと意思決定方法を共同でトレーニングするとドリフト問題が発生し、効率性と過剰適合の回避のバランスを取ることも困難になります。

解決方法

論文の内容を見ると、人間からのフィードバックからRLHF独自の報酬モデルや意思決定方法に至るまで、程度の差はあるものの問題があることがわかります。

それで、どうやって解決するのでしょうか?著者は私たちにいくつかのアイデアを提供しています。

たとえば、人間によるフィードバックの限界に対処するために、著者の戦略は、フィードバックを評価する別の AI システムまたは報酬モデルを導入することです。

プロセスを監督・指導し、より洗練されたフィードバックを求めるなどの対策もあります。

著者は他の 2 つの側面についても解決策を示しています。

報酬を与えられるモデルの場合、AI が人間にフィードバックを提供するのを支援するというアイデアを、人間がモデルのパフォーマンスを直接監督するというアイデアに変更することができます。

意思決定の方法としては、事前トレーニングの段階でモデルを調整し、トレーニング中にガイダンスを追加することができます。

著者は、RLHFだけでなく、他のAI分野におけるセキュリティ問題も深刻に受け止める必要があると指摘し、それに応じた対策を提案した。

RLHF だけでは十分ではない

著者について

主著者は、MIT CSAIL の Stephen Casper 氏とハーバード大学の Xander Davies 氏です。

Casper 氏の主な研究分野はアライメント アルゴリズムです。同氏はこれまでに拡散モデルの評価に関する論文を発表し、ICML から Spotlight Paper Award を受賞しています。

デイヴィス氏の主な研究分野は AI セキュリティであり、今年の ICML ワークショップには彼の論文 2 本が収録されました。

他の著者の中にも、中国人の名前が多く見られます。

論文アドレス: https://arxiv.org/pdf/2307.15217.pdf

<<:  MuskxAIの創設メンバーが中国で最初の声明を発表: ChatGPTの時代では「困難な時代に英雄が現れる」、次のステップはより多くの数理科学データトレーニングを使用することです

>>: 

ブログ    

推薦する

スタンフォード大学の研究者がAIを活用してCOVID-19の治療薬の発見を加速

COVID-19の流行が世界中の人々の生命と日常生活を脅かし続けている中、人々はこの病気の予防と治療...

磁気リンクがAIサークルを席巻、87GBシードが直接オープンソースの8x7B MoEモデル

「ハイエンド」オープンソースでは、最も単純なリリース方法が採用されることが多いです。昨日、Mistr...

ビル・ゲイツ: 生成AIは限界に達した

ビル・ゲイツ氏の暴露は機械学習コミュニティで話題となっている。 「GPT-5 は GPT-4 よりそ...

人工知能技術の高みを突破するための知恵を集め、上海勝思AIフレームワーク&ビッグモデルイノベーションセンターが正式に発足

2023年6月16日、「共に立ち上がって無限のイノベーションを」をテーマにした人工知能フレームワーク...

人工知能と機械学習のための 20 の Python オープンソース プロジェクト

この記事では、Python のトップ AI および機械学習プロジェクトを更新します。 Tensorf...

...

マスク着用で顔認証での支払いは難しいですが、手渡しでの支払いは可能ですか?

人工知能技術が私たちの生活にますます統合されるにつれて、一般の人々のプライバシーに対する懸念も高まっ...

職場でロボットが増えると、雇用に影響が出るでしょうか?

最近、中国労働・社会保障科学院の莫容研究チームが発表した研究結果によると、わが国における人工知能の雇...

...

...

たった1ミリ低くなれば時間が遅くなります!科学者が初めてミリメートルスケールで一般相対性理論を検証

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

医療従事者を守ってください!ロボットは薬を届け、病気を治療し、消毒し、医師や看護師を感染から守ることができる。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

インテリジェントロボット:伝染病との戦いを強化し、スマート医療への道を探る

ビッグデータ技術は画像認識や遺伝子配列解析などの分野で先駆的な役割を果たしており、インテリジェントロ...

中国は人工知能(AI)で世界をリードしており、多くの技術が世界をリードしている。

[[217124]] [[217125]] [[217126]]ディープラーニングは最も急速に成長...

マスク氏が公式に「脳をスライス」し、ニューラリンクの内部研究室の写真が公開された! 7年間で2万2000件の手術を計画、スーパーAIに対抗すべく研究開発に全力

最近、マスク氏の伝記作家がニューラリンクの最新の進歩について長い記事を書いた。来年から、ニューラリン...