RLHF の欠陥が完全に明らかに！ MIT、ハーバード大学、その他32名の学者が共同で発表

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

MIT、ハーバード、スタンフォードなどの研究機関の32人の科学者が共同で指摘した。

ChatGPT 成功の鍵とされる RLHF には欠陥があり、それがさまざまなリンクに分散しています。

彼らは250件の関連論文を調査・検討したが、研究本文だけで18ページあり、そのうち7ページで具体的な欠陥について説明されていた。

この研究は発表されるとすぐに大きな注目を集めました。

一部のネットユーザーは「これは素晴らしい試みだ」とコメントした。これらすべては、RLHF の学術的課題を開始するために役立ちます。

第一著者のキャスパー氏は、RLHF に「新たな説明」も与えた。

歴史的失敗から教訓を再考する
歴史の失敗から学ぶ

問題を指摘するだけでなく、解決策も提供する

著者らは論文の中で、この研究には主に3つの貢献があると述べています。

1 つ目は、人間のフィードバック、報酬モデル、意思決定という 3 つの主要な側面における RLHF の欠陥を指摘することです。

2 番目のポイントでは、これらの問題に対する具体的な解決策を示します。

3つ目は、RLHF によって訓練されたモデルの透明性を高めることを求め、訓練情報の公開が企業責任の向上に役立つだろうと述べた。

まずは各リンクで著者が指摘している具体的な欠陥を見てみましょう。

人間によるフィードバックの限界

RLHF と他の強化学習方法の主な違いは、人間からのフィードバックです。

しかし、著者らは、人間によるフィードバックは不正確になりやすく、重大な欠陥の原因となると主張している。

人間からのフィードバックのセクションで、著者はまず、人間は誤解を招くような評価をする可能性があると述べました。

大規模なモデルの場合、関係する専門分野はあらゆる側面をカバーしており、誰もすべてに精通することはできません。

そのため、さまざまな分野の代表者を選出し、質の高いフィードバックをもらうことが必要です。

しかし、実際にはこの作業は非常に困難です。

さらに、人間は完全に合理的ではないため、個々の評価者の意見は必然的に偏り、有害となる可能性もあります。

概念上の問題によって引き起こされる「意図的な」逸脱に加えて、いくつかの逸脱は「偶発的」です。

時間と注意力が不足しているため、人為的なミスを避けることは困難です。

混乱を招く情報も人間を誤解させる可能性があります。

ある程度難しいタスクの場合、人間が評価することさえ困難です。

この論文では、バイアスは評価を行うときにのみ生じるのではなく、評価を収集するプロセスもバイアスの大きな原因となることを紹介しています。

評価の有用性は収集プロセス中に評価する必要があるため、評価者の主観的な意見も影響を与える可能性があります。

このプロセスでは、コストと品質の間で必然的にトレードオフが発生し、精度の度合いに影響します。

フィードバックの内容に加えて、フィードバックの形式にも一定の制限があり、これもコスト上の考慮によるものです。

報酬モデルと戦略も改善する必要がある

そして著者らは、人間からのフィードバックに加えて、RLHF 自身の報酬モデルと意思決定方法も改善する必要があると指摘した。

報酬関数は価値判断を正確に記述することが難しい場合があり、単一の関数で人間社会全体の価値観を表すことはできません。

報酬モデルには一般化能力が低いという問題もあり、報酬メカニズムが悪用される危険性もあります。

さらに、報酬モデルの品質を評価することは難しく、たとえ達成できたとしてもコストがかかります。

なぜなら、真の報酬関数は通常は不明であり、ポリシーの最適化を通じて間接的にしか評価できないからです。

戦略面では、戦略を効率的に最適化することが難しく、戦略の堅牢性を確保することが難しいと指摘しています。

戦略実行フェーズでは、報酬フェーズと異なり、これまではうまく対応できていたコンテンツが突然問題になることがあります。

戦略段階では、事前にトレーニングされたモデルがいくつか使用される場合があり、その中に偏った情報も含まれる可能性があります。

さらに、報酬モデルと意思決定方法を共同でトレーニングするとドリフト問題が発生し、効率性と過剰適合の回避のバランスを取ることも困難になります。

解決方法

論文の内容を見ると、人間からのフィードバックからRLHF独自の報酬モデルや意思決定方法に至るまで、程度の差はあるものの問題があることがわかります。

それで、どうやって解決するのでしょうか?著者は私たちにいくつかのアイデアを提供しています。

たとえば、人間によるフィードバックの限界に対処するために、著者の戦略は、フィードバックを評価する別の AI システムまたは報酬モデルを導入することです。

プロセスを監督・指導し、より洗練されたフィードバックを求めるなどの対策もあります。

著者は他の 2 つの側面についても解決策を示しています。

報酬を与えられるモデルの場合、AI が人間にフィードバックを提供するのを支援するというアイデアを、人間がモデルのパフォーマンスを直接監督するというアイデアに変更することができます。

意思決定の方法としては、事前トレーニングの段階でモデルを調整し、トレーニング中にガイダンスを追加することができます。

著者は、RLHFだけでなく、他のAI分野におけるセキュリティ問題も深刻に受け止める必要があると指摘し、それに応じた対策を提案した。

RLHF だけでは十分ではない

著者について

主著者は、MIT CSAIL の Stephen Casper 氏とハーバード大学の Xander Davies 氏です。

Casper 氏の主な研究分野はアライメントアルゴリズムです。同氏はこれまでに拡散モデルの評価に関する論文を発表し、ICML から Spotlight Paper Award を受賞しています。

デイヴィス氏の主な研究分野は AI セキュリティであり、今年の ICML ワークショップには彼の論文 2 本が収録されました。

他の著者の中にも、中国人の名前が多く見られます。

論文アドレス: https://arxiv.org/pdf/2307.15217.pdf

<<: MuskxAIの創設メンバーが中国で最初の声明を発表: ChatGPTの時代では「困難な時代に英雄が現れる」、次のステップはより多くの数理科学データトレーニングを使用することです

>>:

自然言語処理はビジネスに革命をもたらす

ブログ

トレーニング時間とパラメータの数は100分の1に削減され、ラベルは予測に直接使用され、GNNを超えるパフォーマンスを実現

ブログ

ディープラーニングによるマラリア検出

ブログ

TabR: 検索拡張により、深層学習は表形式データで勾配ブースティングモデルを上回るパフォーマンスを発揮できるようになりますか?

ブログ

アンビエントインテリジェンスと人工知能がスマートホームの未来を変える

ブログ

AIの「不確実な時代」にどう向き合うか

ブログ

DragGANはオープンソース化から3日間で23,000のスターを獲得し、DragDiffusionが登場しました。

ブログ

RLHF の欠陥が完全に明らかに！ MIT、ハーバード大学、その他32名の学者が共同で発表

問題を指摘するだけでなく、解決策も提供する

人間によるフィードバックの限界

報酬モデルと戦略も改善する必要がある

解決方法

著者について

自然言語処理はビジネスに革命をもたらす

トレーニング時間とパラメータの数は100分の1に削減され、ラベルは予測に直接使用され、GNNを超えるパフォーマンスを実現

ディープラーニングによるマラリア検出

TabR: 検索拡張により、深層学習は表形式データで勾配ブースティングモデルを上回るパフォーマンスを発揮できるようになりますか?

アンビエントインテリジェンスと人工知能がスマートホームの未来を変える

AIの「不確実な時代」にどう向き合うか

DragGANはオープンソース化から3日間で23,000のスターを獲得し、DragDiffusionが登場しました。

推薦する

目に見える機械学習: ニューラルネットワークをゼロから理解する

AIと5Gの登場：モノのインターネットの発展は鈍化しているのか？

ボストンダイナミクスの犬は48万8000元。美しい女性がビーチで犬を散歩させている。ネットユーザーから「金持ち」と呼ばれる

クラウドネイティブの運用とメンテナンスを簡素化する方法

人工知能の新たなブレークスルー：ニューラルネットワークが画像内の物体を自律的に識別できる

Ascend Academy 上海テクノロジーオープンデーは大好評を博し、開発者たちは AI の新時代に向けて Ascend と手を組むことを決意しました。

顔認識の国家基準に関する意見募集：顔のスキャンや嗜好予測の義務化はなし

ユビキタス「AI+」人工知能はこのように私たちの生活を変える

年末総括｜2020年日本におけるAI（ロボティクス）分野の主なニュースを振り返る

専門家の視点：汎用人工知能の可能性

人工知能と機械学習がビジネスに及ぼす影響