200以上の大規模モデル論文の調査と分析、数十人の研究者が1つの論文でRLHFの課題と限界をレビュー

200以上の大規模モデル論文の調査と分析、数十人の研究者が1つの論文でRLHFの課題と限界をレビュー

ChatGPTの登場以来、OpenAIが使用するトレーニング方法である人間によるフィードバックによる強化学習(RLHF)は大きな注目を集め、大規模言語モデル(LLM)を微調整するための中核的な方法となっています。 RLHF アプローチでは、トレーニング中に人間からのフィードバックを使用して、役に立たない、歪んだ、または偏った出力を最小限に抑え、AI モデルを人間の価値観に合わせます。

しかし、RLHF法にも欠陥がある。最近、MIT CSAIL、ハーバード大学、コロンビア大学などの研究者数十人が共同でレビュー論文を発表し、この分野の200以上の研究論文を分析・議論し、RLHF法の欠陥を体系的に研究した。

論文アドレス: https://huggingface.co/papers/2307.15217

全体として、この論文は RLHF の限界を強調し、より安全な AI システムを開発するには多面的なアプローチが必要であることを示しています。研究チームは次のことを行いました。

  • RLHF および関連方法の未解決の問題と基本的な限界が調査されます。
  • RLHF を実際に理解し、改善し、補完するための方法が概説されています。
  • RLHF システムに対するコミュニティの監視を改善するための監査および開示基準を提案します。

具体的には、論文の中心となる内容は次の 3 つの部分から構成されます。

1. RLHF が直面している特定の課題。研究チームは、RLHF 関連の問題を分類して調査し、RLHF が直面している課題と RLHF の根本的な限界を区別しました。前者は解決が容易で、RLHF フレームワーク内で改善された方法を使用して対処できますが、後者は、整合の問題に対処するために他の方法で解決する必要があります。

2. RLHF をより広範な技術安全フレームワークに統合します。この論文では、RLHF は安全な AI を開発するための完全なフレームワークではないことを示し、問題を軽減するための複数の冗長戦略の重要性を強調しながら、RLHF をよりよく理解、改善、補完するのに役立ついくつかの方法について説明しています。

3. ガバナンスと透明性。この論文では、業界規範の改善における課題を分析します。例えば、研究者らは、RLHF を使用して AI システムをトレーニングする企業に、そのトレーニングの詳細を開示してもらうことが有益かどうかについて議論しました。

論文の核心部分の構成と基本的な内容を見てみましょう。

下の図 1 に示すように、この研究では、RLHF に関連する 3 つのプロセス (人間のフィードバックの収集、報酬のモデリング、戦略の最適化) を分析しました。その中で、フィードバック プロセスはモデル出力の人間による評価を促し、報酬モデリング プロセスは教師あり学習を使用して人間の評価を模倣する報酬モデルをトレーニングし、戦略最適化プロセスは人工知能システムを最適化して、報酬モデルによってより適切に評価される出力を生成します。論文の第 3 章では、これら 3 つのプロセスと共同トレーニング報酬モデルおよび戦略という 4 つの側面から RLHF 法の問題点と課題について説明します。

論文の第 3 章でまとめられている問題は、AI システムの開発に RLHF に大きく依存すると安全上のリスクが生じることを示しています。 RLHF は有用ですが、人間のような AI を開発するという根本的な課題には対処していません。

研究チームは、単一の戦略が包括的な解決策であるとみなされるべきではないと考えています。より良いアプローチは、複数のセキュリティ方法を備えた「ディープ ディフェンス」を採用することです。論文の第 4 章では、RLHF の理解、改善、補完の観点から AI セキュリティを向上させる方法について詳しく説明しています。

この論文の第 5 章では、RLHF ガバナンスが直面するリスク要因と監査対策について概説しています。

要約する

研究では、実際の多くの問題は RLHF の基本的な限界に起因しており、RLHF 以外の方法で回避または補償する必要があることが判明しました。したがって、この論文では、(1)RLHFやその他の方法の根本的な限界に照らして技術の進歩を評価すること、(2)多層防御のセキュリティ対策を採用し、研究結果を科学コミュニティとオープンに共有することでAIの整合問題に対処すること、という2つの戦略の重要性を強調しています。

さらに、この研究では、RL ポリシーの難しさなど、いくつかの課題や問題は RLHF に固有のものではなく、AI アライメントの基本的な問題であることが明らかになっています。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:  AIにとって合成データが必須である理由

>>:  OpenAIの仮説が覆される!計算量を考慮すると、小さいモデルの方が大きいモデルよりも優れています。Llama 2 のトレーニングは GPU コンピューティングに関連しています。

ブログ    

推薦する

エンタープライズ電気システムにおける機械学習の 5 つのメリット

機械学習技術は企業の電気システムの作業と保守において重要な役割を果たしており、人々は機械学習を採用す...

模倣学習: ロボットはプログラミングなしで自然言語を理解できます!

人間が日常のコミュニケーションで話す自然言語の指示を使用して、ロボットアームにタスクを実行するよう指...

Python でシンプルなニューラル ネットワークを作成する方法 (コード付き)

[[251984]]ニューラル ネットワークの仕組みを理解する最良の方法は、自分でニューラル ネッ...

ベイジアン機械学習: 古典的なモデルとコード実装!

[[420350]]ベイズの定理は確率モデルにおける最も有名な理論の 1 つであり、機械学習でも広...

CBインサイトがAI業界の25大トレンドを発表:中国では顔認識や無人店舗が急速に発展

[[260147]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

...

...

AIは追いつこうと努力しているが、5Gはカーブで追い越しつつある。トランプ氏が不安にならないわけがない。

[[263771]] 5Gの進歩に伴い、コスト面でも速度面でも、中国の5Gなしでは5Gを推進するの...

...

Metaがオープンソース「AIアベンジャーズアライアンス」の結成を主導、AMDと他の同盟国が800億ドルでOpenAI Nvidiaと戦う

今日、MetaとIBMが主導し、50を超えるテクノロジー企業、大学、機関が共同でAIアライアンスを設...

Baichuan Intelligence が数千億のパラメータを持つ大規模モデルをリリース、その中国の能力は GPT-4 を上回る!

制作:51CTO テクノロジースタック(WeChat ID:blog) 「今年中にChatGPTのレ...

ロボット工学アプリケーションは、Metaverse テクノロジーを通じてどのように普及するのでしょうか?

[[436311]]最近、Meta CEO マーク・ザッカーバーグ氏によるメタバースの推進が大きな...

...

ディープラーニングにおける正規化の概要(Python コード付き)

編集者注: 日々の仕事や研究において、データ サイエンティストが遭遇する最も一般的な問題の 1 つは...

コンピューティングパワーのコストが急激に上昇したため、AIスタートアップがGoogleやMicrosoftなどの大手に挑戦することが難しくなった。

2月20日のニュースによると、コンピューティングコストが急騰しているため、人工知能業界の新興企業は...