レビュー能力はGPT-4よりも強く、13B評価モデルAuto-Jはオープンソース化されている

生成型人工知能技術の急速な発展に伴い、大規模なモデルが人間の価値観（意図）と一致するようにすることが、業界の重要な課題となっています。

モデルの調整は重要ですが、現在の評価方法には制限があることが多く、開発者を混乱させることがよくあります。大規模なモデルはどの程度調整されているのでしょうか?これは、アライメント技術のさらなる発展を制限するだけでなく、技術の信頼性に対する国民の懸念も引き起こします。

このため、上海交通大学生成人工知能研究所は迅速に対応し、業界と一般大衆に、より透明で正確なモデル価値整合評価を提供することを目的とした新しい価値整合評価ツール「Auto-J」を立ち上げました。

論文アドレス: https://arxiv.org/abs/2310.05470
プロジェクトアドレス: https://gair-nlp.github.io/auto-j/
コードアドレス: https://github.com/GAIR-NLP/auto-j

現在、このプロジェクトでは、以下を含む多くのリソースをオープンソース化しています。

Auto-J の 130 億パラメータモデル (手順、トレーニングデータ、テストデータも GitHub で入手可能)。
関連するクエリシナリオの定義ドキュメント。
各シナリオごとに手作業で作成された参照評価基準。
ユーザークエリが属するシナリオなどを自動的に識別できる分類子。

この推定ツールには次の利点があります。

1. 機能的な使用法

実際のシナリオ（一般的な広告作成、電子メールの下書き、エッセイの洗練、コード生成など）で 50 を超えるさまざまなユーザークエリをサポートし、さまざまなシナリオでさまざまな大規模モデルのアライメントパフォーマンスを評価します。
最も一般的な 2 つの評価パラダイム (ペア応答比較と単一応答評価) をシームレスに切り替えることができ、アライメント評価とモデルパフォーマンスをさらに最適化するための「報酬モデル」の両方で複数の目的に使用できます。
同時に、評価結果を裏付ける詳細かつ構造化された読みやすい自然言語コメントを出力することもできるため、評価結果の説明性と信頼性が向上し、開発者が評価プロセスに参加して価値整合プロセスにおける問題を迅速に特定しやすくなります。

2. パフォーマンスのオーバーヘッド

パフォーマンスと効率の面では、Auto-J の評価結果は GPT-4 に次ぐものであり、ChatGPT を含む多くのオープンソースまたはクローズドソースモデルよりも大幅に優れており、効率的な vllm 推論フレームワークの下で 1 分あたり 100 を超えるサンプルを評価できます。
コスト面では、Auto-J は 130 億個のパラメータしか含まれていないため、32G V100 上で直接推論でき、量子化と圧縮後に 3090 などのコンシューマーグレードのグラフィックスカードに展開して使用できるため、LLM の評価コストが大幅に削減されます (現在主流のソリューションは、クローズドソースの大規模モデル (GPT-4 など) を使用して評価することですが、API を呼び出すこの評価方法は、多くの時間とコストがかかります)。

ペアワイズ応答比較のランキング結果

コメント生成タスクのランキング結果

例

注: このセクションで提供されている例は、元の英語のテキストから中国語に翻訳されています。

下の図 1 は、2 つの応答の比較を示しています。赤いフォントは、2 つの応答を著しく区別する内容を強調表示し、緑のフォントは、Auto-J による判断のうちユーザーの好みに一致する部分を強調表示しています。

下の図 2 は単一回答評価を示しており、緑色のフォントで Auto-J の判断の重要な部分が強調表示されています。

具体的な方法

トレーニングデータは通常、次のフロー図に従います。

図1: トレーニングデータ収集プロセスの概略図

シナリオの定義と参照評価基準:

図2: シナリオ定義と参考評価基準

より広範囲のさまざまな評価シナリオをサポートするために、Auto-J は 8 つのカテゴリ (要約、書き直し、コード、作成、試験問題、一般的なコミュニケーション、機能的なライティング、その他の NLP タスク) に属する 58 の異なるシナリオを定義します。

研究者は、各シナリオについて、そのようなシナリオにおける一般的な評価の角度を網羅した参考用の評価基準のセットを手作業で作成し、各基準には名前とテキストによる説明が含まれています。評価基準の構築は 2 層のツリー構造に従います。まず、共通の基本標準のセットがいくつか定義され (テキストとコードの一般的な標準など)、各シナリオの特定の標準は 1 つ以上の基本標準を継承し、さらにカスタマイズされた標準を追加します。上図の「計画」シナリオを例にとると、このシナリオの標準には、シナリオ固有のコンテンツと形式の標準、および継承された基本標準が含まれます。

さまざまなシナリオからのユーザークエリとさまざまなモデルからの応答を収集します。

Auto-J は、定義されたさまざまなシナリオで優れたパフォーマンスを発揮するように配置されているため、さまざまなシナリオで対応するデータを収集することが重要です。この目的のために、研究者はユーザークエリに対して一定数のシナリオカテゴリに手動でラベルを付け、これを使用して、クエリが属するシナリオを識別する分類器をトレーニングしました。この分類器の助けを借りて、ダウンサンプリングにより、多数の実際のユーザークエリとさまざまなモデル応答を含む複数のデータセット (Chatbot Arena Conversations データセットなど) から、よりバランスの取れたカテゴリを持つ 3,436 のペアサンプルと 960 の単一応答サンプルをトレーニングデータの入力として選択することに成功しました。ペアサンプルには、クエリ、クエリに対する 2 つの異なる応答、および人間が注釈を付けた好みのラベル (どちらの応答が優れているか、または同点か) が含まれていました。単一応答サンプルには、クエリと応答のみが含まれていました。

高品質な判断を収集する:

問い合わせや回答だけでなく、トレーニングデータの出力の一部として、質の高い評価テキスト、つまり「判断」を収集することがより重要です。研究者たちは、完全な判断を中間の推論プロセスと最終的な評価結果を含むものと定義した。ペア応答比較の場合、中間推論プロセスは 2 つの応答間の主な違いを識別して比較することであり、評価結果は 2 つの応答のうちより優れた応答 (または同点) を選択することです。単一応答サンプルの場合、中間推論プロセスは欠点の批評であり、評価結果は 1 ～ 10 の総合スコアです。

具体的な操作に関しては、必要な判断を生成するために GPT-4 を呼び出すことを選択します。各サンプルについて、対応するシナリオの評価基準が、判断を生成するための参照として GPT-4 に渡されます。さらに、一部のサンプルにシナリオ評価基準を追加すると、応答の特定の欠陥を発見する GPT-4 の能力が制限されることが観察されているため、研究者は、与えられた評価基準を超えて、可能な限り他の重要な要素を探索することも要求しています。最終的には、上記の 2 つの側面からの出力を統合して再フォーマットし、トレーニングデータの出力として、より包括的で具体的かつ読みやすい判断を取得します。ペア応答比較データは、既存の人間の好みの注釈に基づいてさらに選別されます。

電車：

研究者らは 2 つの評価パラダイムのデータを組み合わせてモデルをトレーニングし、対応するプロンプト単語テンプレートを設定するだけで Auto-J が異なる評価パラダイム間をシームレスに切り替えることができるようになりました。また、コンテキスト蒸留に似た技術が使われており、トレーニングシーケンスを構築する際には、GPT-4が参照に使用しているシーン評価基準を削除し、出力時の監督信号のみを保持します。実際には、これにより Auto-J の一般化が効果的に強化され、応答の具体的な詳細を無視しながら出力の評価を評価基準の同義的な繰り返しに制限することが回避されることがわかります。同時に、ペア応答比較データ部分では、入力における2つの応答の出現順序を入れ替え、それに応じて出力判断テキストを書き換えるという単純なデータ拡張手法も採用されており、評価時のモデルの位置の好みを可能な限り排除しています。

実験と結果

Auto-J がサポートする複数の機能の有効性を検証するために、さまざまなテストベンチマークが構築されています。

ペア応答比較タスクでは、評価基準は、人間の好みのラベルとの一貫性と、入力内の 2 つの応答の順序を入れ替える前後のモデル予測結果の一貫性です。 Auto-J は両方の指標において選択されたベースラインモデルを大幅に上回っており、GPT-4 に次ぐことがわかります。

表1と図3: 対反応比較課題の結果

単一返信コメント生成タスクでは、Auto-J によって生成されたコメントが他のモデルのコメントと 1 対 1 で比較されました。GPT-4 の自動比較に基づくか、人間による判断に基づくかにかかわらず、Auto-J によって生成されたコメントはほとんどのベースラインよりも大幅に優れており、GPT-4 よりもわずかに優れていることがわかります。

図4: 単一返信レビュー生成タスクにおけるAuto-Jのベースラインに対する勝率

研究者らは、報酬モデルとしての Auto-J の可能性も調査しました。報酬モデルの有効性をテストするために一般的に使用される Best-of-N 設定 (つまり、ベースモデルが複数の候補回答を生成し、報酬モデルが独自の出力に基づいて最適な応答を選択する) では、Auto-J によって提供される単一の応答スコアは、さまざまなベースラインモデル (GPT-4 スコアを参照) よりも優れた応答を選択できます。同時に、そのスコアは GPT-4 スコアと高い相関関係を示しています。

表2: 報酬モデルとしてのさまざまなモデルのパフォーマンス

最後に、開発者はシステムレベルでの Auto-J の評価パフォーマンスも調査しました。 AlpacaEval（GPT-4 で評価された大規模モデルの人気のリーダーボード）に送信されたオープンソースモデルは、Auto-J のワンショットスコアを使用して再ランク付けされました。 Auto-J に基づくランキング結果は、GPT-4 のランキング結果と高い相関関係にあることがわかります。

図5と表3: AlpacaEvalリーダーボードに提出されたオープンソースモデルのAuto-JとGPT-4の相関関係と特定のランキングデータ

要約と展望

要約すると、GAIR 研究グループは、さまざまなシナリオでユーザークエリを解決する際のさまざまなモデルのパフォーマンスを評価するために、130 億のパラメータを持つ生成評価モデル Auto-J を開発し、普遍性、柔軟性、解釈可能性の課題に対処することを目指しています。実験により、そのパフォーマンスは多くのオープンソースおよびクローズドソースモデルよりも大幅に優れていることが示されました。また、モデルのトレーニングや複数のテストベンチマークで使用されたデータ、データ構築の過程で得られたシナリオ定義ファイルや参考評価基準、さまざまな種類のユーザークエリが属するシナリオを識別するために使用される分類子など、モデル以外のリソースも公開されます。

<<: パラメータとパフォーマンスがGoogle Minervaのほぼ半分に近づき、新たな数学モデルがオープンソース化されました。

>>: Testin Cloud Testingは、ビッグモデル+ソフトウェアテストの業界リーダーの技術革新の道を模索し始めました。