大規模モデルのスコアリングのためのベンチマークは信頼できるでしょうか? Anthropicは大きなレビューを出した

大規模モデルのスコアリングのためのベンチマークは信頼できるでしょうか? Anthropicは大きなレビューを出した

現段階では、人工知能 (AI) が社会に与える影響に関する議論のほとんどは、信頼性、公平性、悪用される可能性など、AI システムの特定の特性に要約できます。問題は、多くの研究者が堅牢で信頼性の高いモデル評価を確立することがいかに難しいかを十分に理解していないことです。現在入手可能な評価キットの多くは、さまざまな領域で制限されています。

AIスタートアップのAnthropicは最近、公式ウェブサイトに「AIシステム評価の課題」と題した記事を掲載した。記事によると、彼らは AI システムをより深く理解するために、長い時間をかけて AI システムの評価を構築したとのことです。

記事アドレス: https://www.anthropic.com/index/evaluating-ai-systems

この記事では主に以下の点について説明します。

  • 複数選択評価。
  • BIG-bench や HELM などのサードパーティの評価フレームワークを活用します。
  • スタッフにモデルが有益か有害かを測定させます。
  • ドメイン専門家が関連する脅威のレッドチーム分析を実施します。
  • 生成 AI を使用して評価方法を開発します。
  • 非営利団体と協力して、モデルの害悪を監査します。

多肢選択式評価の課題

多肢選択式評価は単純に思えるかもしれませんが、そうではありません。この論文では、MMLU (Measuring Multitask Language Understanding) および BBQ (Bias Benchmark for QA) ベンチマークにおけるモデルの課題について説明します。

MMLUデータセット

MMLU は、数学、歴史、法律などを網羅した 57 個の多肢選択式質問応答タスクを含む英語評価データセットです。現在、主流の LLM 評価データセットとなっています。精度が高ければ高いほど、モデルは強力になります。しかし、この論文では、MMLU の使用には 4 つの課題があることがわかりました。

1. MMLU は広く使用されているため、このような状況に遭遇することは避けられません。トレーニング中にモデルが MMLU データを組み込む方が簡単です。これは学生が試験を受ける前に問題を見るのと同じで、不正行為です。

2. 選択肢を(A)から(1)に変更したり、選択肢と回答の間に余分なスペースを追加したりするなど、単純な書式変更に対する感受性が高く、評価の精度が約5%変動する可能性があります。

3. 一部の開発者は、少量学習や思考連鎖推論など、MMLU スコアを向上させるための手法に焦点を当てています。したがって、複数の研究室間で MMLU スコアを比較する際には、細心の注意を払う必要があります。

4. MMLU は慎重に校正されていない可能性があります。一部の研究者は、MMLU に誤ったラベルや回答できない質問の例を発見しました。

上で概説した問題があるため、この単純で標準化された評価を行う前に、ある程度の判断と思考を行う必要があります。この論文では、MMLU の使用時に遭遇する課題が、他の同様の多肢選択式評価にも一般的に当てはまることを示しています。

バーベキュー

複数選択式の評価では、AI の危険性も測定できます。具体的には、モデルにおけるこれらの害を測定するために、クロード、人類学の研究者たちは、集団に対するモデルの偏りを評価するための一般的なベンチマークである BBQ ベンチマークを使用しました。このベンチマークをいくつかの同様の評価と比較した結果、BBQ は社会的偏見を測る優れた指標であると確信しました。その作業には数か月かかりました。

この記事は、BBQ の実施が予想以上に難しいことを示唆しています。 1 つ目は、BBQ のオープン ソース実装が利用できなかったため、Anthropic の優秀なエンジニアが 1 週間かけて実装と評価テストを行いました。 MMLU の精度評価とは異なり、BBQ のバイアス スコアを定義、計算、解釈するには、ニュアンスと経験が必要です。

BBQ バイアス スコアの範囲は -1 から 1 です。1 は有意なステレオタイプ バイアス、0 はバイアスなし、-1 は有意なカウンターステレオタイプ バイアスを示します。 BBQ を実装した後、一部のモデルのバイアス スコアが 0 になったことが論文で判明しました。このことから研究者は楽観的になり、バイアスのあるモデル出力の削減に進展があったことが示されました。

第三者評価フレームワーク

最近はサードパーティによる評価キットの開発も活発化しています。これまでに、Anthropic は BIG-bench とスタンフォード大学の HELM (言語モデルの総合的評価) の 2 つのプロジェクトに参加しました。第三者による評価は有用であるように思われますが、どちらのプログラムも新たな課題に直面しています。

ビッグベンチ

BIG-bench には、科学から社会的推論まで幅広いトピックを網羅し、450 人以上の研究者によって実施された 204 の評価が含まれています。 Anthropic 社は、このベンチマークを使用する際にいくつかの課題に直面し、BIG-bench のインストールに多くの時間を費やしたと述べています。 BIG-bench は MMLU のようなプラグアンドプレイではありません。BBQ を使用する場合よりも実装にさらに多くの労力がかかります。

BIG-bench は効果的に拡張できず、204 の評価をすべて完了するのは非常に困難です。したがって、使用されているインフラストラクチャで適切に動作するように書き直す必要があり、これは膨大な作業になります。

さらに、実装の過程で、評価にいくつかのバグがあり、使用するのが非常に不便であることが判明したため、Anthropic の研究者はこの実験の後にそれを放棄しました。

HELM: 一連の評価のトップダウン計画

BIG-bench は「ボトムアップ」の取り組みであり、誰でも任意のタスクを提出することができ、その後、専門のオーガナイザーのグループによる限定的なレビューが行われます。一方、HELM は「トップダウン」アプローチを採用しており、専門家がモデルの評価に使用するタスクを決定します。

具体的には、HELM は、精度、堅牢性、公平性などの標準的なメトリックを使用して、推論シナリオや誤った情報を含むシナリオを含む複数のシナリオでモデルを評価します。 Anthropic は、HELM 開発者にモデルのベンチマークを実行するための API アクセスを提供します。

BIG-bench と比較して、HELM には 2 つの利点があります。1) 大規模なエンジニアリング作業が不要、2) 専門家に依頼して特定の高品質な評価を選択して解釈できる。

ただし、HELM にはいくつかの課題もあります。他のモデルを評価するために有効な方法が、Anthropic のモデルには有効でない可能性があり、その逆も同様です。たとえば、Anthropic の Claude シリーズのモデルは、Human/Assistant 形式と呼ばれる特定のテキスト形式に従うようにトレーニングされています。 Anthropic は、社内でモデルを評価する際にこの特定の形式に従います。この形式に従わないと、クロードは時々異常な応答をし、標準的な評価基準の結果の信頼性が低下します。

さらに、HELM の完了には長い時間がかかり、新しいモデルの評価には数か月かかる場合があり、外部の関係者との調整とコミュニケーションが必要になります。

人工知能システムは、オープンかつダイナミックな方法で人々と対話するように設計されているので、実際のアプリケーションに近い方法でモデルを評価するにはどうすればよいでしょうか。

クラウドソーシングによるA/Bテスト

現在、この分野では主に(ただし、排他的ではない)基本的なタイプの人間による評価、つまりクラウドソーシング プラットフォームでの A/B テストに依存しています。このテストでは、人々が 2 つのモデルと自由形式の会話を行い、モデル A または B からの応答のどちらがより有益か、より有害でないかを選択し、その有益性または無害性に基づいてモデルをランク付けします。この評価方法には、実際の設定に対応し、さまざまなモデルをランク付けできるという利点があります。

ただし、この評価方法にはいくつかの制限があり、実験の実行には費用と時間がかかります。

まず、このアプローチでは、サードパーティのクラウドソーシング プラットフォームと連携して料金を支払い、モデル用のカスタム Web インターフェイスを構築し、A/B テスター向けの詳細な手順を設計し、結果データを分析して保存し、クラウドソーサーを雇う際の倫理的な課題に対処する必要があります。

無害なテストの場合でも、実験は人々を有害な出力にさらすリスクを伴います。人間による評価の結果は、人間の評価者の創造性、モチベーション、テスト対象システムの潜在的な欠陥を特定する能力のレベルなど、人間の評価者の特性によって大きく異なる場合もあります。

さらに、有用性と無害性の間には本質的な緊張関係が存在します。 「申し訳ありませんが、お手伝いできません」などの役に立たない応答を提供することで、システムの害を軽減できます。

役に立つことと無害であることの適切なバランスとはどのようなものでしょうか?モデルが十分に有用で無害であることを示す指標値は何ですか?多くの疑問は、その分野の研究者が答えを見つけるためにさらに研究を重ねることを必要とします。

詳細については、元の記事を参照してください。

<<: 

>>:  OpenAIの初の開発者会議が事前に「公開」され、新しいChatGPTプロトタイプGizmoが公開された

ブログ    
ブログ    

推薦する

科学者は機械学習を利用して結晶構造の酸化状態の謎を解明する

化学元素は物理世界のほぼすべてを構成しています。 2016 年現在、人類が知っている元素の数は 11...

ディープラーニングを使った顔認証

[[390275]]今日は、ディープラーニングを使用して顔認証アルゴリズムを作成します。 私たちのタ...

6 つの基本的な AI 用語: 優れた人工知能コンサルティング サービスを提供するには?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

考えるべき5つのAIリスク

真の人工知能技術がまだ成熟していないため、人間が自律知能に対して想定するリスクは、高度な知能を持つロ...

アメリカの科学者が新技術を開発:ロボットが行動する前によく考えさせる

カリフォルニア大学バークレー校の新しい研究によると、ロボットはビデオ認識技術を通じて物体を移動させる...

Objective-C でのソートアルゴリズムを学ぶ

データ構造とアルゴリズムを学習していたとき、ソートアルゴリズムをアニメーションで表現して、理解しやす...

マイクロソフト、AIを活用してがんの放射線治療時間を短縮:スキャン速度が2.5倍に向上、精度は90%に

6月28日、BBCによると、英国はNHS(国民保健サービス)の全トラストに新しい人工知能技術を原価で...

クラウドコンピューティング、ビッグデータ、AI の関係と違いを 1 つの記事で理解する

クラウドコンピューティング、ビッグデータ、人工知能という言葉は誰もが聞いたことがあると思いますが、こ...

香港大学の黄凱斌氏:6G時代のエッジインテリジェンス、シャノンとチューリングの出会い

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

将来、ロボットがあなたの仕事を奪うでしょうか?慌てずに専門家の言うことに耳を傾けましょう

[[384941]]スペインの新聞「エル・エコノミスタ」は最近、ラモン・オリバー氏による「仕事の自動...

農業ロボットは好機を迎え、10億ドル規模のビジネスになりつつある

最近、国連経済社会局は「世界人口見通し2022」を発表しました。この報告書によると、世界の人口は20...

「宝くじ仮説」の著者による新しいPyTorchライブラリは人気があり、モデルのトレーニングが2〜4倍高速化されます。

さまざまなタスクに人工知能を導入する企業が増えるにつれ、AI モデルのトレーニングはコストがかかり、...

AIがKing of GloryやStarCraftをプレイしています...その背後にあるテクノロジーを理解していないのですか?ゲームAIのレビューはこちら

[[437808]]人間とコンピュータのゲームは長い歴史があり、人工知能の主要技術を検証するための主...

「編集神ヴィム」の父が死去。ネットユーザー「彼は多くの人の人生を変えた」

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...