「幻想」を消し去れ！ Google の新しい ASPIRE メソッドにより、LLM は自己採点が可能になり、その効果はボリュームモデルよりも 10 倍優れています。

大規模モデルの「幻覚」問題は解決されつつあるのでしょうか?

ウィスコンシン大学マディソン校とグーグルの研究者らは最近、大規模なモデルが自らの出力を評価できる「ASPIRE」と呼ばれるシステムを開発した。

モデルによって生成された結果が高く評価されていないことに気づいたユーザーは、その反応が錯覚である可能性があることに気付くでしょう。

システムがスコアリング結果をさらにフィルタリングして出力できれば、例えばスコアが低すぎる場合、大規模モデルは「この質問には答えられません」と生成する可能性があり、幻覚問題の改善が最大化されると期待されます。

論文アドレス: https://aclanthology.org/2023.findings-emnlp.345.pdf

ASPIRE を使用すると、LLM は回答とその回答の信頼スコアを出力できます。

研究者の実験結果によると、ASPIRE は CoQA ベンチマークなどのさまざまな QA データセットにおいて従来の選択性予測方法を大幅に上回っています。

LLM では、質問に答えるだけでなく、その回答を評価することも求められます。

選択性予測のベンチマークテストでは、研究者らは ASPIRE システムを使用して 10 倍の規模のモデルを上回る結果を達成しました。

これは、教科書の後ろにある自分の答えを生徒に確認させるようなものです。少し信頼性が低いように聞こえますが、よく考えてみると、問題を解いた後は誰もが答えに対する満足度をスコア付けするはずです。

これが ASPIRE の本質であり、次の 3 つのフェーズで構成されます。

（１）特定のタスクに合わせたチューニング

（２）回答サンプリング、

（３）自己評価学習

研究者の見解では、ASPIRE は単なる別のフレームワークではなく、LLM の信頼性を総合的に向上させ、幻覚を軽減する明るい未来を表しています。

LLM が意思決定プロセスにおいて信頼できるパートナーになれるかどうか。

選択的予測を行う能力を最適化し続ける限り、大規模モデルの潜在能力を完全に実現することに一歩近づくことになります。

研究者たちは、ASPIRE によって次世代の LLM の進化を開始し、より信頼性が高く自己認識力のある人工知能を生み出すことを期待しています。

ASPIREの仕組み

タスク固有の微調整

ASPIRE は、LLM を固定しながら、タスク固有の微調整を実行して適応性パラメータをトレーニングします。

生成タスクのトレーニングデータセットが与えられると、事前トレーニング済みの LLM を微調整して予測パフォーマンスを向上させます。

このため、パラメータ効率の高い微調整技術（ソフトキューワード微調整や LoRA など）を採用して、タスクの事前トレーニング済み LLM を微調整することができます。これらの技術により、少量の客観的データで強力な一般化タスクデータを効果的に取得できるためです。

具体的には、LLMパラメータ（θ）を固定し、微調整のために適応パラメータを追加します。

標準的なLLMトレーニング損失（クロスエントロピーなど）を最小化するために、θ(p)のみが更新されます。

この微調整により、予測精度が向上するだけでなく、正しい出力シーケンスの可能性も高まるため、選択的予測のパフォーマンスが向上します。

回答サンプル

ASPIRE は、特定のタスクに合わせて調整された後、LLM と学習した CNN を使用して、トレーニングの質問ごとに異なる回答を生成し、自己評価学習用のデータセットを作成します。

研究者の目標は、高い確率で出力シーケンスを生成することです。彼らは、ビームサーチをデコードアルゴリズムとして使用して、高尤度の出力シーケンスを生成し、生成された出力シーケンスが正しいかどうかを判断するために Rouge-L メトリックを使用しました。

自己評価学習

ASPIRE は、各クエリに対して可能性の高い出力をサンプリングした後、適応型パラメータを追加し、微調整のみを行って自己評価を学習します。

出力シーケンスの生成は θ とのみに依存するため、 θ と学習した θ を固定すると、自己評価を学習するときに LLM の予測動作が変更されるのを回避できます。

研究者らは、適応した LLM が正解と不正解を独自に区別できるように最適化しました。

このフレームワークでは、パラメータ効率の高い微調整方法を使用してトレーニングおよびを行うことができます。

この研究では、研究者らは、従来の個別のテキストキューよりも効果的に特定の下流タスクを実行できるように固定言語モデルを調整するための「ソフトキュー」を学習するためのシンプルでありながら効果的なメカニズムであるソフトキュー微調整を使用しました。

このアプローチの中心となるのは、自己評価を効果的に引き出す手がかりが開発できれば、ソフトな手がかりの微調整とターゲットを絞ったトレーニング目標を組み合わせることで、その手がかりを発見できるはずだという認識です。

トレーニングとデコードの後、研究者はビームサーチデコードを通じてクエリの予測を取得しました。

次に研究者らは、回答を生成する可能性と学習した自己評価スコア（つまり、クエリに対する予測が正しい可能性）を組み合わせた選択性スコアを定義し、選択的予測を行いました。

結果

ASPIRE の有効性を実証するために、研究者らは、さまざまなオープンな事前トレーニング済み Transformer (OPT) モデルを使用して、3 つの質問応答データセット (CoQA、TriviaQA、SQuAD) で ASPIRE を評価しました。

研究者たちは、ソフトキューを使用してトレーニングを調整することで、 LLM の精度が大幅に向上したことを観察しました。

たとえば、ASPIRE を使用した OPT-2.7B モデルは、CoQA および SQuAD データセットを使用した、より大規模な事前トレーニング済み OPT-30B モデルと比較して、優れたパフォーマンスを示します。

これらの結果は、適切な調整を行うことで、より小さな LLM でも、場合によってはより大きなモデルの精度に匹敵するか、それを上回る可能性があることを示唆しています。

固定モデル予測の選択スコア計算をさらに詳しく調べると、ASPIRE はすべてのデータセットに対してベースラインメソッドよりも高い AUROC スコア (ランダムに選択された正しい出力シーケンスが、ランダムに選択された誤った出力シーケンスよりも高い選択スコアを持つ確率) を達成します。

たとえば、CoQA ベンチマークでは、ASPIRE はベースラインと比較して AUROC を 51.3% から 80.3% に向上させます。

TriviaQA データセットの評価では興味深いパターンが浮かび上がります。

事前トレーニング済みの OPT-30B モデルはベースライン精度が高くなっていますが、従来の自己評価方法 (Self-eval および P(True)) を適用した場合、選択性予測のパフォーマンスは大幅に向上しません。

対照的に、はるかに小さい OPT-2.7B モデルは、ASPIRE で拡張された後、この点で他のモデルよりも優れたパフォーマンスを発揮しました。

この違いは重要な点を反映しています。つまり、従来の自己評価手法を利用する大規模な LLM は、小規模な ASPIRE 拡張モデルほど選択性を予測するのに効果的ではない可能性があるということです。

ASPIRE を使用した研究者の実験の旅は、LLM 環境における重要な変化を浮き彫りにしています。言語モデルの能力は、そのパフォーマンスのすべてではないということです。

代わりに、戦略の調整によってモデルの有効性が大幅に向上し、より小さなモデルでもより正確で信頼性の高い予測が可能になります。

このように、ASPIRE は、独自の回答の確実性をインテリジェントに判断し、選択的予測タスクにおいて 10 倍の規模を持つ他のモデルを大幅に上回るパフォーマンスを発揮することで、LLM の可能性を実証しています。

<<: エンドツーエンドの自動運転に向けて、Horizon Robotics が Sparse4D アルゴリズムを正式にオープンソース化

>>:

ブログ

「幻想」を消し去れ！ Google の新しい ASPIRE メソッドにより、LLM は自己採点が可能になり、その効果はボリュームモデルよりも 10 倍優れています。

タスク固有の微調整

回答サンプル

自己評価学習

武有雄が人工知能について語る

音声インターフェース：私たちはインタラクションの次の時代の瀬戸際にいる

AIに関する哲学的考察 - 認知不変性とAI

ディープラーニングとニューラルネットワーク: 注目すべき 6 つのトレンド

年次指数レポートではAIが「産業化」しているが、より優れた指標とテストが必要とされている

誰もが映画の「監督」！ MSRA、北京大学、その他の大学が提案：ビデオ、映画、短編ビデオ生成モデル

推薦する

調査結果: 回答者の 64% が生成 AI による作業の功績を認めている

資本から絶大な支持を受ける人工知能が、なぜ金融分野で壁にぶつかっているのか。

人工知能の3つの大きな弱点

Golang AI開発: アプリケーションにAIを統合する

AIのエネルギー消費は高すぎるため、マイクロソフトはデータセンターの電力供給に原子力発電の利用を検討している

COVID-19パンデミックの影響を受けて、世界のエッジAIソフトウェア市場は急速な発展を遂げている

AI時代の南北格差を埋める

プライバシー技術: 「AI レース」に勝つための秘密のアドバンテージ

GPT-4 はチューリングテストに合格しませんでした。 60年前、古いAIはChatGPTに勝利しましたが、人間の勝率はわずか63％でした。

医療用ロボット：世界第2位のロボットの現状と今後の応用展望

現代オフィスのデジタル変革

グラフやグラフニューラルネットワークについて学びたいですか?論文を読むより良い方法はありません。

英国メディア：中国と米国の人工知能の覇権争いで欧州は敗退

2018年、中国とアメリカのインターネット大手によるAIチップ戦争で、BATはFANGに挑戦できるのか？