自己一貫性を利用して大規模モデルの推論能力を向上させたGoogleは、ベンチマークの数学問題の75%を解決しました。これはGPT-3よりも20%高い数値です。

自己一貫性を利用して大規模モデルの推論能力を向上させたGoogleは、ベンチマークの数学問題の75%を解決しました。これはGPT-3よりも20%高い数値です。

言語モデルはさまざまな NLP タスクで目覚ましい成功を収めていますが、その推論能力は不十分な場合が多く、モデルのサイズを単純に増やすだけではこの問題を解決できません。これに基づいて、Wei et al. (2022) は、言語モデルに、人が推論タスクを解決するときに採用する可能性のある推論プロセスを模倣した一連の短い文を生成するように促す、思考促進の連鎖を提案しました。

現在、Google Research の研究者は、大規模言語モデルの推論精度を大幅に向上させる「自己一貫性」と呼ばれるシンプルな戦略を提案しています。

論文アドレス: https://arxiv.org/pdf/2203.11171.pdf

論文の著者の一人であり、Google Brainの創設メンバーでもあるQuoc Le氏は本日、この自己矛盾のない方法はGSM8Kベンチマークの数学問題の75%を解くことができ、既存の方法を大幅に上回るとツイートした。

画像出典: https://twitter.com/quocleix/status/1513632492124663808

簡単に言えば、複雑な推論タスクには通常、正しい答えにたどり着くことができる複数の推論パスがあります。自己一貫性のある方法では、思考プロンプトの連鎖を通じて言語モデルから一連の異なる推論パスをサンプリングし、最も自己一貫性のある答えを返します。

このアプローチは、さまざまな算術および常識推論ベンチマークで自己整合的に評価され、追加のトレーニングや補助モデルを必要とせずに、さまざまな言語モデルの精度を堅牢に向上させることができます。最近の大規模言語モデル PaLM-540B と組み合わせると、私たちの自己一貫性のあるアプローチにより、いくつかのベンチマーク推論タスクのパフォーマンスが SOTA レベルまで向上します。

この方法は完全に教師なしであり、事前トレーニング済みの言語モデルは、追加の人間による注釈を必要とせず直接使用でき、追加のトレーニング、補助モデル、または微調整も必要ありません。

この研究では、LaMDA-137B(Thoppilan et al.、2022)、PaLM-540B(Chowdhery et al.、2022)、GPT-3 175B(Brown et al.、2020)を含む3つの大規模言語モデルにおけるさまざまな算術および常識推論タスクの自己一貫性を評価します。研究者たちは、さまざまなサイズの言語モデルに対して、自己矛盾のない方法によって推論能力を大幅に向上できることを発見しました。貪欲なデコード(Wei et al.、2022)を介して単一の思考チェーンを生成する場合と比較して、自己矛盾のないアプローチは、下の図 2 に示すように、すべての推論タスクの精度を大幅に向上させるのに役立ちます。

多様な推論経路における自己一貫性

人間の顕著な特徴の一つは、異なった考え方をすることである。深い思考を必要とするタスクでは、複数の解決策があり、それらはすべて同じ正解につながる可能性が高いと想定するのは自然なことです。したがって、研究者らは、言語モデルデコーダーからサンプリングすることによって、このプロセスを言語モデルでシミュレートできると示唆している。

以下の表 1 に示すように、モデルは数学の問題に対して複数の可能な応答を生成し、最終的に同じ正解 (出力 2、4、5 など) につながる可能性があります。言語モデルは完璧な推論器ではないため、モデルが誤った推論パスを生成したり、特定の推論ステップで間違いを犯したりする可能性があり (出力 1 と 3 など)、このソリューションが同じ答えに到達する可能性は低くなります (表 1 の 26 と 14)。

つまり、想定される推論プロセスが正しい場合、たとえそれが多様であったとしても、推論プロセスが間違っている場合よりも最終的な答えの一貫性が高くなる傾向があります。

研究者たちは、自己一貫性法を通じてこの直感を活用することを提案している。具体的な手順は次のとおりです。

  • まず、言語モデルに手動で記述された一連の思考連鎖の例が提示されます。
  • 次に、言語モデルのデコーダーから候補出力のセットがサンプリングされ、異なる候補推論パスのセットが生成されます。
  • 最後に、生成された回答の中から最も一貫性のある回答を選択して結果を統合します。

実験調査において、研究者らは、思考連鎖プロンプトを思考と組み合わせると、単一の生成パスのみを考慮した思考連鎖のみを使用するよりもはるかに優れた結果が得られることを発見しました。

実験結果

私たちは、さまざまな算術および常識推論ベンチマークで、提案された自己矛盾のないアプローチを既存の方法と比較する一連の実験を実施しました。このアプローチにより、幅広いモデルスケールにわたって各言語モデルの推論精度が大幅に向上することがわかりました。

具体的には、異なる推論パスにおける自己一貫性、つまり自己一貫性(マルチパス)を評価しました。結果は 10 回の実行で平均化され、各実行で 40 個の出力がデコーダーから独立してサンプリングされました。比較の基準となるのは、これまで大規模言語モデルのデコードに使用されてきた貪欲デコード(シングルパス)と呼ばれる、単一の思考チェーンの貪欲デコードです。

算数推論の結果は以下の表2に示されています。 LaMDA-137B の場合、自己一貫性戦略により、各タスクで貪欲デコード (シングルパス) に比べて大幅なパフォーマンス向上が達成され、AddSub、ASDiv、AQuA、GSM8K タスクで絶対精度がほぼ 10% 向上し、MultiArith タスクと SVAMP タスクではそれぞれ 23.9% と 14.4% 向上しました。

より大きな PaLM540B モデルの場合、自己一貫性戦略によってパフォーマンスが大幅に向上し、ASDiv、AQuA、SVAMP、GSM8K でそれぞれ 7.9%、12.5%、7.6%、17.9% という大幅な向上が達成されました。

常識的推論の結果は以下の表3に示されています。 LaMDA-137B モデルの場合、自己一貫性戦略によりすべてのタスクの精度が大幅に向上し、StrategyQA と CommonsenseQA の絶対精度が 2% ~ 5% 向上し、ARC イージー セットと ARC チャレンジ セットの絶対精度がそれぞれ 4.0% と 4.7% 向上しました。

同様に、より大きな PaLM540B モデルは、StrategyQA で 6.3% の改善、ARC-challenge で 3.5% の改善という一貫した成果を達成しました。

下の図 3 は、デコーダーから異なる数の推論パスをサンプリングすることによる、自己一貫性デコードと貪欲デコード (シングルパス) のパフォーマンス比較を示しています。より多くの推論パス (たとえば 40) をサンプリングすると、一貫してパフォーマンスが向上することがわかります。ここでも、推論パスに多様性を導入することの重要性が強調されます。

この研究では、小規模サンプル学習における自己整合法とアンサンブルベースの方法のパフォーマンスを比較します。結果を以下の表 5 に示します。自己無撞着法と比較すると、積分ベースの方法で得られるゲインははるかに小さくなります。

生成品質を向上させるためのもう 1 つの一般的なアプローチは、サンプル アンド ランクです。このアプローチでは、デコーダーから複数のシーケンスがサンプリングされ、各シーケンスのログ確率に基づいて、または追加でトレーニングされた再ランク付けに基づいてランク付けされます。

この研究では GPT-3 モデルを使用し、以下の図 4 に示す結果が得られました。サンプル アンド ソート アプローチでは、追加のサンプリング シーケンスとソートによって精度が向上しますが、自己整合アプローチと比較すると、その向上ははるかに小さくなります。

詳細については原文論文を参照してください。​

<<:  DAMOアカデミーは、初めて半教師あり知識注入を使用して、新しい事前トレーニング済み対話モデルを立ち上げ、大幅な改善を達成しました。

>>:  GoogleはAIを活用して古い地図情報を更新

ブログ    

推薦する

MITは液体のような動的変化に適応できるLiquid機械学習システムを提案

自動運転などの多くの重要なアプリケーションでは、データはリアルタイムかつ動的であり、予期しない状況が...

快手テクノロジーのマルチメディアコンテンツ理解部門のLi Yan氏:AI技術は快手製品に統合されています

「AI技術はKuaishou製品ライン全体に浸透しています。AI技術による多次元のエンパワーメントに...

米空軍がAI技術を活用して「戦闘効率」を向上させる方法を明らかにする

データの規模を拡大し、関連するリテラシーを向上させることで、米空軍のさまざまな部門と人員は、意思決定...

2021年にAIが農業を改善する可能性のある10の方法

PwCは、モノのインターネット(IoTAg)ベースの農業モニタリングがコネクテッドスマート農業の分野...

2022年、AIネットワーク管理が信頼を高める

米国で売上高最大のソーセージブランドであるジョンソンビルソーセージのグローバルネットワークオペレーシ...

Yisaqi 9周年: RPA製品の進化を振り返る

現在、国内RPA市場の競争は激化しており、多くのメーカーが独自のRPA製品やブランドを立ち上げていま...

人工知能に関するよくある質問10選への回答

[[380789]]人工知能は今世紀の主要な話題の一つです。 AI の能力と無限の可能性は、多くの興...

AI時代になっても、あなたのキャリアは存続できるでしょうか?

人工知能(AI)技術はどこまで発展したのでしょうか? [[278665]]将来、AIが社会に本格的に...

于聖奇:顔認識技術のリスクと法的規制

デジタル時代の到来により、顔認識技術の開発は大きく進歩しました。顔認識技術は普及し、多くの分野で広く...

...

YouTube でフォローすべき 5 人のデータ サイエンティストと機械学習エンジニア

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

私の国の人工知能の医療応用シナリオは非常に人気があり、既存の実践では依然として3つのボトルネックを突破する必要があります。

[[261498]]私の国には1,100社以上の人工知能企業があります。人工知能の最もホットな分野...

研究によると、人工知能が書いたツイートに騙される可能性が高くなる

6月29日のニュースによると、新たな研究によると、人間が書いたツイートよりも、人工知能の言語モデルに...