PaLMを超えて！北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

1,750億のパラメータを持つGPT-3や5,400億のパラメータを持つPaLMなど、大規模言語モデルは現代の自然言語処理技術の基礎と言えます。事前トレーニング済みのモデルは、下流のタスクに非常に強力な少量学習機能を提供します。

しかし、推論タスク、特に正しい答えを得るために複数段階の推論を必要とする問題は依然として課題です。

最近、研究者たちは、適切なプロンプトを設計することで、モデルが複数段階の推論を実行して最終的な答えを生成できるように誘導できることを発見しました。この方法は、思考連鎖推論とも呼ばれます。

Thinking Chainテクノロジーにより、算術ベンチマークGSM8Kの精度が17.9%から58.1%に向上しました。その後導入された投票自己一貫性メカニズムにより、精度はさらに74.4%に向上しました。

簡単に言えば、複雑な推論タスクには通常、正しい答えにたどり着くことができる複数の推論パスがあります。自己矛盾のない方法は、思考チェーンを通じて言語モデルから一連の異なる推論パスをサンプリングし、最も自己矛盾のない答えを返します。

最近、北京大学とマイクロソフトの研究者らは、3つの大きな革新を含む新しい自己矛盾のない方法であるDiVeRSeに基づいて、モデルの推論機能をさらに向上させました。

論文リンク: https://arxiv.org/abs/2206.02336

コードリンク: https://github.com/microsoft/DiVeRSe

まず、「異なるアイデア、同じ答え」という自己一貫性のあるアプローチ、つまり言語モデルから異なる推論パスをサンプリングすることに触発されて、DiVeRSe は多様性をさらに一歩進めます。「すべての道はローマに通ず」というコンセプトに従って、複数のプロンプトを使用して回答を生成することで、より完全で補完的な回答を生成できます。

研究者はまず、各質問に対して 5 つの異なるプロンプトを提供し、次に各プロンプトに対して 20 の推論パスをサンプリングし、最終的に各質問に対して 100 の回答推論パスを生成しました。

重要な問題は、異なるプロンプトをどのように取得するかです。サンプルライブラリを取得していると仮定すると、そこから K 個のサンプルをサンプリングしてプロンプトを作成し、それを 5 回繰り返すことができます。

例が十分でない場合は、プロンプトの多様性を向上させるために自己学習アプローチが使用されます。つまり、例の一部から疑似推論パスと <質問、回答> ペアが生成されます。

第二に、推論パスを生成する際に、言語モデルには前のステップでのエラーを修正するメカニズムがないため、最終的な予測結果に混乱が生じる可能性があります。 DiVeRSe は、各推論パスの正しさを検証して投票メカニズムを導く検証者のアイデアを活用します。つまり、すべての推論メカニズムが同じように重要であったり、優れているわけではありません。

ある質問に対して 100 の推論パスがあり、そのうち 60 は「答えは 110」となり、40 は「答えは 150」となるとします。検証者がいない場合（つまり、元の自己矛盾のない方法）、「答えは 110 です」が多数決なので、110 を最終答えと見なし、結果が 150 である 40 の推論パスを削除できます。

検証者は推論パスにスコアを付けます。関数 f はバイナリ分類器によってトレーニングされます。入力は質問 x、パス z、回答 y で、出力は肯定の確率です。

検証器では、「答えは 110 です」という 60 の推論パスの平均スコアが 0.3 で、「答えは 150 です」という 40 の推論パスの平均スコアが 0.8 であるとします。最終的な答えは150になるはずです。なぜなら40*0.8>60*0.3だからです。

3 番目に、答えは複数の推論ステップに基づいて生成されるため、パスが正しい答えを生成する場合、すべてのステップが最終的な正しさに貢献したと想定できます。ただし、間違った回答が生成された場合でも、すべての手順が間違っている、またはエラーの原因になっているわけではありません。

つまり、結果は間違っていても、中間のステップのいくつかは依然として正しいかもしれませんが、正しい方向から外れた後続のステップのいくつかが最終的に間違った答えにつながります。 DiVeRSe は、各ステップにきめ細かいラベルを割り当てるメカニズムを設計し、最終的な答えを見るだけでなく、各ステップの推論に正しさを割り当てるステップ認識検証器を提案します。

本体は依然としてバイナリ分類器ですが、重要な問題はステップレベルのネガティブラベルをどのように取得するかです。最終的な答えが間違っている場合、人間の介入がなければどのステップが間違っているかがわからず、正しい答えはプロセスが正しいはずであることを意味するためです。

研究者らはサポートの概念を提案しました。たとえば、算数の課題では、中間結果が中間ステップの結果と同じである別の例が必要です。

研究者らは、これら 3 つの改善に基づいて 5 つの算術推論データセットで実験を行い、code-davinci-002 に基づく DiVeRSe メソッドが平均改善率 6.2% の新しい SOTA アルゴリズムを実現したことを発見しました。

2 つの常識推論タスクでは、DiVeRSe のパフォーマンスは PaLM ベースの自己一貫性 (-2.2%) よりもわずかに低くなっています。その理由は、常識推論タスクがオープンエンド生成タスクではなく複数選択タスクであるため、偽陽性の疑似例が多くなるためと考えられます。

帰納的推論タスクでは、DiVeRSeはCLUTRRタスクで95.9%を達成し、以前のSOTA微調整結果（+28.9%）を上回りました。

アブレーション実験では、投票検証メカニズムのパフォーマンスが大幅に向上していることがわかります。

ほとんどの実験では、投票検証をステップ対応バージョンに拡張すると、パフォーマンスが向上します。 GSM8K 上の code-davinci-002 の場合、ステップ認識バージョンの検証ツールによってパフォーマンスがわずかに低下します。

考えられる理由は、code-davinci-002 の方が強力で、GSM8K のより高品質の推論パスを生成できるため、ステップレベルの情報の必要性が減ることです。つまり、text-davinci は短い/不完全な推論パスを生成する可能性が高く、code-davinci は長いコンテンツを生成するのに適しています。

論文の筆頭著者は、2020年にノースイースタン大学でソフトウェア工学の学士号を取得し、現在は北京大学で修士号取得を目指して勉強している李易菲氏です。彼の主な研究分野は自然言語処理、特に大規模言語モデルにおけるプロンプトチューニングと推論です。

この記事の2番目の著者は、Microsoft Research AsiaのDKI研究者であるZeqi Linです。彼は北京大学で2014年に学士号、2019年に博士号を取得しました。彼の主な研究分野は、機械学習と、ソフトウェア分析およびデータ分析におけるその応用です。

<<: Nature のサブ出版物: 新しいアルゴリズムは、米国の 8 つの都市で 90% の精度で、1 週間前に 2 ブロック以内の犯罪を予測できます。

>>: 推奨される自動化およびオーケストレーションツール10選

ブログ

システムと機械学習を接続するための MLOps の課題は何ですか?この記事は明らかにしている

ブログ

マイクロソフト、AIを活用してがんの放射線治療時間を短縮：スキャン速度が2.5倍に向上、精度は90％に

ブログ

ディープラーニング: シンプルだが限界のあるソリューション

ブログ

EUがAIを活用して社会イノベーションを推進する方法

ブログ

PaLMを超えて！北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

システムと機械学習を接続するための MLOps の課題は何ですか?この記事は明らかにしている

マイクロソフト、AIを活用してがんの放射線治療時間を短縮：スキャン速度が2.5倍に向上、精度は90％に

ディープラーニング: シンプルだが限界のあるソリューション

EUがAIを活用して社会イノベーションを推進する方法

推薦する

KDnuggets 調査 | データサイエンティストが最もよく使用するアルゴリズムトップ 10

ついに誰かが様々なStyleGANの大きな概要を作成した

AIとERPが出会うとどんな「化学反応」が起こるのでしょうか？

Google Chat GPT は、メールを読んだり、予定をスケジュールしたり、フライトやホテルをワンクリックで予約したりできます。

AIとIoTの相互運用性に対する需要は2021年も増加し続ける

Facebookは、さまざまな機械学習の問題に適用できる、勾配フリー最適化のためのオープンソースツール「Nevergrad」をリリースしました。

「ロボット交通警察」が登場！最先端技術が輸送業界に力を与える

34B パラメータが GPT-4 を上回ります! 「数学的普遍モデル」MAmmoTH オープンソース: 平均精度が最大 29% 向上

AI アプリケーションをテストするにはどうすればいいですか?

ChatGPT を使用すると、わずか 3 時間で高品質の論文を書くことができます。