PaLMを超えて!北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

PaLMを超えて!北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

1,750億のパラメータを持つGPT-3や5,400億のパラメータを持つPaLMなど、大規模言語モデルは現代の自然言語処理技術の基礎と言えます。事前トレーニング済みのモデルは、下流のタスクに非常に強力な少量学習機能を提供します。

しかし、推論タスク、特に正しい答えを得るために複数段階の推論を必要とする問題は依然として課題です。

最近、研究者たちは、適切なプロンプトを設計することで、モデルが複数段階の推論を実行して最終的な答えを生成できるように誘導できることを発見しました。この方法は、思考連鎖推論とも呼ばれます。

Thinking Chainテクノロジーにより、算術ベンチマークGSM8Kの精度が17.9%から58.1%に向上しました。その後導入された投票自己一貫性メカニズムにより、精度はさらに74.4%に向上しました。

簡単に言えば、複雑な推論タスクには通常、正しい答えにたどり着くことができる複数の推論パスがあります。自己矛盾のない方法は、思考チェーンを通じて言語モデルから一連の異なる推論パスをサンプリングし、最も自己矛盾のない答えを返します。

最近、北京大学とマイクロソフトの研究者らは、3つの大きな革新を含む新しい自己矛盾のない方法であるDiVeRSeに基づいて、モデルの推論機能をさらに向上させました。

論文リンク: https://arxiv.org/abs/2206.02336

コードリンク: https://github.com/microsoft/DiVeRSe

まず、「異なるアイデア、同じ答え」という自己一貫性のあるアプローチ、つまり言語モデルから異なる推論パスをサンプリングすることに触発されて、DiVeRSe は多様性をさらに一歩進めます。「すべての道はローマに通ず」というコンセプトに従って、複数のプロンプトを使用して回答を生成することで、より完全で補完的な回答を生成できます。

研究者はまず、各質問に対して 5 つの異なるプロンプトを提供し、次に各プロンプトに対して 20 の推論パスをサンプリングし、最終的に各質問に対して 100 の回答推論パスを生成しました。

重要な問題は、異なるプロンプトをどのように取得するかです。サンプル ライブラリを取得していると仮定すると、そこから K 個のサンプルをサンプリングしてプロンプトを作成し、それを 5 回繰り返すことができます。

例が十分でない場合は、プロンプトの多様性を向上させるために自己学習アプローチが使用されます。つまり、例の一部から疑似推論パスと <質問、回答> ペアが生成されます。

第二に、推論パスを生成する際に、言語モデルには前のステップでのエラーを修正するメカニズムがないため、最終的な予測結果に混乱が生じる可能性があります。 DiVeRSe は、各推論パスの正しさを検証して投票メカニズムを導く検証者のアイデアを活用します。つまり、すべての推論メカニズムが同じように重要であったり、優れているわけではありません。

ある質問に対して 100 の推論パスがあり、そのうち 60 は「答えは 110」となり、40 は「答えは 150」となるとします。検証者がいない場合(つまり、元の自己矛盾のない方法)、「答えは 110 です」が多数決なので、110 を最終答えと見なし、結果が 150 である 40 の推論パスを削除できます。

検証者は推論パスにスコアを付けます。関数 f はバイナリ分類器によってトレーニングされます。入力は質問 x、パス z、回答 y で、出力は肯定の確率です。

検証器では、「答えは 110 です」という 60 の推論パスの平均スコアが 0.3 で、「答えは 150 です」という 40 の推論パスの平均スコアが 0.8 であるとします。 最終的な答えは150になるはずです。なぜなら40*0.8>60*0.3だからです。

3 番目に、答えは複数の推論ステップに基づいて生成されるため、パスが正しい答えを生成する場合、すべてのステップが最終的な正しさに貢献したと想定できます。ただし、間違った回答が生成された場合でも、すべての手順が間違っている、またはエラーの原因になっているわけではありません。

つまり、結果は間違っていても、中間のステップのいくつかは依然として正しいかもしれませんが、正しい方向から外れた後続のステップのいくつかが最終的に間違った答えにつながります。 DiVeRSe は、各ステップにきめ細かいラベルを割り当てるメカニズムを設計し、最終的な答えを見るだけでなく、各ステップの推論に正しさを割り当てるステップ認識検証器を提案します。

本体は依然としてバイナリ分類器ですが、重要な問題はステップレベルのネガティブラベルをどのように取得するかです。最終的な答えが間違っている場合、人間の介入がなければどのステップが間違っているかがわからず、正しい答えはプロセスが正しいはずであることを意味するためです。

研究者らはサポートの概念を提案しました。たとえば、算数の課題では、中間結果が中間ステップの結果と同じである別の例が必要です。

研究者らは、これら 3 つの改善に基づいて 5 つの算術推論データセットで実験を行い、code-davinci-002 に基づく DiVeRSe メソッドが平均改善率 6.2% の新しい SOTA アルゴリズムを実現したことを発見しました。

2 つの常識推論タスクでは、DiVeRSe のパフォーマンスは PaLM ベースの自己一貫性 (-2.2%) よりもわずかに低くなっています。その理由は、常識推論タスクがオープンエンド生成タスクではなく複数選択タスクであるため、偽陽性の疑似例が多くなるためと考えられます。

帰納的推論タスクでは、DiVeRSeはCLUTRRタスクで95.9%を達成し、以前のSOTA微調整結果(+28.9%)を上回りました。

アブレーション実験では、投票検証メカニズムのパフォーマンスが大幅に向上していることがわかります。

ほとんどの実験では、投票検証をステップ対応バージョンに拡張すると、パフォーマンスが向上します。 GSM8K 上の code-davinci-002 の場合、ステップ認識バージョンの検証ツールによってパフォーマンスがわずかに低下します。

考えられる理由は、code-davinci-002 の方が強力で、GSM8K のより高品質の推論パスを生成できるため、ステップレベルの情報の必要性が減ることです。つまり、text-davinci は短い/不完全な推論パスを生成する可能性が高く、code-davinci は長いコンテンツを生成するのに適しています。

論文の筆頭著者は、2020年にノースイースタン大学でソフトウェア工学の学士号を取得し、現在は北京大学で修士号取得を目指して勉強している李易菲氏です。彼の主な研究分野は自然言語処理、特に大規模言語モデルにおけるプロンプトチューニングと推論です。

この記事の2番目の著者は、Microsoft Research AsiaのDKI研究者であるZeqi Linです。彼は北京大学で2014年に学士号、2019年に博士号を取得しました。彼の主な研究分野は、機械学習と、ソフトウェア分析およびデータ分析におけるその応用です。​

<<:  Nature のサブ出版物: 新しいアルゴリズムは、米国の 8 つの都市で 90% の精度で、1 週間前に 2 ブロック以内の犯罪を予測できます。

>>:  推奨される自動化およびオーケストレーションツール10選

ブログ    
ブログ    

推薦する

強化学習の専門家 Sergey Levine: スケーラブルな自己教師あり学習の基盤としての強化学習

[[438887]]現在、機械学習システムは、コンピュータービジョン、音声認識、自然言語処理など、多...

中国の人工知能産業における4つの大きなトレンド

人工知能は新たな産業変革の中核的な原動力であり、これまでの科学技術革命と産業変革によって蓄積された膨...

AIとIoTが持続可能で人間中心の建物をどのようにサポートするか

企業の世界における人工知能の利点は何でしょうか?企業分野における AI の主な利点の 1 つは、プロ...

未来に向けて:IoT + AIが人類の進化の方向となる

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

CNNが画像の特徴を自動的に抽出できる理由

1. はじめに従来の機械学習のシナリオのほとんどでは、まず特徴エンジニアリングなどの方法を通じて特徴...

ドローンは「緊急産業」がインテリジェンスの時代に移行するのに大いに役立つ

私の国は、世界で最も深刻な災害に見舞われる国の一つです。自然災害は一般的に、種類が多く、被害地域が広...

なぜ男性ロボットの方がユーザーに人気があるのでしょうか?その魅力は何でしょうか? 3つの特徴が鍵となる

人類が科学技術の時代に入り、初期の単純な産業時代から複雑で多面的なハイテク産業時代へと進化して数百年...

漫画の着色に機械学習を使用する

何百ものトレーニング データの例を手描きせずに、シンプルなカラー スキームを自動的に適用できますか?...

パーソナライズされたサービス + 5G アプリケーション IBM が 2022 年の 5 つの AI 予測を発表

2022年も、疫病やサプライチェーン危機などの悪影響は続くとみられ、AIに対する消費者の信頼獲得や気...

...

Googleの華博士がICCV2021で新モデルを発表、卵を泡立てるだけでパンケーキを作りたいかどうかがわかる

機械学習モデルが現実世界でますます使用され、導入されるようになると、AI の意思決定は人々の日常生活...

ChatGPT文明がオンラインになりました!ワンクリックで明代の南京と中世イタリアを旅しよう

ChatGPT がリリースされてから、宿題をするために ChatGPT を使い始める学生が増えてきま...