北京大学のコンピュータサイエンス博士課程の学生が、OpenAIに先駆けて数学の問題を解くための事前学習済み言語モデルに関する論文を発表した。

[[433838]]

先日、EMNLP 2021 アワードが発表されました!最優秀長編論文と最優秀短編論文は中国の著者が受賞した。

しかし、幸せな人もいれば、悲しい人もいます。

北京大学の博士課程学生 Jianhao Shen 氏が率いる EMNLP に提出された「Generate & rank: A multi-task framework for math word issues」と題された論文は、包括的なレビュー中に重要性が不十分であると判断され、最終的に Findings に含まれたものの、メインの会議では受け入れられませんでした。

「査読者は概ねこの論文を好意的に受け止めましたが、限界論文のようです。これは数学の問題に対する BART の応用であり、数学の問題解決は NLP にとってそれほど重要なタスクではないことを考えると、このタスクに対する高度に設計されたソリューションの価値には疑問を感じます。」

公式文書によると、「調査結果」としてリストされている論文は、一般的に低いスコアが付けられるか、または「新規性」が低いとみなされます。

特定のタスクの SOTA は改善されましたが、EMNLP コミュニティへの新しい洞察やより広範な適用性はありませんでした。
優れた斬新な実験があり、包括的な分析と結論が提示されていますが、使用されている方法は十分に「斬新」ではありません。

OpenAIはこの論文が非常に重要であると考えているが

興味深いことに、OpenAIは10月29日に「検証」と呼ばれる新しい方法を提案し、小学校の算数の問題を解くことができると主張した。

論文アドレス: https://arxiv.org/pdf/2110.14168.pdf

GSM8Kデータセットのアドレス: https://github.com/openai/grade-school-math

OpenAI が解決したい数学の問題は次のようになります。

OpenAI の GSM8K データセットからの問題の例 3 つ。計算注釈は赤で表示されています。

さらに、OpenAIは、「検証」により、60億のパラメータを持つGPT-3が数学の文章問題を解く際の精度が2倍になり、1750億のパラメータと微調整法を備えたGPT-3モデルに追いつくことさえできることを発見しました。

さらに重要なのは、9〜12歳の子供がテストで60点を獲得したのに対し、OpenAIの方法では同じ質問で55点しか獲得できなかったことです。これは人間の小学生のレベルの約90%に相当します。

どちらの記事も数学の文章問題を解くことについて書かれているので、これら 2 つの記事の目的は同じなのでしょうか?

偶然ですね、本当です！

それだけでなく、OpenAIの最新作「数学の文章問題を解くための検証者のトレーニング」では、北京大学の博士課程の学生であるShen Jianhao氏が9月7日に提出した論文「生成とランク付け：数学の文章問題のためのマルチタスクフレームワーク」も引用されている。

Jianhao Shen、Yichun Yin、Lin Li、Lifeng Shang、Xin Jiang、Ming Zhang、Qun Liu。生成と並べ替え: 数学の文章問題のためのマルチタスクフレームワーク。EMNLP 2020 の調査結果。この研究は、北京大学コンピュータサイエンス学院とファーウェイ・ノアの箱舟研究所の共同研究によって完了しました。

論文アドレス: https://arxiv.org/abs/2109.03034

シェンが論文で解かなければならない数学の文章題がどのようなものか見てみましょう。

確かにこの2つは非常に似ています！

OpenAI の論文の「はじめに」セクションをさらに詳しく見ると、次の文章が見つかります。

OpenAIは論文の中で、そのアイデアはShen Jianhaoの論文に似ていると述べた。

「関連方法」では、次の文も確認できます。

私たちの仕事は彼らのアプローチと多くの基本的な類似点を共有していますが、いくつかの重要な点では異なります。

OpenAIは記事の最後で、シェン博士の記事も引用した。

つまり、OpenAI は Shen の論文の手法の価値を認識し、Shen Jianhao の論文は実際には OpenAI より 1 か月早く発表されたのです。

特筆すべきは、この論文の第一著者である沈建豪氏が、2014年に浙江省の大学入学試験でトップの成績を収めた人物だということです。彼は北京大学数学学院のデータ分野でもトップでした。彼は現在、北京大学コンピュータサイエンス学院の博士課程の学生であり、指導教官は張明教授です。

言語モデルは数学の問題を解決できますか?

OpenAIのGPT-3は「優れた文学的才能」を持ち、天文学から地理学まであらゆることを知っています。有名作家の文体を真似して、幅広い知識を披露しても問題ありません。

しかし、「言語」モデルGPT-3は、文学は得意だが科学は苦手という典型的な「偏った生徒」であり、小学校の算数の文章問題を解くなど、正確な多段階の推論を完了することができません。

問題は、言語モデルは正解のルールを模倣することしかできず、「論理」を理解していないことです。

したがって、人間が大規模な言語モデルに複雑なロジックを理解させるには、モデルに間違いを識別し、問題解決の手順を慎重に選択することを学習させる必要があります。

この観点から、OpenAIと博士課程の学生Jianhao Shenはともに、言語モデルが数学的推論スキルを習得し、その推論が間違っているかどうかを判断できるようにするために、「最初に生成してからソートする」方法を提案した。

2つのコンテンツの比較

コアフレームワークは、ジェネレーター + リオーダラー/バリデーターです。

北京大学とファーウェイのノアの世代と再編成フレームワーク

Shen 氏の論文のモデルはジェネレーターとランク付け装置で構成されており、生成タスクとランク付けタスクを通じて共同でトレーニングされます。

ジェネレーターの目的は、与えられた数学の文章問題の解式を生成することです。次に、ソーターは候補セットから正しい表現を選択する必要があります。

どちらもエンコードとデコードに同じ BART モデルを共有し、ソーターは式にスコアを付けるスコアリング関数を追加します。

さらに、シーケンサーのトレーニング例を提供するための表現ライブラリを構築しました。モデルベースの生成とツリーベースの摂動という 2 つの異なる戦略が使用されます。

モデルベースの生成では、ハーネス検索メソッドを通じてジェネレーターを使用して上位 K 個の式を取得し、それらを式ライブラリに追加します。

ツリーベースの干渉法では、まず正しい表現をバイナリツリーに変換し、次に拡張、編集、削除、交換の 4 つの操作を使用して、前の方法を補足する新しい表現を取得します。

ツリーベースの干渉

トレーニングプロセスには、マルチタスクトレーニングとオンラインでの表現の更新が含まれます。まず、事前トレーニング済みの BART を生成タスクに合わせて微調整します。その後、微調整された BART とツリーベースの摂動を使用して、ランク付けツールのトレーニングサンプルとして表現を生成します。次に、生成とソートの共同トレーニングを実行します。

このプロセスは反復的に実行され、2 つのモジュール (ジェネレーターとソーター) は互いにブーストし続けます。同時に、ランカーに使用されるトレーニングインスタンスは、各反復後に更新されます。

トレーニングプロセスの生成とランク付け

OpenAI のアプローチには、ジェネレーターと検証者が関与します。

OpenAIのバリデータ

検証者は、モデルによって生成されたソリューションが正しいかどうかを判断できるため、テスト中に、検証者は質問と候補ソリューションを入力として受け取り、各ソリューションが正しい確率を出力します。検証者がトレーニングされると、ソリューションが正しい最終回答に到達したかどうかのみがトレーニングされ、正解か不正解かがマークされます。

検証者の具体的なトレーニング方法は、次の 3 つのステップに分かれています。

まず、トレーニングセットでモデルの「ジェネレーター」を 2 エポックにわたって微調整します。
各トレーニング問題に対してジェネレーターから 100 個のソリューションをサンプリングし、各ソリューションに正解または不正解のラベルを付けます。
次に、バリデーターはデータセット上で 1 つのエポックにわたってトレーニングされます。

テスト中、新しい問題を解決するために、まず 100 個の候補ソリューションが生成され、次に「検証者」によってスコアが付けられ、最終的に最もランクの高いソリューションが選択されます。

確かにアイデアは似ていますが、細かい点が少し異なります。

1. OpenAIは記事の中で、ジェネレーターのトレーニングを制限し、過剰適合を防ぐためにジェネレーターと検証器を別々にトレーニングしていると述べていますが、原則的にはこれらのモデルを組み合わせて共同トレーニングを行うべきだと考えており、Shenは共同トレーニング法を使用しました。実験結果も、共同トレーニングによって最終的な効果が向上することを示しています。

2. シェン氏は、再配置者のトレーニングを支援する方法として、ツリーベースの撹乱という手法を提案しました。これは、正しい表現に基づいて、一連のより難しいネガティブサンプルを設計し、少しの撹乱を新しいネガティブサンプルとして追加するというものです。 OpenAIは同様のプロセスについては言及しなかった。

3. 「検証者」の性能を評価するために、OpenAI は新しい「GSM8K データセット」を収集し、研究用にオープンソース化しました。

GSM8K は、高品質、多様性に富み、中程度の難易度の小学校数学の問題 8,500 問で構成されています。データセット内の各質問では、最終的な答えを得るために「加算、減算、乗算、除算」の 4 つの算術演算を含む 2 ～ 8 の計算ステップが必要です。

最後に、Shen 氏は、よく使用される 2 つのデータセット、Math23K と MAWPS で実験を行いました。

そのうち、Math23K は 23,162 個の数学の文章題とそれに対応する数式解を含む大規模な中国語データセットです。 MAWPS は 2373 の質問を含む英語のデータセットで、そのすべてが 1 つの未知変数を持つ線形問題であり、式で解くことができます。

もちろん、最も明白なことは、使用される言語モデルが異なることです。 Shen は事前トレーニング済みのモデル BART を使用し、OpenAI は 60 億と 1750 億のパラメータを持つ GPT-3 を使用しました。

<<: コビオニクス、針を使わずにワクチンを投与する新しいロボットを開発

>>: マジックGPTは、1秒あたり1クロスの速度でオンライン記事を自動的に書き込み、宦官の作品に無制限の更新を提供することもできます。

ブログ

北京大学のコンピュータサイエンス博士課程の学生が、OpenAIに先駆けて数学の問題を解くための事前学習済み言語モデルに関する論文を発表した。

言語モデルは数学の問題を解決できますか?

2つのコンテンツの比較

なぜディープラーニングは非パラメトリックなのでしょうか?

ロボットは労働者を完全に置き換えるのでしょうか?心配しないでください。人間と機械の組み合わせだけが仕事の疲れを軽減できます

AAAI2018にはアリババからの11の論文が収録され、6人の著者がメインカンファレンスでプレゼンテーションを行うよう招待されました。

ヘルスケアにおける AI: 注目すべき 3 つのトレンド

あなたはまだ顔認識精度指標に騙されていませんか?

人工知能によるサイバーセキュリティ防御の強化

AI は金融業界がランサムウェアに効果的に対抗するのに役立つでしょうか?

ピチャイ氏は、Googleが2024年中に従業員を解雇すると明らかにし、これにより中国人従業員が自殺する事態にも発展した。シリコンバレーの約8,000人がAIによって排除される可能性があると疑われている

推薦する

AIを活用したBeike Real Estate：不動産サービス業界の新たなエコシステムの構築

「有害な」データを食べると、大きなモデルはより従順になります。 HKUSTとHuaweiのノアの箱舟ラボより

最高データおよび分析責任者は、AI 投資の収益をどのように見ているのでしょうか?

データサイエンスにおける ML+ と DL+ の時代へようこそ

SOA におけるソフトウェアアーキテクチャ設計とソフトウェアとハードウェアの分離方法論

2020年におすすめの優れた人工知能システム

ニューラルネットワークの仕組みを1つの記事で学ぶ

適切な場所で機械学習は革命をもたらすだろう

一般的な負荷分散アルゴリズムをいくつ知っていますか?

人工知能が気候変動対策に革命を起こす6つの方法

自然言語処理のためのニューラルネットワークモデルに関する予備的研究