北京大学のコンピュータサイエンス博士課程の学生が、OpenAIに先駆けて数学の問題を解くための事前学習済み言語モデルに関する論文を発表した。

北京大学のコンピュータサイエンス博士課程の学生が、OpenAIに先駆けて数学の問題を解くための事前学習済み言語モデルに関する論文を発表した。

[[433838]]

先日、EMNLP 2021 アワードが発表されました!最優秀長編論文と最優秀短編論文は中国の著者が受賞した。

しかし、幸せな人もいれば、悲しい人もいます。

北京大学の博士課程学生 Jianhao Shen 氏が率いる EMNLP に提出された「Generate & rank: A multi-task framework for math word issues」と題された論文は、包括的なレビュー中に重要性が不十分であると判断され、最終的に Findings に含まれたものの、メインの会議では受け入れられませんでした。

「査読者は概ねこの論文を好意的に受け止めましたが、限界論文のようです。これは数学の問題に対する BART の応用であり、数学の問題解決は NLP にとってそれほど重要なタスクではないことを考えると、このタスクに対する高度に設計されたソリューションの価値には疑問を感じます。」

[[433839]]

公式文書によると、「調査結果」としてリストされている論文は、一般的に低いスコアが付けられるか、または「新規性」が低いとみなされます。

特定のタスクの SOTA は改善されましたが、EMNLP コミュニティへの新しい洞察やより広範な適用性はありませんでした。

優れた斬新な実験があり、包括的な分析と結論が提示されていますが、使用されている方法は十分に「斬新」ではありません。

OpenAIはこの論文が非常に重要であると考えているが

興味深いことに、OpenAIは10月29日に「検証」と呼ばれる新しい方法を提案し、小学校の算数の問題を解くことができると主張した。

論文アドレス: https://arxiv.org/pdf/2110.14168.pdf

GSM8Kデータセットのアドレス: https://github.com/openai/grade-school-math

OpenAI が解決したい数学の問題は次のようになります。

OpenAI の GSM8K データセットからの問題の例 3 つ。計算注釈は赤で表示されています。

さらに、OpenAIは、「検証」により、60億のパラメータを持つGPT-3が数学の文章問題を解く際の精度が2倍になり、1750億のパラメータと微調整法を備えたGPT-3モデルに追いつくことさえできることを発見しました。

さらに重要なのは、9〜12歳の子供がテストで60点を獲得したのに対し、OpenAIの方法では同じ質問で55点しか獲得できなかったことです。これは人間の小学生のレベルの約90%に相当します。

どちらの記事も数学の文章問題を解くことについて書かれているので、これら 2 つの記事の目的は同じなのでしょうか?

偶然ですね、本当です!

それだけでなく、OpenAIの最新作「数学の文章問題を解くための検証者のトレーニング」では、北京大学の博士課程の学生であるShen Jianhao氏が9月7日に提出した論文「生成とランク付け:数学の文章問題のためのマルチタスクフレームワーク」も引用されている。

Jianhao Shen、Yichun Yin、Lin Li、Lifeng Shang、Xin Jiang、Ming Zhang、Qun Liu。生成と並べ替え: 数学の文章問題のためのマルチタスク フレームワーク。EMNLP 2020 の調査結果。この研究は、北京大学コンピュータサイエンス学院とファーウェイ・ノアの箱舟研究所の共同研究によって完了しました。

論文アドレス: https://arxiv.org/abs/2109.03034

シェンが論文で解かなければならない数学の文章題がどのようなものか見てみましょう。

確かにこの2つは非常に似ています!

OpenAI の論文の「はじめに」セクションをさらに詳しく見ると、次の文章が見つかります。

OpenAIは論文の中で、そのアイデアはShen Jianhaoの論文に似ていると述べた。

「関連方法」では、次の文も確認できます。

私たちの仕事は彼らのアプローチと多くの基本的な類似点を共有していますが、いくつかの重要な点では異なります。

OpenAIは記事の最後で、シェン博士の記事も引用した。

つまり、OpenAI は Shen の論文の手法の価値を認識し、Shen Jianhao の論文は実際には OpenAI より 1 か月早く発表されたのです。

特筆すべきは、この論文の第一著者である沈建豪氏が、2014年に浙江省の大学入学試験でトップの成績を収めた人物だということです。彼は北京大学数学学院のデータ分野でもトップでした。彼は現在、北京大学コンピュータサイエンス学院の博士課程の学生であり、指導教官は張明教授です。

[[433840]]

言語モデルは数学の問題を解決できますか?

OpenAIのGPT-3は「優れた文学的才能」を持ち、天文学から地理学まであらゆることを知っています。有名作家の文体を真似して、幅広い知識を披露しても問題ありません。

しかし、「言語」モデルGPT-3は、文学は得意だが科学は苦手という典型的な「偏った生徒」であり、小学校の算数の文章問題を解くなど、正確な多段階の推論を完了することができません。

問題は、言語モデルは正解のルールを模倣することしかできず、「論理」を理解していないことです。

したがって、人間が大規模な言語モデルに複雑なロジックを理解させるには、モデルに間違いを識別し、問題解決の手順を慎重に選択することを学習させる必要があります。

この観点から、OpenAIと博士課程の学生Jianhao Shenはともに、言語モデルが数学的推論スキルを習得し、その推論が間違っているかどうかを判断できるようにするために、「最初に生成してからソートする」方法を提案した。

2つのコンテンツの比較

コアフレームワークは、ジェネレーター + リオーダラー/バリデーターです。

北京大学とファーウェイのノアの世代と再編成フレームワーク

Shen 氏の論文のモデルはジェネレーターとランク付け装置で構成されており、生成タスクとランク付けタスクを通じて共同でトレーニングされます。

ジェネレーターの目的は、与えられた数学の文章問題の解式を生成することです。次に、ソーターは候補セットから正しい表現を選択する必要があります。

どちらもエンコードとデコードに同じ BART モデルを共有し、ソーターは式にスコアを付けるスコアリング関数を追加します。

さらに、シーケンサーのトレーニング例を提供するための表現ライブラリを構築しました。モデルベースの生成とツリーベースの摂動という 2 つの異なる戦略が使用されます。

モデルベースの生成では、ハーネス検索メソッドを通じてジェネレーターを使用して上位 K 個の式を取得し、それらを式ライブラリに追加します。

ツリーベースの干渉法では、まず正しい表現をバイナリ ツリーに変換し、次に拡張、編集、削除、交換の 4 つの操作を使用して、前の方法を補足する新しい表現を取得します。

ツリーベースの干渉

トレーニング プロセスには、マルチタスク トレーニングとオンラインでの表現の更新が含まれます。まず、事前トレーニング済みの BART を生成タスクに合わせて微調整します。その後、微調整された BART とツリーベースの摂動を使用して、ランク付けツールのトレーニング サンプルとして表現を生成します。次に、生成とソートの共同トレーニングを実行します。

このプロセスは反復的に実行され、2 つのモジュール (ジェネレーターとソーター) は互いにブーストし続けます。同時に、ランカーに使用されるトレーニング インスタンスは、各反復後に更新されます。

トレーニングプロセスの生成とランク付け

OpenAI のアプローチには、ジェネレーターと検証者が関与します。

OpenAIのバリデータ

検証者は、モデルによって生成されたソリューションが正しいかどうかを判断できるため、テスト中に、検証者は質問と候補ソリューションを入力として受け取り、各ソリューションが正しい確率を出力します。検証者がトレーニングされると、ソリューションが正しい最終回答に到達したかどうかのみがトレーニングされ、正解か不正解かがマークされます。

検証者の具体的なトレーニング方法は、次の 3 つのステップに分かれています。

  1. まず、トレーニング セットでモデルの「ジェネレーター」を 2 エポックにわたって微調整します。
  2. 各トレーニング問題に対してジェネレーターから 100 個のソリューションをサンプリングし、各ソリューションに正解または不正解のラベルを付けます。
  3. 次に、バリデーターはデータセット上で 1 つのエポックにわたってトレーニングされます。

テスト中、新しい問題を解決するために、まず 100 個の候補ソリューションが生成され、次に「検証者」によってスコアが付けられ、最終的に最もランクの高いソリューションが選択されます。

確かにアイデアは似ていますが、細かい点が少し異なります。

1. OpenAIは記事の中で、ジェネレーターのトレーニングを制限し、過剰適合を防ぐためにジェネレーターと検証器を別々にトレーニングしていると述べていますが、原則的にはこれらのモデルを組み合わせて共同トレーニングを行うべきだと考えており、Shenは共同トレーニング法を使用しました。実験結果も、共同トレーニングによって最終的な効果が向上することを示しています。

2. シェン氏は、再配置者のトレーニングを支援する方法として、ツリーベースの撹乱という手法を提案しました。これは、正しい表現に基づいて、一連のより難しいネガティブサンプルを設計し、少しの撹乱を新しいネガティブサンプルとして追加するというものです。 OpenAIは同様のプロセスについては言及しなかった。

3. 「検証者」の性能を評価するために、OpenAI は新しい「GSM8K データセット」を収集し、研究用にオープンソース化しました。

GSM8K は、高品質、多様性に富み、中程度の難易度の小学校数学の問題 8,500 問で構成されています。データセット内の各質問では、最終的な答えを得るために「加算、減算、乗算、除算」の 4 つの算術演算を含む 2 ~ 8 の計算ステップが必要です。

最後に、Shen 氏は、よく使用される 2 つのデータセット、Math23K と MAWPS で実験を行いました。

そのうち、Math23K は 23,162 個の数学の文章題とそれに対応する数式解を含む大規模な中国語データセットです。 MAWPS は 2373 の質問を含む英語のデータセットで、そのすべてが 1 つの未知変数を持つ線形問題であり、式で解くことができます。

もちろん、最も明白なことは、使用される言語モデルが異なることです。 Shen は事前トレーニング済みのモデル BART を使用し、OpenAI は 60 億と 1750 億のパラメータを持つ GPT-3 を使用しました。

<<:  コビオニクス、針を使わずにワクチンを投与する新しいロボットを開発

>>:  マジックGPTは、1秒あたり1クロスの速度でオンライン記事を自動的に書き込み、宦官の作品に無制限の更新を提供することもできます。

ブログ    

推薦する

AIテキスト翻訳システムの品質が44%向上し、500億以上のパラメータを使用して200の言語を翻訳

Meta Platforms は本日、Meta が社内開発した、200 言語のテキストを翻訳できる人...

...

次世代ビッグデータ・人工知能基盤技術の発展と動向

2018 年はオープンソース ソフトウェアの歴史の中で最もエキサイティングな年でした。2 件の IP...

CES 2024 AIスマートホームのハイライト

ChatGPT が AI を話題にしてから 1 年以上経ちましたが、今年の Consumer Ele...

...

プログラマーの面接でよく聞かれる質問: スケジュールされたタスク スケジューラを設計し、どのようなアルゴリズムとデータ構造を使用するか

学生時代、私は Huya の面接を受けたことがあります。今でもはっきりと覚えている面接の質問がありま...

人工知能 vs 人間の知能: 人間と機械の融合が未来か?

[[187064]]人工知能を研究するアメリカの企業カーネルの投資家ブライアン・ジョンソン氏は、埋...

役に立つ情報: GitHub で 26,000 個のスターを獲得!初心者のための Python アルゴリズム

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ルカン氏と彼のポスドク研究員はarxivに論文を発表したが、redditのネットユーザーから「最初の写真は間違っている」と疑問視された。

ニューラル ネットワーク モデルのトレーニングの最大の欠点は、大量のトレーニング データが必要になる...

人工知能はこれからどのように発展していくのでしょうか?

人工知能、略してAIの起源は非常に古い。1956年の夏、アメリカのハノーバーという小さな町に、コンピ...

順序保存回帰: リソース利用を最大化するアルゴリズム

[[205069]] 1. 数学的な定義順序保存回帰は回帰アルゴリズムの一種です。基本的な考え方は、...

これから起こることは避けられません。AIサイバー犯罪はすでにあなたの近くにあります

数か月前の2017 GMICカンファレンスで、ホーキング博士は再びAI脅威論を提起し、「強力なAIの...

毎日のアルゴリズム: 有効な三角形の数

[[429712]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...

人工知能と機械学習でよく使われるアルゴリズムの概要と、よく使われる各アルゴリズムの精度の比較

[[319322]]この記事では、一般的に使用されている機械学習アルゴリズムの概要と、一般的に使用さ...

マイクロソフトは、Bingチャットのベテラン向けにエキスパートモードの導入を検討中:より複雑なUIとより豊富な機能

7月26日、マイクロソフト広告およびウェブサービスのCEOであるミハイル・パラキン氏は、ネットユーザ...