この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 大規模言語モデルの数学的能力を突破するにはどうすればよいでしょうか? 数学の学部生が次のことを発見しました。 実際、小学1年生のように「指で数える」ことを教えるだけで、彼らはすぐに数学のエキスパートになれます。 写真 たとえば、「34756918247632 + 7934619867453210082」のような大きな数の加算は、GPT-4 のような強力なモデルであっても、大規模なモデルでは解決できません。 しかし、彼の言う通りにすれば、電卓で数字を入力した場合とまったく同じ結果になることが保証されます。 具体的にはどうすればいいのでしょうか? GPT-4を小学生のように教える上記の加算問題を例に挙げてみましょう。GPT-4 が正しく解くためには、2 つの例を与える必要があります。 しかし、非常に単純なもので十分であり、重要なのは計算プロセスを詳細に説明することです。 最初の例は次のとおりです。 379+64 を計算するように教える必要があります。 具体的には、まず GPT-4 に 2 つの加数の桁数と各桁の数を整理させます。 次に、最初の加数が 2 番目の加数より 1 桁多い場合はゼロを追加するように指示します。 どこで補う?桁数の少ない加数を加算します。つまり、64 は 064 になります。 これが完了したら、最初の手順をもう一度繰り返します。 次に、繰り上がりやつながりなどを表す変数や初期値をいくつか設定し、上位の桁から1つずつ数字を加算していき、各桁の結果を結合すると、最終的な答えが得られます。 下のプロンプトワードテンプレートからわかるように、非常に詳細に書き、相手を小学生のように扱う必要があります。 (追記: 2 番目の数字 7+6+c を計算するときに著者がミスを犯したことがわかります。これは 14 に等しくなるはずで、間違った最終結果につながります。しかし、これはまったく影響しません。アイデアが正しければ、モデルはそれを実現できます!) 2 番目の例でも手順は同じです。主な違いは、今回は 0 を追加する必要がないことです。他の人を小学生として扱う場合は、それぞれの状況を明確に説明する必要があります。 上記の 2 つの例をテンプレートとして GPT-4 に入力したら、あとは多くの指示を与えるだけです。 これは追加演算を行うために使用する必要があるテンプレートであり、同じキーワードを使用する必要があります。 次にこう言います:
(英語のプロンプトは次のとおりです:これは加算を行うために使用する必要があるテンプレートです。同じキーワードを使用する必要があります。上記のどこにでも空白を使用する必要があります。 このとき、GPT-4 は次のように伝えます: 了解しました。提供されたテンプレートに厳密に従って、2 つの数値の加算を計算します。 次に、「34756918247632」と「7934619867453210082」と入力します。各数字の間には必ずスペースを入れてください(理由は後で説明します) 。
最後に正解をお伝えします:
まあ、計算機と同じ結果です: また、モデルをランダムに選択してテストし、計算した結果は 376900+12678922 (13055822 に等しい) でした。 それは正しくないことが判明しました: 上記の方法を適用すると、次のようになります。 つまり、大規模言語モデルは依然として非常に賢いのです。教え方さえわかっていれば、その数学的計算能力はまったく問題になりません。 なぜ間違っているのでしょうか?きっと誰もが疑問に思うでしょうが、なぜこのような数学の問題を正しく解くためには小学生のように教えられなければならないのでしょうか? 著者は、主な理由が2つあると分析しました。 1 つは、モデルがテキスト入力を処理するときにトークン化を実行し、数字がトークンに結合されることです。 たとえば、今日計算した問題では、GPT-4 が実際に見ているのは次のようになります。 そのため、GPT-4 が数字を分割せず、正しく計算できるように、各数字をスペースで区切る必要があります。 もちろん、上記の方法で教えずにただスペースを追加するだけでも間違いです。 これが 2 番目の理由につながります。つまり、計算を実行するためのコンテキストを学習するための十分なスペースが与えられていないということです。 GPT-4 は自己回帰言語モデルです。つまり、特定の時間ステップでの出力は、以前のすべての出力に条件付けられます。小学生が質問を解くのと同じように、モデルが任意の位置の数字を段階的に取得できる方法が必要です。 そのため、上記のように「追跡可能」となるようにテンプレートを設定する必要があります。 最後に、著者らは、言語モデルはこれまで構築してきたどのタイプのソフトウェアとも異なると述べています。したがって、特別な忍耐力が必要になります。 では、上記の 2 つの理由を理解した後、小学生に教えるような上記の一連のプロンプト ワード操作をよりよく理解できるでしょうか。 著者についてこの方法の著者は、ウォータールー大学の数学学部生である Karthik Balaji 氏です。 彼の個人ホームページによると、彼は大規模言語モデルに非常に興味を持っており、最近は生成モデル、特に拡散型を研究し始めたとのことです。彼はすでにいくつかの小さな成果を出しているので、興味があればチェックしてみてください。 写真 |
<<: ChatGPTは個人のカスタマイズをサポートします!長いプロンプトに別れを告げ、まずは自己紹介をしましょう
>>: スタンフォード大学学長が学術上の不正行為で辞任!一流ジャーナルの論文3本が撤回に直面し、著者は「学生を信頼しすぎた」と回答
ブルームバーグによると、1月17日、現地時間火曜日にダボスで行われた世界経済フォーラム年次総会で、O...
ChatGpt と Generative AI が登場してほぼ 1 年が経ち、AI ベースのツール...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
ユビキタス データ インテリジェンス テクノロジーを提供する世界唯一のプロバイダーである Terad...
ゲスト: 陳斌、黄文馨ホスト | ユン・チャオノア著制作:51CTO テクノロジースタック(WeCh...
編集者 | ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog)先週、...
BERT が 11 個の NLP 記録を破って以来、幅広いタスクに適用できる NLP 事前トレーニ...
[[432744]] TensorFlow は、Google が開発し、2015 年にオープンソース...
人工知能に関して言えば、かつて映画「マトリックス」で描かれたSFシーンが世界に衝撃を与え、トレンドを...
[[201999]] 1. 共通アルゴリズムルーチン電子商取引業界では、ユーザーへの商品推奨は常に非...
2017年は「人工知能実装元年」と言われています。 AIは人々の生活の隅々にまで浸透しており、AIハ...
人工知能(AI)への世界的な支出は、今後4年間で2020年の501億ドルから2024年には1100億...
先ほど、Zigbee プロトコル スタックのいくつかの原則と構造を紹介しました。すでに理解しているか...