ChatGPT に回答を出す前に手順について考えてもらうことで、精度を向上させることができます。 では、プロンプトワードを省略して、この能力を大きなモデルに直接取り入れることは可能でしょうか? CMU と Google チームによる新しい研究では、大規模なモデルをトレーニングするときに一時停止トークンを追加することでこれを実現します。 実験では、8つの評価項目の結果が改善され、そのうちSQuADのEMスコアは18%増加し、CommonSenseQAは8%増加し、GSM8kの推論タスクも1%増加しました。 研究者のジャック・ハック氏は、少し前にも同様の仮説を提唱しており、それが検証されたことを非常に嬉しく思っていると語った。 Nvidia のエンジニア、アーロン・エリクソン氏は、それは人間と話すときに「えー」や「あのー」を付け加えるのと同じではないか、と述べました。 事前トレーニングと微調整の両方で一時停止トークンが追加されますこの研究全体は、単純なアイデアに基づいています。 一連の (一時停止トークン) を入力シーケンスに追加し、モデルが次のトークンを出力するのを遅らせます。 これにより、より複雑な入力を処理するための追加の計算時間がモデルに与えられます。 著者は、下流のタスクを微調整するときにこれを導入するだけでなく、事前トレーニング中にシーケンスにランダムに挿入して、モデルが両方の段階でこの計算遅延を活用する方法を学習できるようにしています。 事前トレーニング段階では、標準的な自己回帰事前トレーニングのために、一定の割合の一時停止トークンがコーパスからの入力シーケンスにランダムに挿入されます。ただし、損失を計算する際には、一時停止トークンの予測はスキップされます。 下流タスクを微調整する際には、一定数の一時停止トークンも入力に追加され、モデルパラメータを微調整しながらターゲットシーケンスに対して自己回帰予測が実行されます。 推論フェーズでも同じ数の一時停止トークンが追加されますが、最後の一時停止トークンまでモデル出力を無視し、その後回答の抽出を開始します。 実験では、130M パラメータと 1B パラメータの2 つのバージョンに分かれた標準の Transformer 純粋デコーダー モデルを使用しました。 一時停止トークンは、独自の埋め込みサイズである 1024 個のパラメータのみを追加します。 9 つの異なるタスクでの実験では、微調整段階でのみ一時停止トークンを導入する効果は明らかではなく、一部のタスクは改善されないことが示されました。 ただし、事前トレーニングと微調整の両方で一時停止トークンを使用すると、ほとんどのタスクで大幅な改善が達成されます。 この論文では、一時停止トークンの数や場所などの重要なハイパーパラメータについても検討しています。通常、さまざまなモデルに最適な数があることがわかります。 最後に、著者はこの研究にも多くの限界があることを指摘した。
検索エンジン You.com の CEO は、次は人間の認知能力を向上させるためのあらゆる技術を大規模モデルで試すべきか、と語りました。 今は「一歩ずつ考える」と「深呼吸する」です。 おそらく次のヒット論文は、大きなモデルに問題を抱えたまま眠ることを教えたり、あるいはもっととんでもないことに、健康的な食事と運動を教えたりするものになるだろう。 論文アドレス: https://arxiv.org/abs/2310.02226 |
<<: Googleは大規模モデルをより「インテリジェント」にし、GPT-4タスクの精度が大幅に向上しました。
>>: AIビデオ生成が新たな高みに到達:高解像度の映画品質、無料で無制限に再生可能、「史上最強」として知られる
テクノロジーの世界を永遠に変えたかもしれない GenAI チャットボットである OpenAI の C...
[51CTO.comよりオリジナル記事] 6月21日、WOT2019グローバル人工知能技術サミット...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
UAVとは無人航空機の略称で、無線遠隔操縦装置と独自のプログラム制御装置によって操縦される無人航空機...
海外メディアの報道によると、悪名高いスパムロボットが所有する7億件の電子メールアドレスと、使用してい...
IT Homeは4月12日、マイクロソフトが最近、最新の音声技術を発表したと報じた。この技術は「感情...
パンデミック、経済不況、ヨーロッパでの戦争はすべて、ネガティブな感情や憂鬱感を引き起こす要因となって...
工業情報化部の規定によると、2019年12月1日より、通信事業者はすべてのチャネルで顔認識を実装し、...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
野心的な DeepMind は、ディープラーニング ネットワークと従来のアルゴリズムの間に橋を架けよ...
これは、「Hacker News のランキング アルゴリズムの仕組み」に続く、ランキング アルゴリズ...
デジタル時代では、画像はどこにでもあります。ソーシャル メディアで写真を共有する場合でも、ビジネスの...
日本のアニメに詳しい友人なら、間違いなくメカウォーズにも詳しいでしょう。たとえば、最も人気があり愛さ...