Meta は、大規模モデルの注目メカニズムに関する新たな研究を実施しました。 新しいメカニズムは、モデルの注意を調整し、無関係な情報からの干渉をブロックすることで、大規模モデルの精度をさらに向上させます。 さらに、このメカニズムは微調整やトレーニングを必要としません。Prompt だけで、大規模なモデルの精度を 27% 向上させることができます。 著者はこの注意メカニズムを「システム 2 注意」(S2A) と名付けました。これは、2002 年のノーベル経済学賞受賞者であるダニエル カーネマンのベストセラー書籍「ファスト&スロー」に記載されている心理学的概念、つまり二重システム思考モデルの「システム 2」に由来しています。 いわゆるシステム 2 は、単純な無意識の直感であるシステム 1 とは対照的に、複雑な意識的な推論を指します。 S2A はプロンプトワードを通じて Transformer の注意メカニズムを「調整」し、モデルの全体的な思考をシステム 2 に近づけます。 一部のネットユーザーは、このメカニズムは AI に「ゴーグル」の層を追加するものだと説明しました。 さらに、著者は論文のタイトルの中で、大きなモデルだけでなく、人間自身もこのような思考モードを学ぶ必要があるかもしれないとも述べています。 では、この方法は具体的にどのように実装されるのでしょうか? 大きなモデルが「誤解」されるのを避ける従来の大規模モデルで一般的に使用されている Transformer アーキテクチャは、各単語 (トークン) に 0 ~ 1 のアテンション値を割り当てるソフト アテンション メカニズムを使用します。 対応する概念はハード アテンション メカニズムであり、入力シーケンスの 1 つまたは一部のサブセットのみに焦点を当て、画像処理でより一般的に使用されます。 S2A メカニズムは、2 つのモードの組み合わせとして理解できます。コアは依然としてソフト アテンションですが、それに「ハード」スクリーニング プロセスが追加されています。 具体的な操作としては、S2A ではモデル自体を調整する必要はなく、プロンプトワードを使用することで、モデルが「注意を払う必要のないコンテンツ」を削除してから問題を解くことができます。 このようにして、主観的または無関係な情報を含むプロンプトワードを処理するときに大規模なモデルが誤解される可能性を減らすことができ、それによってモデルの推論能力と実際のアプリケーション価値が向上します。 大規模モデルによって生成される回答はプロンプトワードに大きく影響されることがわかっており、S2A は干渉を引き起こす可能性のある情報を削除することで精度を向上させます。 たとえば、大きなモデルに次のような質問をするとします。 A 市は X 州の都市で、山々と多くの公園に囲まれています。優秀な人々が集まる場所であり、多くの有名人が A 市で生まれました。 X 州 B 市の Y 市長はどこで生まれましたか? この時点で、GPTとLlamaの回答はどちらも質問にあるA市ですが、実際のYさんの出身地はC市です。 直接質問すると、モデルは都市 C を正確に答えることができましたが、プロンプト語に都市 A が繰り返し登場したため、モデルの「注意」が引かれ、答えは A になりました。 もう一つの状況は、人々が質問をするときに「可能な答え」を思いつく場合です。 バンドMに歌手で俳優もやっている人はいますか?Aだと思うのですが、よくわかりません。 その結果、大きなモデルがユーザーを喜ばせ始めます。あなたは正しいです、A は正解です。しかし、実はこの人はBです。 同様に、この人物が誰であるかを直接尋ねると、モデルは正しい答えを返すことができます。 この機能により、著者は新しい S2A メカニズムを考案し、ユーザー入力を絞り込むためのプロンプト ワードのセットを設計しました。 検査前と検査後の効果を詳しく見てみましょう。 Q: メアリーはミーガンの3倍のキャンディーを持っています。メアリーはさらに10個のキャンディーを取りました。マックスはメアリーより 1,000 冊多く本を所有しています。メーガンがキャンディーを 5 個持っている場合、メアリーは合計でキャンディーをいくつ持っていますか? A: マックスはメアリーより 1000 冊多く本を持っているので、マックスは 1000+x+10 個のキャンディーを持っています。次の式を書くことができます。 S2A 処理後の問題は次のようになります。 Q: メアリーはミーガンの3倍のキャンディーを持っています。メアリーはさらに10個のキャンディーを取りました。メーガンがキャンディーを 5 個持っている場合、メアリーは合計でキャンディーをいくつ持っていますか? A: メーガンは5ドル持っていて、メアリーはメーガンの3倍の15ドルを持っていて、そこから10ドル取ったので、合計は25ドルです。 テスト結果によると、一般的な質問と比較して、最適化後の S2A の精度と客観性が大幅に向上し、精度率は手動で設計された簡潔なプロンプトの精度に近いことがわかりました。 具体的には、S2A は、修正された TriviaQA データセット上で Llama 2-70B の精度を 62.8% から 80.3% に向上させ、27.9% の向上を達成しました。また、客観性も 2.23 ポイント (5 点満点) から 3.82 に向上し、手動で調整されたプロンプト単語を上回りました。 堅牢性に関して、テスト結果では、「干渉情報」が正しいか間違っているか、肯定的か否定的かに関係なく、S2A によってモデルがより正確で客観的な回答を得られることが示されています。 さらなる実験結果から、モデルに無効な情報を無視するように指示するだけでは精度が大幅に向上しない(低下する場合もある)ため、干渉情報を除去するには S2A メソッドが必要であることがわかります。 逆に言えば、元の干渉情報が分離されている限り、S2A に対するその他の調整によってその有効性が大幅に低下することはありません。 もう一つ実際、注意メカニズムを調整することでモデルのパフォーマンスを向上させることは、学術界では常にホットな話題となっています。 たとえば、少し前にリリースされた「最強の 7B オープンソース モデル」である Mistral は、新しいグループ クエリ アテンション モードを使用します。 Google の研究チームは、長いテキスト処理の複雑さの問題を解決するために、HyperAttention メカニズムも提案しました。 … Meta が採用した「システム 2」注意モデルについては、AI のゴッドファーザーである Bengio 氏は次のように指摘しました。
論文アドレス: https://arxiv.org/abs/2311.11829 |
<<: すごい...正義のために親族を殺す? Google AI、米国の月面着陸写真は偽物だと判定
>>: Google: LLM は推論エラーを見つけることはできないが、修正することはできる
[[343402]] 1. トレーニングのボトルネックはどこですか? GPU 使用率が低い: モデル...
プラットフォームを選択するための第一の原則は、「データに近い」ことです。コードをデータの近くに保つこ...
自動運転技術は常に注目を集めてきたが、「幻滅」に直面している。これによって起きた初の交通事故死は、1...
トランスフォーマーのメンバー8人全員がGoogleから離脱した。 Googleの画期的なTransf...
今日のアプリケーション開発分野では、OpenAI API などの生成 AI 技術の活発な開発により、...
大規模言語モデル (LLM) の進歩により、AI エージェント (特に LLM エージェント) の活...
サイバー脅威の範囲は、企業資産や選挙から健康データや物理インフラまで拡大しており、新興技術の予期せぬ...
ビッグモデルが急増し、仮想世界から現実世界に進出しています。 Google DeepMind は最近...
[[223595]]はじめに: この記事では、著者の Emmanuel Ameisen が、機械学習...
11月21日、Deepmindは楽器とボーカルで音楽を生成できるLyriaというオーディオモデルをリ...
AppleがSiriを発表してから7年、そしてジェフ・ベゾスがスタートレックにインスピレーションを得...
ディープラーニングに関する理論コースを受講した後、多くの人が独自のプロジェクトを構築してみることに興...
アルゴリズムは比較的複雑かつ基本的な科目です。プログラミングを学ぶ人は誰でも、多数のアルゴリズムを学...
今日、私は GitHub で非常に優れたプロジェクトを見つけました。現在、4700 以上のスターが付...