追加のトレーニングなしでモデルのパフォーマンスを 30% 向上します。ディープマインドの科学者がMIT博士課程学生のインターンシップの成果を称賛

追加のトレーニングなしでモデルのパフォーマンスを 30% 向上します。ディープマインドの科学者がMIT博士課程学生のインターンシップの成果を称賛

MIT 博士課程の学生による驚くべき発見:

Transformer の特定のレイヤーを非常に単純に削減するだけで、モデルのサイズを縮小しながらモデルのパフォーマンスを大幅に向上させることができます。

この効果は主にテキスト理解タスクに反映され、最大 30% になります

これは、3 つのモデル(LLama2、GPT-J、Roberta ) と 8 つの異なるデータセット(認知推論、世界知識などをカバー) で検証されています。

テキスト理解だけでなく、強化学習にも応用できます。

もちろん、さらに重要なのは、この操作はモデルのトレーニングが完了した後にのみ実行する必要があり、追加のパラメーターやデータは必要ないということです

DeepMind の研究科学者はこれを読んで全員賛成しました。

それで、具体的にはどのように行うのでしょうか?

方法の概要

この方法の正式名称は「Layer-Selective Rank Reduction」で、略称は「 LASER 」です。

これは、LLM 重み行列の高次成分を選択的に削除する介入でありこの操作は Transformer モデルの特定の重み行列とレイヤーに対して実行されます。

調査の結果、90% 以上が完全に削除されたとしても、モデルのパフォーマンスは概して低下しないことが判明しました。

具体的には、LASER はランク k 近似によって Transformer モデル内の特定の重み行列(W)を置き換えます。場合によっては、最初の 1% のコンポーネントを含む行列のみを削減することで、良好な結果が得られることがあります。

シングルステップのレーザー介入は、次の 3 つのパラメータで構成されます。

タイプ(T) 、レイヤー番号(ℓ)ランク削減(ρ、フルネームランク削減)

これらの値を組み合わせることで、どの行列をその低ランク近似値に置き換えるか、および近似値の次数を表します。

ここで、パラメータ タイプは介入する行列を分類し、行列 W は MLP と注意層から取得されます。

レイヤー番号は、介入するレイヤーを示します(最初のレイヤーは 0 からインデックスが付けられます) 。たとえば、Llama-2 には 32 層あるため、ℓ ∈ {0, 1, 2, ···31} となります。

最後に、ρ∈[0, 1)は、低ランク近似を行うときに保持する必要があるランクの最大割合を表します。

下の図は、L 番目の層の Transformer ブロック内の MLP の第 1 層の重み行列を更新する LASER 操作の例を示しています。

実験結果:

ランク削減効果はレイヤータイプ間で均一ではなく、主にMLP レイヤーの後続のトランスフォーマー ブロックで実行される LASER 操作で確認され、アテンション レイヤーではわずかにしか確認されません。

同時に、複数のレイヤーで一度に LASER を実行すると、単一レイヤーによってもたらされる改善を超えてモデルのパフォーマンスをさらに向上させることができます

具体的には、モデル本来の性能の2倍を超えることもあります。

モデルのテキスト理解性能が最大30%向上するほか、強化学習にも効果的です。

ここで著者らは、倉庫番ゲーム(ブロックを動かして穴に押し込む)で訓練され評価された意思決定トランスフォーマーモデルに対する LASER の影響を評価します。

結果は、LASER を使用すると、モデルが3% 多くのタスクを解決できることを示しました。

原因分析

なぜこのような単純な操作でモデルのパフォーマンスがこれほど向上するのでしょうか?

著者は、GPT-J モデルの結果(主にトレーニング データ DT rain が公開されているためこのモデルが選択されました)を分析に使用し、トレーニング データ内の「事実の修正」の頻度を計算して、どのデータ ポイントがそれから利益を得るかを調べます。

最も大きなパフォーマンスの向上は低周波サンプルで発生することがわかりました。

下の図 c に示すように、棒グラフは LASER がデータに提供する改善の量を示しており、トレーニング データ内であまり頻繁に発生しないデータ ポイントから精度が最も大きく改善されています。

著者らは、高次成分を除去するとモデルの「ノイズ除去」が行われ、隠れた低周波情報の回復に役立つことは明らかであると説明しています。

この点に関して、DeepMind の研究者たちは、これは非常に理にかなっていると述べています。

LLM では、多くの誤った推論や不正確な情報をモデル化する必要があるため、学習内容の一部を除去することが役立つでしょう。

そこで疑問になるのが、マトリックス内の高次コンポーネントにはモデルを破壊するものが正確には何を格納するのかということです。

これらのコンポーネントを近似して重み行列を学習すると、次のことがわかります。

元の修正されていないモデルが正しく回答できなかった場合、高次コンポーネントは、実際には意味を持たない高頻度語(「a」、「the」、「of」など)を含む質問に答えたり、正しい回答と同じ意味タイプの誤ったエンティティを直接予測したりすることがありました。

LASER を使用してこれらの高次コンポーネントを削除することで、この問題を解決し、モデルが正しく応答できるようになります。

全体として、この研究は、LLM に情報がどのように保存されるか、モデル サイズをどのように圧縮するか、そしてより一般的には大規模言語モデルの動作を理解する上で意味を持ちます。

解決すべき問題はまだ数多くあります。例えば、

1. 重み行列の高次コンポーネントがトレーニング中にノイズの多い回答を蓄積するのはなぜですか?

2. モデルアーキテクチャと構造選択は、この現象の発生にどのような影響を与えますか?

著者について

この記事の著者は 3 人です。そのうちの 1 人は MIT EECS の博士課程の学生です。彼女は Microsoft でインターンシップをしながらこの研究を行いました。

残りの 2 人は、この研究における彼女の指導者です。2 人とも Microsoft Research New York の上級研究員であり、同等の指導貢献をしています。

1 人は、プリンストン大学で博士号を取得し、ディープラーニングと順次意思決定関連の問題を研究対象としている Jordan T. Ash 氏です。

もう 1 人は Dipendra Misra で、インタラクティブ学習、NLP、表現学習を研究対象としています。

<<:  モデル、データ、フレームワークの観点から、効率的な大規模言語モデルに関する54ページのレビューを紹介します。

>>:  世界初!人間の脳のようなスーパーコンピュータ「シェナン」がまもなく発売され、ムーアの法則を破り、エネルギー消費を数桁削減する

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

「人間の顔認識」は事故が多発していますが、「豚の顔認識」は信頼性が高いです!アリババは正しい賭けをした

科学技術の発展に伴い、人々は次第にプライバシーに気を配るようになり、「顔認識」という新興技術に対して...

あなたの「顔」が格安で販売されています!顔認識に大きな抜け穴?

買い物のときに顔で支払いをしたり、顔で携帯電話のロックを解除したり、コミュニティに入るときにドアを開...

【文字列処理アルゴリズム】回文判定のアルゴリズム設計とCコード実装

1. 要件の説明文字列を入力し、その文字列が回文であるかどうかを判断するプログラムを作成します。便宜...

人工知能の分野でどのように計画するか? マイクロソフトはこうする

[51CTO.com からのオリジナル記事] 人工知能は勢いを増しており、多くの大手企業が独自の計画...

...

ChatGPTはオンラインモードを緊急にシャットダウンし、有料のウェブページに無料でアクセスできることが一度明らかになった。

ChatGPT を使用して有料の Web コンテンツに無料でアクセスすることは、まもなくできなくな...

道路が車両を制御することが自動運転の新たな方向性となるのでしょうか?

自動運転技術は、人工知能、ビジュアルコンピューティング、レーダー、監視デバイス、全地球測位システムを...

アルゴリズム調整、難易度がさらに7.3%上昇、ビットコイン採掘難易度は「回復」継続

ルールによれば、ビットコインは2016ブロックごと、つまり約2週間ごとにマイナーの難易度をリセットし...

タオバオライブストリーミングにおける機械学習に基づく帯域幅推定の探求と実践

背景メディア伝送における一般的な帯域幅推定アルゴリズムには、GCC/BBR/PCC/QUBIC など...

...

...

ChatGPT を成功させるための 26 のスーパーヒント

今日は、実際の戦闘でよく使われる26のヒントを紹介します。これにより、出力がより効果的になります。見...

人工知能への恐怖とその対処法5つ

AI テクノロジーを導入する IT リーダーは、ある程度の不安を感じるかもしれませんが、それには十分...

メタバース、ドローン、5G…は2022年に投資する価値のあるテクノロジーになるでしょうか?

2022年は活気に満ちた春のニュースとともにやって来ます。新年はどんな機会と課題をもたらすでしょう...

北京大学の動画モデルが新たなSOTA、AIは数秒で面白いTik Tok動画の面白いポイントを理解できる

AIは面白い動画の何が面白いのかを理解できるようになりました。 AI の回答: このビデオが面白いの...