HuaweiがTransformerアーキテクチャを改良! Pangu-πは特性欠陥問題を解決し、同じスケールでLLaMAよりも優れた性能を発揮します。

HuaweiがTransformerアーキテクチャを改良! Pangu-πは特性欠陥問題を解決し、同じスケールでLLaMAよりも優れた性能を発揮します。

Huawei Pangu シリーズが建築に革新をもたらします!

Quantum位は、Huawei Noah's Ark Laboratoryと他の企業が共同で新しい大規模言語モデルアーキテクチャ「 Pangu-π」を立ち上げたことを知りました。

非線形性を強化することで従来の Transformer アーキテクチャを改善し、機能の崩壊の問題を大幅に軽減できます。

直接的な効果は、モデル出力の表現力が強くなることです。

同じデータでトレーニングした場合、Pangu-π(7B)は、複数のタスクでLLaMA 2などの同じサイズの大規模モデルよりも優れており、 10%の推論加速を達成できます。

10 億スケールでSOTAを達成します。

同時に、このフレームワークに基づいて大規模な金融法務モデル「雲山」が開発されました。

この研究はAI専門家のタオ・ダチェン氏が主導した。

具体的にどうやって達成するのでしょうか?一緒に見ましょう。

非線形性を利用して特徴の崩壊を解決する

現在、最も一般的な大規模モデルは、GPT、LLaMA などの Transformer アーキテクチャを使用しています。

そのコアコンポーネントには、マルチヘッド自己注意メカニズム (MSA) とフィードフォワード ネットワーク (FFN) が含まれます。

MSA の主な機能は、入力シーケンス内の各トークンと他のすべてのトークンとの相関関係を計算することです。入力シーケンス内の依存関係を学習することで、言語を理解する能力を高めることができます。 FFN は主に入力に対して非線形変換を実行し、モデルの表現力を高めて、より複雑な関数を近似できるようにします。

しかし、Huawei Noah's Ark Laboratory は、特徴の崩壊が Transformer アーキテクチャのパフォーマンスに影響を与え、表現力を低下させ、モデルが異なる入力を区別することを困難にすることを発見しました。

LLaMA を例にとると、より深いニューラル ネットワークでは、特徴レベルが大幅に削減され、すべてのトークン間の類似性が高まります。

メカニズムの観点から見ると、自己注意モジュールは完全なグラフ上の情報集約と見なすことができます。注意の複数の層を連続的に積み重ねることは、連続的な多層グラフ畳み込みのようなもので、過剰な特徴平滑化効果を生み出します。

一方、多層パーセプトロン (MLP) の活性化関数によって提供される非線形性は十分ではなく、特徴の崩壊を抑制する効果は限られています。

そこで研究チームは、モデルの非線形表現能力を向上させ、特徴の崩壊を回避したいと考え、本研究でPangu-πを提案しました。

以下は Pangu-π の構造の概略図です。

FFN に直列アクティベーション関数を追加し、MSA に拡張ショートカット接続 (Aug-S) を統合すると、Transformer アーキテクチャにさらに効果的に非線形性を導入できます。

Augmented Quick Connection (Aug-S) を使用する MSA は、各トークンの機能を異なる表現に変換できます。

研究チームはこの新しいアーキテクチャに基づいて、大規模なトレーニングと微調整を通じてPangu-π ベースモデルを開発しました。

実験結果によると、このモデルは複数のタスクにおいて同じスケールの他のモデルよりも優れていることが示されています (それぞれ 7B スケールと 1B スケールがテストされました)。

さらに、Pangu-π-7Bは約10%の推論加速を達成できます。

同時に、チームはこれを基に金融法分野の大型モデル「雲山」も開発し、これも複数のベンチマークで他のモデルを上回りました。


責任著者はタオ・ダチェンです。

この研究のチーム構成も非常に印象的であることは注目に値します。

責任著者はTao Dachengです。

彼は欧州科学アカデミーの外国人会員であり、オーストラリア科学アカデミーのフェローでもある。彼は中国科学技術大学で学部を学び、香港中文大学MMLabを卒業し、唐暁に師事したと言われています。

2007年に博士号を取得後、香港理工大学、シンガポールの南洋理工大学、シドニー工科大学、オーストラリアのシドニー大学で教鞭を執りました。彼は現在、清華大学インテリジェント産業研究所の AIR チームの著名な客員教授です。

同時に、UBTECHとJD.comにも相次いで入社。JD.comの最高レベルのAI科学者であり、JD.com探索研究所の所長を務めた。

一人は王雲和。

彼は2012年ノアの箱舟研究所の上級研究員であり、現在はアルゴリズム応用部門の部門長を務めています。

王雲和氏は、効率的な AI アルゴリズムの革新的な研究開発と、その Huawei のビジネスへの応用を担当しています。彼と彼のチームは効率的な AI アルゴリズムを開発し、その派生アプリケーションは中国の FAST 観測作業で使用され、中国科学院国立天文台の専門家が数百の新しい高速電波バーストのサンプルを発見するのに役立ちました。

論文アドレス: http://arxiv.org/abs/2312.17276

<<:  「スラムダンク」は、ヒューマノイドロボットをシミュレートし、人間のバスケットボールの動きを1対1でコピーします。特定のタスクに対する報酬を必要とせず、一度見るだけで習得できます。

>>: 

ブログ    
ブログ    

推薦する

2021年の機械学習ライフサイクル

機械学習プロジェクトを実際に完了するにはどうすればよいでしょうか? 各ステップを支援するツールにはど...

AI顔認識の問題点

今日の AI 顔認識アルゴリズムは完璧ではありません。あなたの会社がこのテクノロジーの導入を検討して...

アルゴリズム エンジニアはなぜ一日中データを扱うのでしょうか。また、どのような種類のデータを扱うのでしょうか。

[[353273]]なぜ私たちはモデルをほとんど作らないのでしょうか?アルゴリズムエンジニアの仕事...

ヘッドライトから始めて、自動運転はどのようにして攻撃性を排除するのでしょうか?

これは、鞭で打たれるとどんどん速く回転するコマのような「高離職率」社会です。技術推論において非常に重...

顔認識の時代に顔を守る方法

シャオ・ワンは最近少しイライラしている。毎日仕事が終わったらすぐにジムに行って運動していたのですが、...

5G、AI、クラウドコンピューティング…東京五輪の裏側にある「ブラックテクノロジー」を徹底検証

8月8日夜、第32回夏季オリンピック競技大会(以下、東京オリンピック)が閉幕した。選手たちの俊敏な姿...

AIoT はセキュリティ業界にどのような影響を与えますか?

進化し続けるテクノロジーの世界における最新のトレンドやイノベーションを追い続ける中で、私たちが注目...

自動運転がまだ人間から解放されていないとき

「不適切なタイミングで車線変更をすることがよくあるのですが、状況を救うためにハンドルを切ろうとすると...

フィンテック2022年の技術トレンド:プライバシーコンピューティングが焦点、仮想人間が金融マネージャーを再構築

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ネットで熱い議論:感染拡大から半年でディープラーニングの求人数が激減

[[340795]]ビッグデータダイジェスト制作近年、ディープラーニング エンジニアは市場で最も人気...

...

高性能 HTTP サーバーの負荷分散アルゴリズムは何ですか?ほとんどのプログラマーは収集しています...

典型的な高同時実行性、大規模ユーザー Web インターネット システムのアーキテクチャ設計では、HT...

物体検出にディープラーニングを使用する方法

[51CTO.com クイック翻訳]ディープニューラルネットワークは、視覚情報を処理する強力な能力で...

5つの新たなAI IoTアプリケーション

人工知能とモノのインターネットを組み合わせたこの新しい技術の波は、新たな機会をもたらし、業界全体の運...