HuaweiがTransformerアーキテクチャを改良! Pangu-πは特性欠陥問題を解決し、同じスケールでLLaMAよりも優れた性能を発揮します。

HuaweiがTransformerアーキテクチャを改良! Pangu-πは特性欠陥問題を解決し、同じスケールでLLaMAよりも優れた性能を発揮します。

Huawei Pangu シリーズが建築に革新をもたらします!

Quantum位は、Huawei Noah's Ark Laboratoryと他の企業が共同で新しい大規模言語モデルアーキテクチャ「 Pangu-π」を立ち上げたことを知りました。

非線形性を強化することで従来の Transformer アーキテクチャを改善し、機能の崩壊の問題を大幅に軽減できます。

直接的な効果は、モデル出力の表現力が強くなることです。

同じデータでトレーニングした場合、Pangu-π(7B)は、複数のタスクでLLaMA 2などの同じサイズの大規模モデルよりも優れており、 10%の推論加速を達成できます。

10 億スケールでSOTAを達成します。

同時に、このフレームワークに基づいて大規模な金融法務モデル「雲山」が開発されました。

この研究はAI専門家のタオ・ダチェン氏が主導した。

具体的にどうやって達成するのでしょうか?一緒に見ましょう。

非線形性を利用して特徴の崩壊を解決する

現在、最も一般的な大規模モデルは、GPT、LLaMA などの Transformer アーキテクチャを使用しています。

そのコアコンポーネントには、マルチヘッド自己注意メカニズム (MSA) とフィードフォワード ネットワーク (FFN) が含まれます。

MSA の主な機能は、入力シーケンス内の各トークンと他のすべてのトークンとの相関関係を計算することです。入力シーケンス内の依存関係を学習することで、言語を理解する能力を高めることができます。 FFN は主に入力に対して非線形変換を実行し、モデルの表現力を高めて、より複雑な関数を近似できるようにします。

しかし、Huawei Noah's Ark Laboratory は、特徴の崩壊が Transformer アーキテクチャのパフォーマンスに影響を与え、表現力を低下させ、モデルが異なる入力を区別することを困難にすることを発見しました。

LLaMA を例にとると、より深いニューラル ネットワークでは、特徴レベルが大幅に削減され、すべてのトークン間の類似性が高まります。

メカニズムの観点から見ると、自己注意モジュールは完全なグラフ上の情報集約と見なすことができます。注意の複数の層を連続的に積み重ねることは、連続的な多層グラフ畳み込みのようなもので、過剰な特徴平滑化効果を生み出します。

一方、多層パーセプトロン (MLP) の活性化関数によって提供される非線形性は十分ではなく、特徴の崩壊を抑制する効果は限られています。

そこで研究チームは、モデルの非線形表現能力を向上させ、特徴の崩壊を回避したいと考え、本研究でPangu-πを提案しました。

以下は Pangu-π の構造の概略図です。

FFN に直列アクティベーション関数を追加し、MSA に拡張ショートカット接続 (Aug-S) を統合すると、Transformer アーキテクチャにさらに効果的に非線形性を導入できます。

Augmented Quick Connection (Aug-S) を使用する MSA は、各トークンの機能を異なる表現に変換できます。

研究チームはこの新しいアーキテクチャに基づいて、大規模なトレーニングと微調整を通じてPangu-π ベースモデルを開発しました。

実験結果によると、このモデルは複数のタスクにおいて同じスケールの他のモデルよりも優れていることが示されています (それぞれ 7B スケールと 1B スケールがテストされました)。

さらに、Pangu-π-7Bは約10%の推論加速を達成できます。

同時に、チームはこれを基に金融法分野の大型モデル「雲山」も開発し、これも複数のベンチマークで他のモデルを上回りました。


責任著者はタオ・ダチェンです。

この研究のチーム構成も非常に印象的であることは注目に値します。

責任著者はTao Dachengです。

彼は欧州科学アカデミーの外国人会員であり、オーストラリア科学アカデミーのフェローでもある。彼は中国科学技術大学で学部を学び、香港中文大学MMLabを卒業し、唐暁に師事したと言われています。

2007年に博士号を取得後、香港理工大学、シンガポールの南洋理工大学、シドニー工科大学、オーストラリアのシドニー大学で教鞭を執りました。彼は現在、清華大学インテリジェント産業研究所の AIR チームの著名な客員教授です。

同時に、UBTECHとJD.comにも相次いで入社。JD.comの最高レベルのAI科学者であり、JD.com探索研究所の所長を務めた。

一人は王雲和。

彼は2012年ノアの箱舟研究所の上級研究員であり、現在はアルゴリズム応用部門の部門長を務めています。

王雲和氏は、効率的な AI アルゴリズムの革新的な研究開発と、その Huawei のビジネスへの応用を担当しています。彼と彼のチームは効率的な AI アルゴリズムを開発し、その派生アプリケーションは中国の FAST 観測作業で使用され、中国科学院国立天文台の専門家が数百の新しい高速電波バーストのサンプルを発見するのに役立ちました。

論文アドレス: http://arxiv.org/abs/2312.17276

<<:  「スラムダンク」は、ヒューマノイドロボットをシミュレートし、人間のバスケットボールの動きを1対1でコピーします。特定のタスクに対する報酬を必要とせず、一度見るだけで習得できます。

>>: 

ブログ    
ブログ    

推薦する

...

...

世界中のもう一人の自分と話すのはどんな感じでしょうか?世界初のAI人間観察者が誕生

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ジェフリー・ヒントンの最新インタビュー: 5年以内に脳の仕組みを解明できるだろうが、それはバックプロパゲーションによるものではない

過去10年間で、AIはコンピュータービジョン、音声認識、機械翻訳、ロボット工学、医学、計算生物学、タ...

人工知能の発展の特徴とその3つのタイプの現れについての簡単な分析

人工知能は、人間の知能をシミュレート、拡張、拡大するための理論、方法、技術、アプリケーション システ...

サム・アルトマン:人間レベルのAIは到来するが、世界への影響は想像よりはるかに小さい

米国の人工知能スタートアップOpenAIのサム・アルトマンCEOは現地時間1月17日火曜日、人間のレ...

この世界的に有名な旅行ウェブサイトは、150の独自の機械学習モデルを分析し、6つの教訓を学びました。

多くのメディア記事では、「機械学習がXX業界に力を与える」という言葉を目にしますが、この「エネルギー...

NLPとナレッジグラフの統合

この記事は、中国情報処理学会の事務局長である白碩博士が杭州金融ナレッジグラフフォーラムで行った講演を...

2020 年の人工知能とディープラーニングの 5 つの将来トレンド

近年、人工知能は頻繁に話題になっていますが、まだ真の実現には程遠い状況です。 [[314350]]人...

生成型 AI がソフトウェア開発を変える 10 の方法

翻訳者 |陳俊レビュー | Chonglou 1990 年代にソフトウェア プログラミングについて話...

ワクチン開発におけるIoTとAIの役割

明らかな理由から、ワクチンの開発が現在最優先事項となっています。安全で効果的なコロナウイルスワクチン...

ディープラーニングデータセットを管理するための新しいアプローチ

ハブの紹介 Activeloop の Hub は、Numpy のような配列にデータを配置するオープン...

入社1年目のアルゴリズムエンジニアから新人への手紙

[[271455]]ビッグデータダイジェスト制作出典: towarddatascienceコンピレー...

中国の創作力はGPT-4を超える、「最高の文章力」を持つ中国のビッグモデルWeaverが登場

ChatGPT などの一般的な大規模モデルは数百の機能をサポートしていますが、一般的な日常的なユーザ...

...