数千億のパラメータを持つ巨大モデルが初公開されました! MetaはGPT-3を複製してOpenAIを「裏切り」、完全なモデルの重みとトレーニングコードが完全に公開されました

数千億のパラメータを持つ巨大モデルが初公開されました! MetaはGPT-3を複製してOpenAIを「裏切り」、完全なモデルの重みとトレーニングコードが完全に公開されました

数千億のパラメータを持つ AI モデルは実際にコードを取得できるのか?

目が覚めると、AI界隈でセンセーションが起こっていた――

Meta AI は、1,750 億のパラメータを持つ大規模言語モデル OPT-175B をリリースしました。GPT-3 の 3,750 億よりもパラメータ数が少ないだけでなく、パフォーマンスも GPT-3 と同等です。

これは、AI 科学者がついに GPT-3 のような大規模なモデルを「こじ開けて」、内部にどんな秘密があるのか​​を見ることができるようになることを意味します。

GPT-3 は驚くべき成果を挙げましたが、十分にオープンではありませんでした。そのソースコードは Microsoft に独占的にライセンスされていました。マスク氏でさえ、OpenAI は十分にオープンではないと批判しました。

論文は存在しますが、さらに研究を進めたい場合は、まずそれを再現する必要があります。

今回、Meta は完全なモデルからトレーニング コード、デプロイメント コードまで完全にオープンになっています。

公式発表前に、まだアップロードされていない GitHub リポジトリを入手して詳細を調べている人もいました。

また、一部の人々は「争いを起こそう」として OpenAI にタグを付けました。

それでは、Meta モデルの特徴と、グリーンで低エネルギー消費を実現する方法、そして外部に公開する必要がある理由は何でしょうか。見てみましょう。

16台のV100で動作可能

OPT は Open Pre-trained Transformer Language Models の略で、「オープンな事前トレーニング済み Transformer 言語モデル」を意味します。

GPTと比較すると、名前がGenerativeからOpenに直接変更されており、非常に意味深いと言えます。 (手動犬頭)

論文の中で、Meta AI は OPT-175B が GPT-3 のベンチマークであると主張することをためらわず、さらにそれがより環境に優しいものであることを示唆しました。

Meta AI は、OPT はオープンコードを目的としており、より多くの人が大規模なモデルを研究できるようにするには、環境構成をできるだけ経済的にする必要があると説明しました。

動作中に発生する二酸化炭素排出量は GPT-3 の 1/7 以下であり、まさに省エネかつ効率的です。

研究者が「能力の範囲内で行動」できるようにするために、Meta AI は 1 億 2,500 万パラメータから 1,750 億パラメータまで、さまざまなサイズの OPT モデルを開発しました。

そのうち、660億のパラメータを持つモデルはまだ開発中であり、まもなく誰でも利用できるようになります。

では、最大の OPT-175B モデルはどれほど効率的で、どのようにしてそれほど効率的なのでしょうか?

パフォーマンスに関しては、Meta AI は 14 の NLP タスクを使用して OPT-175B と GPT-3 でテストされました。

結果は、ゼロショット学習であろうとマルチショット学習であろうと、これらのタスクにおける OPT の平均精度は GPT-3 のそれとそれほど変わらないことを示しています。点線は GPT、実線は OPT です。

△ 左はゼロサンプル学習、右はマルチサンプル学習

具体的なタスクを見てみましょう。対話タスクでは、教師なし学習法を使用して OPT-175B をトレーニングし、その効果は教師あり学習によってトレーニングされたいくつかのタイプのモデルと同様です。

ヘイトスピーチ検出タスクに対する効果は、GPT-3 モデルの Davinci バージョン (GPT-3 の 4 つのバージョンの中で最高) よりもさらに優れています。

トレーニング ハードウェアに関しては、Meta AI は OPT のトレーニングに 992 個の NVIDIA A100 GPU (80 GB) を使用し、各 GPU の平均コンピューティング効率は最大 147 TFLOP/s に達しました。

この効率は、Nvidia の研究者が使用した効率の約 17% よりもさらに高いものです。

Meta AIは、一方ではFSDP(Fully Sharded Data Parallel)と呼ばれる独自のGPUメモリ節約ツールを使用し、大規模なトレーニングを従来の方法よりも約5倍高速化したことを明らかにしました。

一方、NVIDIA の Megatron-LM モデルのテンソル並列方式も借用し、複数のプロセッサに同時に演算を分散させました。

Meta AI でさえ、OPT-175B モデルをトレーニングして展開するには、少なくとも 16 個の NVIDIA V100 GPU が必要であると述べています。

ネットユーザーの中には、すぐにでも試してみたい人もいる。

もちろん、Meta AI は、OPT-175B の大規模モデルが直面している問題のいくつか、たとえば「有害な言語」(攻撃的な言葉の使用、言語差別など) を生成する可能性が高くなることについて語ることをためらっていません。

研究者らは、開設後、より多くの人々が研究に参加し、これらの問題を真に解決することを期待していると述べた。

GPT-3を段階的に複製する方法を教えます

前述の通り、この OPT モデルシリーズでは、300 億パラメータ以下のバージョンは直接ダウンロード可能で、660 億バージョンも準備中です。

完全な 1750 億バージョンのみ、作業単位、目的、関連出版物などの質問を含む追加の申請書に記入する必要があります。

トレーニングとデプロイメント用のコード ツールキットである metaseq は GitHub で公開されており、チュートリアルとドキュメントが付属しています。

有名な fairseq ツールキットのブランチとして、metaseq は 1750 億規模の大規模モデルに焦点を当て、大規模モデルのトレーニングと使用に不要な部分を削除します。

多くの開発者は、モデルやコードと同時にリリースされる「隠れた宝物」である開発ログにも特別な注目を払っています。

大規模モデルの開発プロセスで Meta チームが遭遇した問題、その解決策、および決定の根拠が詳細に記録されています。

Pytorch 誕生以前から存在していた機械学習研究における一連の問題点や混乱に対する、大手メーカーのソリューションに関する直接的な情報を提供します。

これほどのオープンさは前例のないものと言えるでしょう。当然ながら多くの賞賛を受けました。

たとえば、HuggingFace の主任科学者である Thomas Wolf 氏は、オープンソースの大規模モデル プロジェクトにも取り組んでいます。

しかし、1750億パラメータ版を申請する必要性については依然として疑問を呈する声もあった。

私は学者でも実務家でもないのですが、私の申請は受け入れられるでしょうか?

一部の開発者は、Meta が OpenAI のようなデモをいくつか提供することを提案しました。人々がその結果を見れば、研究や改善に参加する意欲が高まります。そうでなければ、開発環境をセットアップするだけではやる気が失せてしまいます。

スタンフォード大学基礎モデル研究センター所長で准教授のパーシー・リャン氏は、大規模モデルの公開度を4段階にまとめ、このことに対する見解を述べた。公開度が高ければ高いほど、研究者はより深い問題に集中できる。

最初のレベルの論文は公開されており、いくつかのアイデアの実現可能性を証明し、構築のアイデアを提供しています。

2番目の層のAPIはオープンであり、研究者は既存のモデルの機能(推論能力など)と限界(バイアスなど)を調査して評価することができます。

第 3 層モデルの重みとトレーニング データは公開されています。研究者が既存のモデルを段階的に改善し、より深い解釈技術とより効果的な微調整方法を開発し、モデルの動作におけるトレーニング データの役割をより深く理解できるようにします。

コンピューティング能力の第 4 層はオープンであり、研究者は新しいアーキテクチャ、トレーニング目標、プロセスを試し、データ融合を実行し、さまざまな分野でまったく新しいモデルを開発できます。

パーシー・リャン氏は、オープン性が高まるとリスクも高まると考えている。

コミュニティ標準を策定する時期が来ているのではないでしょうか?

もう一つ

Meta の論文の共同筆頭著者は 3 人おり、そのうちの 1 人である Susan Zhang は Meta に入社する前は OpenAI に所属していました。

しかし、OpenAI 在籍中、彼女は GPT-3 の開発には携わっておらず、代わりに Dota をプレイするための OpenAI Five 強化学習プロジェクトや、大規模なマルチモーダル モデルの研究に参加していました。

プロジェクトアドレス:

https://github.com/facebookresearch/metaseq/tree/main/projects/OPT

論文の宛先:

https://arxiv.org/abs/2205.01068

参考リンク:

[1] https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/

[2] https://www.technologyreview.com/2022/05/03/1051691/meta-ai-large-language-model-gpt3-ethics-huggingface-transparency/

[3] https://twitter.com/MetaAI/status/1521489996145958914

<<:  MetaはGPT-3を模倣し、OpenAIを「裏切り」、完全なモデルの重みとトレーニングコードが完全に公開される

>>:  人工知能は工場のメンテナンスに大きな役割を果たすだろう

ブログ    
ブログ    

推薦する

...

Nuscenes 最新 SOTA | DynamicBEV が PETRv2/BEVDepth を上回る!

1. 論文情報2. はじめにこの論文では、自動運転、ロボット工学、監視などのアプリケーションに不可...

新しいIT運用・保守管理にはインフラストラクチャとデータの両方が必要

AIビッグモデルの時代、データはIT担当者に「新たな使命」を与える今日、IT プロフェッショナルは企...

ロボットが石油・ガス生産をより安全にする方法

石油とガスの生産は世界で最も危険な仕事の一つです。石油掘削、掘削作業、保守テストなどの作業により、毎...

陸奇氏が楽観視するAI時代のGitHubがついに実現へ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

CV の世界における 3D ビジョンの究極の実現: コンピューターがこの 3 次元の世界を「見る」方法

携帯電話を開くと顔がロック解除されます。VR と AR 技術は、このような仮想でありながら現実のシー...

AIとIoT技術を活用したスマートホームの開発

[[436214]]パーソナライゼーションと自動化は、ユーザー エクスペリエンスの品質を向上させるた...

無人バスは無人タクシーよりも信頼性が高いでしょうか?

バスがプラットフォームに到着するのを待って、バスに乗り、カードをスワイプします。いつもの朝の通勤風景...

速報、劉強東が核爆弾を投げる!宅配便は早く消えます!

本当に信じられません、この時代の変化のスピードは想像を絶します!革新!革新!再びイノベーション!次か...

最新の NaViT モデルは最高です!あらゆるアスペクト比と解像度に対応する強力なトランスフォーマー

本日は、あらゆるアスペクト比と解像度で動作する Transformer モデルである NaViT を...

人工知能におけるGNNとは何ですか?

グラフディープラーニング(GDL)は有望な研究分野であり、グラフデータに基づいた学習や分析は非常に有...

インテリジェントなデザインの4台の馬車が牽引する蘇寧木牛のクリエイティブな共有

[51CTO.comより] 蘇寧木牛は蘇寧人工知能研究開発センターが設計したインテリジェントデザイン...

機械学習は科学プロジェクトからビジネスプランまで3段階の戦略を完了します

【51CTO.com クイック翻訳】 2015年は機械学習技術が学術分野で形を成した年でした。具体的...

...

ディープラーニング戦争: Facebook が支援する PyTorch 対 Google の TensorFlow

[[225687]]近年、人工知能と機械学習のツールと技術が急速に進歩していることは驚くべきことで...