GPT-4 パラメータは 10 兆に達します!この表は、新しい言語モデルのパラメータが GPT-3 の 57 倍になると予測しています。

機械学習の場合、パラメータはアルゴリズムの鍵となります。パラメータは、履歴入力データであり、モデルトレーニングの結果であり、モデルの一部です。

一般的に言えば、NLP の分野では、パラメータの数と複雑さのレベルの間には正の相関関係があります。 OpenAI の GPT-3 は、1,750 億のパラメータを持つ、現在までに最大規模の言語モデルの 1 つです。

それで、GPT-4 はどのようなものになるのでしょうか?

最近、一部のネットユーザーがGTP-4とその「オープンソース版」GPT-NeoXについて大胆な予測を立てました。

著者は、GPT-4 のパラメータは現在の GPT-3 モデルの 57 倍以上である 10T に達する可能性があると考えています。一方、GPT-NeoX の規模は GPT-3 と同等になる可能性があります。

待ってください、もしそうだとしたら、プログラマーはGPT-NeoXのパラメータを喜んで調整できるのでしょうか？

モデル	リリース時間	トークン	パラメータ	1.75Tの割合	トレーニングテキスト
GPT-2 （オープンAI）	2019年2月	10B	15億	0.09%	40GB
GPT-J (エレウサーAI)	2021年6月	400B	6B	0.34%	800GB
GPT-3 （オープンAI）	2020年5月	499B	175B	10.00%	570GB
盤古（中国語）	2021年4月	40B	200B	11.43%	1.1TB
HyperCLOVA（韓国語）	2021年5月	560B	204B	11.66%	1TBですか？
武道 2.0 (中国語)	2021年6月	500B？	1.75T	100.00%	2.4TB
ラムダ（グーグル）	2021年6月	1Tですか？	200B？	11.43%	1TBですか？
GPT-4 （オープンAI）	未定	20T?	10T?	571.43%	5TBですか？
GPT-NeoX (エレウサーAI)	未定	500B？	175B?	10.00%	825GBですか？

データセット分析

現在最も広く使用されている GPT-3 のトレーニングコーパスは、膨大な量の構造化テキストから作成されています。すべてのデータセットはインデックス付け、並べ替え、フィルタリング、重み付けされ、多くの重複が削除されます。

GPT-3 は、OpenAI 専用に構築され、Microsoft Azure でホストされている、世界で最も強力なスーパーコンピューターの 1 つでトレーニングされました。このスーパーコンピューティングシステムには 285,000 個を超える CPU コアと 10,000 個を超える GPU があり、400Gbps で動作します。

GPT-3

Wikipedia DataSet は、Wikipedia の英語コンテンツです。その品質、文体、幅広さにより、言語モデリングのための高品質テキストの標準的なソースとなっています。

WebTextデータセット (およびその拡張バージョン WebText2) は、関連する投稿に 2 つ以上の賛成票が付けられた Reddit の 4,500 万を超える Web ページのテキストです。

月間アクティブユーザー数が 4 億 3,000 万人を超えるこのデータセットのコンテンツは、最も「人気のある」 Web サイトの意見と見なすことができます。

Books1とBooks2は、インターネットに基づく 2 つの書籍データセットです。類似のデータセットには以下が含まれます。

BookCorpus は、未出版の著者が書いた無料のフィクション本のコレクションで、少なくとも 10,000 冊の本が含まれています。
Library Genesis (Libgen) は、科学論文、フィクション、ノンフィクション書籍の膨大なコレクションです。

Common Crawl は、50 億を超える Web ページのメタデータと抽出されたテキストのオープンソースアーカイブです。

8 年間分のペタバイト (数千テラバイト、数百万ギガバイト) のデータ。
250億のウェブサイト。
何兆ものリンク。
英語75%、中国語3%、スペイン語2.5%、ドイツ語2.5%など。
上位 10 ドメインのコンテンツ: Facebook、Google、Twitter、Youtube、Instagram、LinkedIn。

GPT-3で使用されるデータセット

GPT-Neo と GPT-J

今年 3 月、Eleuther AI は GitHub 上で GPT-Neo オープンソースプロジェクトを立ち上げました。これは Colab で微調整できます。

GPT-Neo は、GPT-3 (13 億と 27 億) に比べてパラメータ数はまだ少ないですが、オープンソースで無料であり、依然として「同性の友達」という認識を持っています。

今年6月、Eleuther AIは再びGPT-Neoの強化版ともいえるGPT-J-6Bをリリースしました。名前の通り、モデルのパラメータ数が6Bに増加しました。

GPT-J は、22 個の小規模で高品質なデータセットで構成される 825 GB の多様なオープンソース言語モデリングデータセットである The Pile データベースでもトレーニングされています。

HackerNews、Github、Stack Exchangeなどの専門的なフォーラムやナレッジベース、プレプリントウェブサイトArXivに加えて、The PileにはYoutubeの字幕やEnron Emailsコーパスも含まれています。

GPT-NeoとGPT-Jで使用されるデータセット

ゼロショットタスクでは、GPT-J のパフォーマンスは 67 億のパラメータを持つ GPT-3 に匹敵します。また、GPT-J は、さまざまな下流のゼロショットタスクで現在利用可能な最高のパフォーマンスを発揮する Transformer 言語モデルでもあります。

この観点から、GPT-3と同規模のGPT-NeoXのパフォーマンスに期待が持てます。

ユーザーコメント

GPT-4 はなぜこんなに大きいのでしょうか?

「GPT-3はすでにトークンあたりの理論上の最大効率に近づいています。OpenAIモデルが正しく動作すれば、より大きなモデルは計算能力の無駄遣いに過ぎません。」

あるネットユーザーはこう答えた。「規模は確かに改善をもたらすことができます。本質的には関係性のメタファーモデルであるため、『関係性についてより多くを知る』ということは、より多くのことやより微妙な方法で対応できるようになることを意味します。もちろん、これはマーケティング手法でもあります。」

<<: CVサークル対決：GoogleがViTGANを提案、GANをトレーニングするためにビジュアルトランスフォーマーを使用

>>: FacebookはCNN Transformerの利点を組み合わせ、誘導バイアスを柔軟に利用するConViTを提案している

無料の Python 機械学習コース 7: アルゴリズムのパフォーマンスが低い場合の対処方法

GPT-4 パラメータは 10 兆に達します!この表は、新しい言語モデルのパラメータが GPT-3 の 57 倍になると予測しています。

データセット分析

GPT-3

GPT-Neo と GPT-J

ユーザーコメント

無料の Python 機械学習コース 7: アルゴリズムのパフォーマンスが低い場合の対処方法

Mistral と Microsoft が「小さな言語モデル」の波を起こしました。 Mistralのコーディング能力はGPT-4より優れており、コストは2/3に削減されます

人工知能応用シナリオのレビューと展望

拡散+超解像モデルの強力な組み合わせ、Googleの画像ジェネレーターImagenの背後にある技術

新しい時代を受け入れよう: スマートホームが贅沢な生活を再定義する

検索拡張生成による AI 幻覚問題の解決

「アバター」の脳-脳インターフェースの性能は2～3桁向上した

ディープラーニングによるマラリア検出

Google は、AI 言語モデルの自己修正機能の向上を支援する BIG-Bench Mistake データセットをリリースしました。

推薦する

動的ベンチマークDynabenchがリリースされました。Facebookは人間を使って人工知能を「尋問」したいと考えています

Bengio が参加、LeCun が気に入る: グラフニューラルネットワークの権威あるベンチマークがオープンソースに

人工知能は医療従事者の燃え尽き症候群を軽減すると期待されている

2020年末総括：国際AI技術研究と政府と企業の協力の進捗状況の概要

自分のIQに挑戦してみませんか？ 10 種類の機械学習アルゴリズムを理解してデータサイエンティストになろう

科学者は、掴んだまま物体を回転させることができるユニークなロボットハンドを開発

大規模モデルにより、微調整なしでダイアログ機能が解放され、RLHF は不要になります。第一著者：上海交通大学卒業生：コストと時間を大幅に節約

AIを活用して、ナスダックは金融業界向けのSaaSプロバイダーに変革したいと考えている

AI がデータセンターを持続可能性の原動力に変える方法

人工知能が将来経験する7つの段階

Tensorflow はディープラーニングに基づいて画像補完をどのように実装するのでしょうか?

人気の「GPT-4 MIT学部数学フルスコア」論文が不正、データセット自体に問題あり