2010年以降、MLコンピューティングパワーの需要は100億ドル増加し、6か月で2倍になり、ディープラーニングは画期的な分野となった。

2010年以降、MLコンピューティングパワーの需要は100億ドル増加し、6か月で2倍になり、ディープラーニングは画期的な分野となった。

計算能力、データ、アルゴリズムは、現代の機械学習 (ML) の進歩を導く 3 つの基本的な要素です。

近年の人工知能技術の発展は、ビッグデータやアルゴリズムに依存するだけでなく、コンピューティング能力の継続的な強化の結果でもあります。 2012年から2018年にかけて、大規模モデルのトレーニングに使用される計算能力は30万倍に増加し、約3か月半ごとに2倍になったことが分かっています。

人工ニューラル ネットワークは 1980 年代に提案されましたが、計算能力の限界により衰退期を迎えました。しかし、技術の発展によりこの制限は打ち破られ、GPU、CPU、AIアクセラレーションチップが次々と発売されています。

ディープラーニングの出現により、コンピューティング能力に対する需要は飛躍的に増加しました。 2018年、Bertが突如登場しました。Google、Microsoft、NVIDIAなどの大手企業は、AIを次の戦場と見なし、独自の大規模モデルを発表しました。たとえば、Googleは最初の兆レベルモデルであるSwitch Transformerをリリースし、NVIDIAとMicrosoftは5,300億のパラメータを持つMT-NLGを共同でリリースしました...

大きなモデルには大きな計算能力が伴いますが、ディープラーニングの時代以降、ML 計算能力の需要はどれほど増加したのでしょうか。将来、モデルが拡大するにつれて、計算能力は追いつくことができるでしょうか?

最近、アバディーン大学、MIT、その他の機関の研究者が、ML の 3 つの要素の計算能力要件を研究しました。 2010 年以前は、トレーニングに必要な計算能力はムーアの法則に沿って増加し、約 20 か月ごとに 2 倍になっていたことが分かりました。 2010 年代初頭のディープラーニングの登場以来、トレーニングに必要な計算能力は急速に増加し、約 6 か月ごとに 2 倍になっています。 2015 年後半には、大規模な ML モデルが登場し、トレーニングの計算能力に対する需要が 10 ~ 100 倍に増加するという新たなトレンドが生まれました。

  • 論文アドレス: https://arxiv.org/pdf/2202.05924.pdf
  • GitHub アドレス: https://github.com/ML-Progress/Compute-Trends

上記の調査結果に基づいて、研究者らは ML に必要な計算能力の歴史を、ディープラーニング以前の時代、ディープラーニングの時代、大規模化の時代の 3 つの段階に分類しました。全体として、この論文は、マイルストーン ML モデルの計算要件を時間の経過とともに詳細に調査したものです。

この論文の貢献は次のとおりです。

  • 123 の画期的な ML システム データセットを収集し、その計算能力に注釈を付けました。
  • ハッシュ レートの傾向は、最初は 3 つの異なる段階に分けられます。
  • 計算能力の結果が検討され、以前の研究との違いが議論されます。

論文の著者の一人であるレナート・ハイム氏は、次のように述べています。「過去12年間(2010~2022年)で、MLトレーニングの計算能力は100億倍に増加しました。」

過去の作品

コンピューティング能力に関する研究はこれまでにも行われてきました。2018 年に、Amodei 氏と Hernandez 氏はコンピューティング能力を評価する 2 つの方法を発表しました。彼らは 15 の ML システムに基づいて必要なコンピューティング能力の傾向を分析しました。 2012年から2018年にかけて、MLトレーニングに必要な計算能力は3.4か月ごとに倍増していることが分かりました。

2019年、サストリーらは上記の分析を補足するために2012年以前の論文10件を追加しました。研究の結果、訓練に必要な計算能力は1959年から2012年までの約2年間で2倍になったことが判明した。

2021年、リゾフ氏はアモデイ氏とヘルナンデス氏のデータセットを拡張し、コンピューティング能力の成長は2018年以降停滞していると主張した。特に、著者らは、2020 年の最も計算集約的なモデル (GPT-3) では、2017 年の最も計算集約的なモデル (AlphaGo Zero) の 1.5 倍の計算しか必要としないことを発見しました。

次の図は上記の研究を非常によくまとめています。2012年から2018年まで、計算能力が2倍になるまでに約3.4か月かかりました(AmodeiとHernandezの研究)。1959年から2018年まで、計算能力が2倍になるまでに約2年かかりました(Sastryらの研究)。2018年から2020年まで、計算能力が2倍になるまでに2年以上かかりました(Lyzhovの研究)。

同様の研究で、Sevilla et al. (2021) は、訓練可能なパラメータの数の傾向を調査しました。 2000年から2021年にかけて、すべての応用分野でパラメータ倍増時間は18~24か月であったことが判明しました。言語モデルについては、2016年から2018年の間に不連続性が見られ、パラメータの倍増時間が4~8か月に加速した。

さらに、2021年にDesislavovらは、コンピュータービジョンと自然言語処理システムに必要な推論計算能力を研究しました。しかし、この研究のデータセットは以前の研究よりも包括的であり、以前のデータの3倍のMLモデルが含まれており、2022年の最新データも含まれています。

トレンドの解釈

研究者たちは、収集したデータを3つの異なる時代と3つの異なる傾向に従って解釈した。簡単に言えば、ディープラーニングが普及する前には、成長が緩やかな時代がありました。この傾向は 2010 年頃から加速し、それ以降も衰えていません。さらに、2015 年から 2016 年にかけて、大規模モデルでは同様の成長率でありながら、以前の成長率を 2 桁上回る新しい傾向 (OOM) が現れました。詳細については、図 1 と表 2 を参照してください。

図 1: 1952 年以降のマイルストーン ML システムのトレーニング計算能力 (FLOP) の推移。

表 2: 各段階における傾向。

研究者らは、まず2010~2012年頃のディープラーニングへの移行について議論し、その後2015~2016年頃の大規模モデルの出現について議論した。彼らは、他の観点から結論を確認するためにいくつかの代替分析を実行しました。

さらに、研究者らは付録 B で記録破りのパターンの傾向について、付録 C でさまざまな ML 分野の傾向について説明しています。

ディープラーニングへの移行

Amodei & Hernandez (2018) の結果と一致して、研究者はディープラーニングの出現前と出現後に 2 つの異なるトレンド メカニズムを発見しました。ディープラーニングが登場する前は、ML システムをトレーニングするために必要な計算能力は 17 ~ 29 か月ごとに 2 倍になっていました。ディープラーニングの登場後、全体的な傾向は加速し、コンピューティング能力は 4 ~ 9 か月ごとに 2 倍になりました。ディープラーニングのこれまでの傾向は、集積回路に集積できるトランジスタの数が約 18 ~ 24 か月ごとに倍増し、多くの場合は 2 年ごとに倍増するというムーアの法則とほぼ一致しています。

ディープラーニングの時代がいつ始まったのかは明らかではなく、ディープラーニング以前からディープラーニングの時代への移行に明らかな断絶はありません。

さらに、ディープラーニング時代の始まりを2010年または2012年と設定した場合、以下の表3に示すように、研究者の結果はほとんど変わりません。

図 2: 1952 年から 2022 年までのマイルストーン ML システムのコンピューティング能力の傾向。特に 2010 年頃の傾きの変化に注目してください。

表3: 1952年から2022年までのMLモデルの対数線形回帰結果。

マススケール時代のトレンド

データによれば、図 3 に示すように、2015 年から 2016 年頃に大規模モデルに新たな傾向が現れました。この傾向は、2015 年後半の AlphaGo の登場から始まり、今日まで続いています。一方、これらの大規模なモデルは、これまでの傾向を打ち破り、かつてないほどのトレーニング予算を持つテクノロジー大手によってトレーニングされています。

どのシステムがこの新しい大規模なトレンドに属するかについては直感的に判断し、それらを近隣のシステムと比較して特定の Z 値のしきい値を超えるモデルとして正当化したことに注意してください。方法の詳細は付録 A に記載されています。付録 F では、大規模モデルがどのように大きく異なるかについて説明します。

図 3: 2010 年から 2022 年までのマイルストーン ML システムのコンピューティング能力の傾向。

しかし、従来のスケールモデルのトレンドは影響を受けません。 2016 年以前と以後の傾向は同じ傾きの変化で継続しており、5 ~ 6 か月ごとに 2 倍になっています。大規模モデルの計算能力ははるかにゆっくりと増加しており、9 ~ 10 か月ごとに 2 倍になっています。研究者らは、これらのモデルに関するデータは限られているため、見かけ上の減速はノイズの影響である可能性があると述べた。

研究者らの研究結果は、2012年から2018年の間にコンピューティング能力が3.4か月という短い期間で2倍になったことを発見したアモデイ&ヘルナンデス(2018年)の研究結果とは対照的である。この結果は、2018年から2020年にかけてコンピューティング能力が2倍になるまでに2年以上かかったことを発見したLyzhov (2021)の結果とも異なります。研究者たちは、他の研究者の分析では限られたデータサンプルを使用し、単一の傾向を仮定していたのに対し、大規模モデルと通常規模モデルを別々に研究していたため、こうした矛盾が生じていることを理解している。

さらに、大規模な傾向はごく最近になって現れたため、これまでの分析では 2 つの異なる傾向を区別することができませんでした。

2010~2022年のデータの対数線形回帰の結果。 2015年以前の従来サイズのモデルの傾向はその後も同じままでした。

<<:  アンドロイドが電気羊に乗れるようになりました!世界初の四足ロボット羊:妹は座ると少し震える

>>:  効率的な整数計画法ソリューション、Kuaishouは多変量因果森林モデルを提案し、インテリジェントなマーケティング効果が顕著です

ブログ    
ブログ    

推薦する

...

AIは賢くなり、これらの新しい技術は流行の防止と生産の再開に役立つだろう

新型コロナウイルス肺炎の流行状況の変化に伴い、企業や機関の業務と生産の再開が現在の仕事の新たな焦点と...

トレンドマイクロ:2030年までにサイバーセキュリティ分野で人工知能が人間に取って代わる

テキサス州ダラスに本拠を置くクラウドセキュリティ企業トレンドマイクロの新しい調査によると、IT業界の...

人工知能と自然言語処理技術

人工知能技術の発展に伴い、コンピューターを使って外国の文書を翻訳するなど、私たちの生活の多くのアプリ...

Gpts ストアの立ち上げが遅れています。適切な Gpts アプリケーションはどこで見つかりますか?

12月2日、OpenAIのChatGPTチームはGPT開発者に手紙を送り、「GPTストア」が202...

Google Brainは、T5の最大7倍の事前トレーニング速度を備えた簡素化されたスパースアーキテクチャを提案しています。

先ほど、Google Brainのシニア研究科学者であるBarret Zoph氏が、言語モデルのパラ...

ロボット工学と自動化の台頭:スマートホームセキュリティの変革

スマートホーム セキュリティに関しては、テクノロジーは最先端技術を駆使し、住宅の保護方法に革命をもた...

工場に産業用 IoT テクノロジーを導入する 5 つの理由

モノのインターネット(IoT)はどこにでもあります。実際、ここ数年、スマート製造、サプライ チェーン...

...

他の人たちが赤い封筒を掴んでいる間、プログラマーたちは赤い封筒のアルゴリズムを研究している

羊年春節期間中のWeChat紅包の人気は明らかで、広告主は現金紅包に5億円を投入し、CCTVの羊年春...

PyTorch と TensorFlow の最新バージョンを比較すると、2021 年にはどちらを選択しますか?

ディープラーニングが再び認知されて以来、多くの機械学習フレームワークが登場し、研究者や業界の専門家の...

両者は負荷分散アルゴリズムを要約する

さまざまな負荷分散アルゴリズムが存在します。これらを研究する際には、まずこれらの方法の概念を理解する...

...

大学生が、1時間で600本の鉄筋を結束できる鉄筋結束ロボットを発明。建設労働者は再び失業することになるのだろうか?

人工知能の発展により、肉体労働のみに頼っている労働者の中には、徐々に失業に直面している者もいる。例え...