MITはディープラーニングが計算限界に近づいていると警告。ネットユーザー：減速は良いことだ

MIT の調査によると、ディープラーニングは計算能力の限界に近づいているようです。

[[334431]]

ディープラーニングには大量のデータと計算能力が必要であり、これら2つの開発は人工知能の波を推進する上で重要な要素です。しかし、最近の MIT の調査では、ディープラーニングが計算能力の限界に近づいていることが示唆されています。

MIT、MIT-IBMワトソンAIラボ、延世大学アンダーウッド国際学校、ブラジリア大学の研究者らが実施した調査では、ディープラーニングの進歩はコンピューティング能力の向上に「大きく依存している」ことが判明した。彼らは、ディープラーニングが今後も進歩し続けるためには、既存の技術の変更やまったく新しいアプローチから生まれる、より計算効率の高いディープラーニングモデルが必要であると考えています。

論文リンク: https://arxiv.org/pdf/2007.05558.pdf

研究の著者らは次のように述べている。「ディープラーニングの計算コストが高いのは偶然ではなく、設計上仕方のないことだということが分かりました。ディープラーニングがさまざまな現象をうまくモデル化し、専門家のモデルを上回ることを可能にする柔軟性には、高い計算コストも伴います。それにもかかわらず、ディープラーニングモデルの実際の計算負荷は理論上の限界よりも急速に増大することが分かりました。つまり、大幅な改善が可能であるということです。」

ディープラーニングは機械学習のサブフィールドであり、そのアルゴリズムは脳の構造と機能にヒントを得ています。これらのアルゴリズム (通常は人工ニューラルネットワークと呼ばれます) は、関数 (ニューロン) と、他のニューロンに信号を渡すレイヤーで構成されています。信号はネットワークの入力データの産物であり、層間を流れてネットワークをゆっくりと「調整」し、各接続のシナプス強度（重み）を調整します。ニューラルネットワークは、最終的に、データセットから特徴を抽出し、サンプル全体の傾向を識別することで予測を行うことを学習します。

研究者らは、arXivなどの情報源から1,058件の論文を分析し、特に画像分類、物体検出、質問回答、固有表現認識、機械翻訳の分野におけるディープラーニングのパフォーマンスと計算の関係を理解しようとした。

彼らは、コンピューティング能力の要件について 2 つの分析を実行しました。

ネットワークパスごとに必要な計算量、または 1 回のパスに必要な浮動小数点演算の数。

ここでは、モデルのトレーニングに使用されるハードウェア負荷、つまりハードウェアの計算能力は、プロセッサの数に計算速度と時間を掛けて計算されます。

研究の著者らは、ほぼ同じ計算能力で、英語からドイツ語への機械翻訳タスクを除くすべてのベンチマークで「統計的に非常に有意な」曲線と「強力な説明力」が示されたと述べた。

特に、物体検出、固有表現認識、機械翻訳では、ハードウェア負荷が大幅に増加しましたが、出力結果の改善は比較的小さく、コンピューティング能力は ImageNet ベンチマークデータセットにおけるモデルの画像分類精度の 43% に貢献しました。

研究者らは、3年間のアルゴリズムの改良により、計算能力が10倍に増加すると見積もっている。「私たちの研究結果は、ディープラーニングの複数の分野におけるモデルのトレーニングの進歩は、使用される計算能力の大幅な増加に依存していることを示唆しています。もう 1 つの可能性は、アルゴリズムの改善自体に追加の計算能力が必要であるということです。」

研究中、研究者らはモデルがさまざまな理論的ベンチマークで記録を破るのに必要な計算能力、経済的コスト、環境コストも推定した。

最も楽観的な見積もりによると、ImageNet 画像分類エラーを削減するには、計算能力を 10 ⁵倍に増やす必要があります。

昨年6月、Syncedが発表したレポートでは、ワシントン大学のGroverフェイクニュース検出モデルを2週間トレーニングするのに2万5000ドルの費用がかかったと推定されている。最近リリースされた OpenAI GPT-3 モデルのトレーニングコストは 1,200 万ドルに高騰し、Google BERT のトレーニングコストは約 6,912 ドルでした。

昨年6月、マサチューセッツ大学アマースト校の研究者らは、特定のモデルのトレーニングと検索に必要な計算能力によって、626,000ポンドの二酸化炭素が排出されることを発見した。これは、米国の自動車の平均生涯排出量の約5倍に相当する。

「これらの目標を達成するための計算要件を予測することはできません…ハードウェア、環境、金銭のコストは法外なものになるでしょう。これらの目標をより経済的に達成するには、より効率的なハードウェアとアルゴリズム、またはその他の改善が必要になります。」

研究者らは、アルゴリズムレベルでのディープラーニングの改善には前例があると指摘している。たとえば、Google TPU、FPGA、ASIC などのハードウェアアクセラレータの登場や、ネットワーク圧縮およびアクセラレーション技術による計算の複雑さの軽減などが挙げられます。

研究者らはまた、ニューラルアーキテクチャ検索とメタ学習についても言及した。これらは、最適化を使用して、計算効率の高い方法を実現するために、特定の種類の問題を解決するのに適したアーキテクチャを見つけるものである。

OpenAIの調査によると、2012年以降、ImageNet画像分類タスクで同じパフォーマンスを達成するためにAIモデルをトレーニングするために必要な計算能力は、16か月ごとに半分に削減されているという。さらに、Google Transformer アーキテクチャは、3 年後に導入され、計算能力が 1/64 しか使用しない以前の SOTA モデルである seq2seq (これも Google が開発) を上回っています。

「ディープラーニングモデルに必要な計算能力の爆発的な増加により、AIの冬は終わりを告げ、より幅広いタスクにおける計算パフォーマンスの新たなベンチマークが確立されました」と研究者らは論文の最後に記している。「しかし、ディープラーニングの膨大な計算需要は、特にハードウェアのパフォーマンスが低下している時代に、現在の形ではパフォーマンスを向上させる道筋を制限しています。」

そのため、研究者たちは、計算能力の限界により、機械学習はディープラーニングよりも計算効率の高い新しい技術に頼らざるを得なくなる可能性があると考えています。

Redditのホットな話題

この話題とそれに関連する論文は、reddit などのソーシャルネットワーキングサイトで白熱した議論を巻き起こしました。支持者もいますが、疑問視する声も多くあります。

一部のネットユーザーは、ディープラーニングアルゴリズムの複雑さに関する議論は今のところ主流になっていないが、すぐにホットな話題になるだろうと述べた。投稿者もこの意見に同意し、過去数年間の計算能力の大幅な向上により、機械学習の分野で多くの進歩が遂げられたと信じていました。それでも、持続可能性とアルゴリズムの効率性にすぐに注目が集まるかもしれません。

同時に、より多くのネットユーザーが研究の詳細について議論した。

次のネットユーザーは、この論文の「ハードウェア性能の向上が鈍化している」という記述に疑問を呈した。「これは本当にそうなのだろうか？特にUSD/TFLOPSとWatts/TFLOPSの観点からは。」

投稿者はネットユーザーの質問にも答え、これが著者の主張のようだと述べた。論文の著者らは、「ディープラーニングモデルに必要な計算能力の爆発的な増加により、AIの冬は終わりを告げ、より幅広いタスクにおける計算パフォーマンスの新たなベンチマークが確立された」とも書いている。しかし残念なことに、論文の著者らはこれらの記述の根拠となる参考文献を一切示していない。

ネットユーザーの中には、「これはますます重要な議論のテーマではあるが、この研究から『新しい』知見は得られない。実際、2012年以降、10～30年続いた古い手法が、主にコンピューティング能力のおかげで今でも機能していることは分かっている」と率直に言う者もいる。

彼の見解では、多くのディープラーニング手法が直面している計算上の限界は明らかです。おそらく、GPT-3 の計算を 100 倍に増やすと、GPT-4 が得られると考えられます。現在、多くの科学研究機関は、さまざまな客観的な要因により、より大きな計算能力を獲得できないという、別の大きな制限に直面しています。

最後に、一部のネットユーザーは、機械学習の分野で「減速」することは、理論的根拠の観点から見ても、社会的影響の観点から見ても良いことだと考えています。

<<: あなたの脳と音楽ストリーミングは直接つながっているのでしょうか?ニューラリンクの脳コンピューターインターフェースが来月発売予定

>>: AI セキュリティの大手企業は 2020 年にどのような行動を取るのでしょうか?