ジェフ・ディーン氏は自身の研究に対する批判に答える。「我々は新しいSOTAを取得しようとしているわけではなく、コスト計算は間違っている」

ジェフ・ディーン氏は自身の研究に対する批判に答える。「我々は新しいSOTAを取得しようとしているわけではなく、コスト計算は間違っている」

昨日、コミュニティ全体で最もホットな話題となったのは、reddit の機械学習研究者が、Google AI の責任者であるジェフ・ディーンの論文への関与を疑問視したことでした。論文「大規模マルチタスク学習システムにおけるタスクの動的導入への進化的アプローチ」は、木曜日にプレプリントプラットフォームarXivに提出された。

この論文では、ジェフ・ディーンらが、新しいタスクの動的かつ継続的な追加をサポートしながら、大規模なマルチタスクモデルを生成できる進化的アルゴリズムを提案しました。生成されたマルチタスクモデルは、スパースにアクティブ化され、タスクベースのルーティングを統合します。この新しい方法は、69 の画像分類タスクで競争力のある結果を達成し、たとえば、公開データのみでトレーニングされたモデルで CIFAR-10 の認識精度 99.43% という業界トップクラスの新しい認識精度を達成しました。

以前の SOTA は 99.40 であったため、CIFAR-10 で達成されたこの新しい SOTA が疑問視されています。彼女は、「この結果を出すのに合計 17,810 TPU コア時間かかりました。つまり、Google で働いていない場合は、1 時間あたり 3.22 ドルのオンデマンド料金を支払う必要があり、トレーニング済みモデルのコストは 57,348 ドルになります」と述べました。

そこで彼女は、魂を見つめる質問をしました。「ジェフ・ディーンは、CIFAR-10 を 0.03% 改善し、新しい SOTA を作成するために、4 人家族を 5 年間養えるほどのお金を費やしました。それだけの価値はあったのでしょうか?」

この質問は多くの分野の人々から共感を得ました。研究者の中には、「ディープラーニングへの興味はほとんど失せてしまった。小規模な研究室の実践者として、コンピューティング予算の面でテクノロジー大手と競争するのは基本的に不可能だ。たとえ優れた理論的なアイデアを持っていたとしても、主流の環境では偏りがあり、日の目を見るのが難しいかもしれない。これにより、不公平な競争環境が生まれてしまう」と悲観的な見方を示す者もいた。

話題がさらに広がる中、ジェフ・ディーンがRedditで個人的に反応した。同氏は「我々の研究の目的は、より高品質のcifar10モデルを得ることではなく、元の投稿者のコスト計算方法にも問題がある」と述べた。

ジェフ・ディーンの完全な回答

この論文は、Andrea Gesmundo と私によって完成されました。Andrea Gesmundo がほとんどの作業を行いました。

論文アドレス: https://arxiv.org/pdf/2205.12755.pdf

私が言いたいのは、この研究の目的は高品質の cifar10 モデルを取得することではないということです。代わりに、この研究では、実行中のシステムに新しいタスクを動的に導入し、既存のモデルからの表現を再利用し、新しいパラメータをまばらに導入する新しいタスクの高品質モデルを正常に取得し、同時に、壊滅的な忘却や負の転移などのマルチタスク システムの問題を回避できる設定を調査します。

私たちの実験では、いくつかの独立した視覚化タスク ベンチマークから 69 の異なるタスク ストリームを動的に導入でき、最終的にはこれらすべてのタスクに対して高品質のソリューションを共同で生成できるマルチタスク システムが実現できることが示されています。結果として得られるモデルは、特定のタスクに対してまばらにアクティブ化され、システムは新しいタスクに対してますます少ない新しいパラメータを導入します (下の図 2 を参照)。マルチタスク システムでは、このタスク ストリームの最後に増分タスクに対して 1.4% の新しいパラメーターのみが導入され、各タスクはモデル パラメーターの合計の平均 2.3% をアクティブ化します。タスク間でかなりの表現の共有が行われており、進化プロセスは、いつそれが意味をなすか、新しいタスクにいつ新しいトレーニング可能なパラメータを導入する必要があるかを判断するのに役立ちます。

また、元の投稿者のコスト計算は間違っていると思います。この実験は、cifar10 モデルをトレーニングするのではなく、69 のタスクを共同で解決するマルチタスク モデルをトレーニングすることです。下の表 7 に示すように、使用される計算は TPUv3 コアと TPUv4 コアの組み合わせであり、価格が異なるため、単純にコア時間を計算することはできません。

実際、特に緊急のタスクがあり、cifar10+68 タスクを迅速にトレーニングする必要がある場合を除き、この種の研究では、プリエンプティブ価格のリソース、つまり TPUv4 では 0.97 ドル/時間、TPUv3 では 0.60 ドル/時間 (オンデマンドで 3.22 ドル/時間を支払う必要があるとされている金額ではありません) を簡単に使用できます。これらの前提に基づくと、表 7 で説明した計算のパブリック クラウド コストは約 13,960 ドル (プリエンプティブ価格で 12,861 TPUv4 チップ時間と 2,474.5 TPUv3 チップ時間を使用)、つまりタスクあたり約 202 ドルになります。

疎なアクティベーションを持つモデルを持つことは重要であり、表現を共有し(適切な場合)、壊滅的な忘却を回避できる既存のシステムに新しいタスクを動的に導入できることは、少なくとも検討する価値があると思います。このシステムには、新しいタスクを特別に作成する必要がなく、自動的にシステムに組み込むことができるという利点もあります (これは進化的検索プロセスで行われることです)。これは、継続的学習システムの便利な特性であると思われます。

この論文のコードはオープンソースなので、自分で確認することができます。

コードアドレス: https://github.com/google-research/google-research/tree/master/muNet

元の投稿者はJeff Deanに返信しました

Jeff Dean の返信を見た後、元の投稿者は次のようにコメントしました: 明確に言うと、Jeff Dean のこの論文 (各タスクでモデル拡張を生成するための進化パターン) は本当に興味深いと思います。別の論文を思い出させますが、タイトルは思い出せません。この論文は、新しいタスクごとにアーキテクチャ全体に新しいモジュールを追加し、他のモジュールの隠れ状態を各レイヤーの入力の一部として使用しますが、既存のコンポーネントの重みは更新しません。

また、各タスクごとにモデル内にモジュールを構築するというアイデアもありました。子鹿は生まれて数分以内に歩き始めることができることをご存知ですか?対照的に、その時点では、生まれたばかりの子鹿には、動きを知覚したり世界をモデル化したりすることを学ぶための「トレーニング データ」が本質的になく、代わりに、子鹿に基本的なスキルを与えるために受け継がれなければならない脳内の特殊な構造を利用しなければなりません。これらの構造は、新しいが関連する制御タスクにすぐに一般化されるという意味で、非常に役立ちます。

そこで、この論文を読んで、新しいタスクをより効果的に学習するために使用できる既存の継承可能な構造の開発について考えるようになりました。

別の研究室の研究者も同じ考えを持っているかもしれませんが、既存の設定から大規模なクラウド プラットフォームに移行する余裕がないため、はるかに悪い結果になる可能性があります。また、コミュニティが現在 SOTA の結果に重点を置きすぎているため、彼らの研究は公開できません。コストはタスクあたり「たった」202 ドルでしたが、適切な結果を得るには複数回の反復が必要でした。

したがって、大規模なコンピューティング予算を利用できない人にとって、選択肢は基本的に 2 つに限られます。 1 つは、Google が既存のモデルを公開配布してくれることを祈り、それを自分のニーズに合わせて微調整することです。しかし、その結果、モデルは排除できない偏見や敵対的な弱点を学習してしまう可能性があります。 2つ目は何もせずにただ横になることです。

ですから、私の問題はこの研究だけにあるのではありません。 OpenAI が GPT-4 に 1 兆ドル (比喩的に言えば) を費やしたいのであれば、それはそれで結構です。人々が実際の仕事をより良くこなせるように支援するよりも、派手さ、大きな数字、贅沢さを過度に評価する科学・出版文化です。私のお気に入りの論文は、van der Oord (2019) による「Representation Learning with Contrastive Predictive Coding」です。この論文では、教師なしの事前トレーニング タスクを使用し、その後、ラベル付けされた小さなサブセットで教師ありトレーニングを行って、すべてのラベル付けされたデータの精度結果を再現し、データ効率の観点からこの改善について説明しています。私はこれらの結果を自分の仕事に再現して使用し、時間と費用を節約しました。この論文だけに基づいて、私は彼の博士課程の学生になりたいと思っています。

しかし、OpenAIは論文「Language Models are Few-Shot Learners」でより大規模なトランスフォーマーモデルGPT-3を提案し、約4000件の引用とNeurIPS 2020 Best Paper Awardを獲得し、メディア全体から注目を集めました。​

<<:  10年後には自動運転車が普及するでしょうか?

>>:  クロスモーダルメタトランスファーに基づく、Meituと大連理工大学の参照ビデオオブジェクトセグメンテーション方法は、1つのステージのみを必要とする。

ブログ    
ブログ    

推薦する

チューリング賞受賞者ヨシュア・ベンジオ氏:生成フローネットワークがディープラーニングの分野を拡大

最近、「GFlowNet Foundations」と題された論文が注目を集めています。これはチューリ...

50枚の写真が「毒された」安定した拡散、車と牛の区別がつかない

AI侵害に対するアーティストの反撃がここに——絵画に「毒」を入れると、AIが「毒化」されて使用時に誤...

AIが初めて新型コロナウイルスの警告を発するのか?人工知能はあなたが思っている以上に信頼できるものです!

2019年12月30日に武漢で新型肺炎が発生してから1か月以上が経ちました。マスクの値上げや品切れ...

バイリアン・スマートが2021 NIDIアジェンダ中国新小売・デジタルイノベーションサミットに出席

6月22日、2021NIDIアジェンダ中国新小売・デジタルイノベーションサミットが上海で盛大に開催さ...

GCN グラフ畳み込みネットワークの紹介

この記事では、GCN と呼ばれるよく知られたグラフ ニューラル ネットワークについて詳しく説明します...

マジック: メモリプーリングと分散 AI クラスターの最適化

[[429309]]分散機械学習が登場した理由は非常に単純です。一方では、トレーニングに利用できるデ...

需要が高まる最高AI責任者

出版社ファウンドリーの新しい調査によると、企業は生産性とイノベーションを高めるために人工知能に注目し...

人工知能が自立して考えることができるようになると、機械生命体になるのでしょうか?必ずしも

人類が人工知能の時代に突入したことは否定できません。人工知能技術が急速に発展するにつれ、私たちの周り...

...

ポストパンデミックの時代に、伝統的なオフィスビルは時代遅れになるのでしょうか?

新型コロナウイルスの世界的大流行が続く中、従業員にリモートワークを奨励する企業が増えています。従来の...

人工知能は気候変動に対する新時代の解決策である

人類が地球環境において行った行為を元に戻すために、人工知能が私たちの手助けをしてくれるでしょう。気候...

ガートナー: 2020 年の人工知能の成熟度曲線、どのテクノロジーが価値があるか

1. ガートナー: 2018 年から 2020 年までの AI 成熟度曲線の概要最近、世界的に有名な...

数十人の国内NLP専門家が協力し、事前学習済みモデルの過去、現在、未来を検討した。

[[422361]] BERT や GPT などの大規模な事前トレーニング済みモデル (PTM) ...

NLP の学習を始める準備ができました。体系的に読むべき本やコースは何ですか?

私は、機械学習コミュニティで手動の特徴エンジニアリングが非常に人気があった 2013 年から自然言語...

...