ジェフ・ディーン氏は自身の研究に対する批判に答える。「我々は新しいSOTAを取得しようとしているわけではなく、コスト計算は間違っている」

昨日、コミュニティ全体で最もホットな話題となったのは、reddit の機械学習研究者が、Google AI の責任者であるジェフ・ディーンの論文への関与を疑問視したことでした。論文「大規模マルチタスク学習システムにおけるタスクの動的導入への進化的アプローチ」は、木曜日にプレプリントプラットフォームarXivに提出された。

この論文では、ジェフ・ディーンらが、新しいタスクの動的かつ継続的な追加をサポートしながら、大規模なマルチタスクモデルを生成できる進化的アルゴリズムを提案しました。生成されたマルチタスクモデルは、スパースにアクティブ化され、タスクベースのルーティングを統合します。この新しい方法は、69 の画像分類タスクで競争力のある結果を達成し、たとえば、公開データのみでトレーニングされたモデルで CIFAR-10 の認識精度 99.43% という業界トップクラスの新しい認識精度を達成しました。

以前の SOTA は 99.40 であったため、CIFAR-10 で達成されたこの新しい SOTA が疑問視されています。彼女は、「この結果を出すのに合計 17,810 TPU コア時間かかりました。つまり、Google で働いていない場合は、1 時間あたり 3.22 ドルのオンデマンド料金を支払う必要があり、トレーニング済みモデルのコストは 57,348 ドルになります」と述べました。

そこで彼女は、魂を見つめる質問をしました。「ジェフ・ディーンは、CIFAR-10 を 0.03% 改善し、新しい SOTA を作成するために、4 人家族を 5 年間養えるほどのお金を費やしました。それだけの価値はあったのでしょうか?」

この質問は多くの分野の人々から共感を得ました。研究者の中には、「ディープラーニングへの興味はほとんど失せてしまった。小規模な研究室の実践者として、コンピューティング予算の面でテクノロジー大手と競争するのは基本的に不可能だ。たとえ優れた理論的なアイデアを持っていたとしても、主流の環境では偏りがあり、日の目を見るのが難しいかもしれない。これにより、不公平な競争環境が生まれてしまう」と悲観的な見方を示す者もいた。

話題がさらに広がる中、ジェフ・ディーンがRedditで個人的に反応した。同氏は「我々の研究の目的は、より高品質のcifar10モデルを得ることではなく、元の投稿者のコスト計算方法にも問題がある」と述べた。

ジェフ・ディーンの完全な回答

この論文は、Andrea Gesmundo と私によって完成されました。Andrea Gesmundo がほとんどの作業を行いました。

論文アドレス: https://arxiv.org/pdf/2205.12755.pdf

私が言いたいのは、この研究の目的は高品質の cifar10 モデルを取得することではないということです。代わりに、この研究では、実行中のシステムに新しいタスクを動的に導入し、既存のモデルからの表現を再利用し、新しいパラメータをまばらに導入する新しいタスクの高品質モデルを正常に取得し、同時に、壊滅的な忘却や負の転移などのマルチタスクシステムの問題を回避できる設定を調査します。

私たちの実験では、いくつかの独立した視覚化タスクベンチマークから 69 の異なるタスクストリームを動的に導入でき、最終的にはこれらすべてのタスクに対して高品質のソリューションを共同で生成できるマルチタスクシステムが実現できることが示されています。結果として得られるモデルは、特定のタスクに対してまばらにアクティブ化され、システムは新しいタスクに対してますます少ない新しいパラメータを導入します (下の図 2 を参照)。マルチタスクシステムでは、このタスクストリームの最後に増分タスクに対して 1.4% の新しいパラメーターのみが導入され、各タスクはモデルパラメーターの合計の平均 2.3% をアクティブ化します。タスク間でかなりの表現の共有が行われており、進化プロセスは、いつそれが意味をなすか、新しいタスクにいつ新しいトレーニング可能なパラメータを導入する必要があるかを判断するのに役立ちます。

また、元の投稿者のコスト計算は間違っていると思います。この実験は、cifar10 モデルをトレーニングするのではなく、69 のタスクを共同で解決するマルチタスクモデルをトレーニングすることです。下の表 7 に示すように、使用される計算は TPUv3 コアと TPUv4 コアの組み合わせであり、価格が異なるため、単純にコア時間を計算することはできません。

実際、特に緊急のタスクがあり、cifar10+68 タスクを迅速にトレーニングする必要がある場合を除き、この種の研究では、プリエンプティブ価格のリソース、つまり TPUv4 では 0.97 ドル/時間、TPUv3 では 0.60 ドル/時間 (オンデマンドで 3.22 ドル/時間を支払う必要があるとされている金額ではありません) を簡単に使用できます。これらの前提に基づくと、表 7 で説明した計算のパブリッククラウドコストは約 13,960 ドル (プリエンプティブ価格で 12,861 TPUv4 チップ時間と 2,474.5 TPUv3 チップ時間を使用)、つまりタスクあたり約 202 ドルになります。

疎なアクティベーションを持つモデルを持つことは重要であり、表現を共有し（適切な場合）、壊滅的な忘却を回避できる既存のシステムに新しいタスクを動的に導入できることは、少なくとも検討する価値があると思います。このシステムには、新しいタスクを特別に作成する必要がなく、自動的にシステムに組み込むことができるという利点もあります (これは進化的検索プロセスで行われることです)。これは、継続的学習システムの便利な特性であると思われます。

この論文のコードはオープンソースなので、自分で確認することができます。

コードアドレス: https://github.com/google-research/google-research/tree/master/muNet

元の投稿者はJeff Deanに返信しました

Jeff Dean の返信を見た後、元の投稿者は次のようにコメントしました: 明確に言うと、Jeff Dean のこの論文 (各タスクでモデル拡張を生成するための進化パターン) は本当に興味深いと思います。別の論文を思い出させますが、タイトルは思い出せません。この論文は、新しいタスクごとにアーキテクチャ全体に新しいモジュールを追加し、他のモジュールの隠れ状態を各レイヤーの入力の一部として使用しますが、既存のコンポーネントの重みは更新しません。

また、各タスクごとにモデル内にモジュールを構築するというアイデアもありました。子鹿は生まれて数分以内に歩き始めることができることをご存知ですか?対照的に、その時点では、生まれたばかりの子鹿には、動きを知覚したり世界をモデル化したりすることを学ぶための「トレーニングデータ」が本質的になく、代わりに、子鹿に基本的なスキルを与えるために受け継がれなければならない脳内の特殊な構造を利用しなければなりません。これらの構造は、新しいが関連する制御タスクにすぐに一般化されるという意味で、非常に役立ちます。

そこで、この論文を読んで、新しいタスクをより効果的に学習するために使用できる既存の継承可能な構造の開発について考えるようになりました。

別の研究室の研究者も同じ考えを持っているかもしれませんが、既存の設定から大規模なクラウドプラットフォームに移行する余裕がないため、はるかに悪い結果になる可能性があります。また、コミュニティが現在 SOTA の結果に重点を置きすぎているため、彼らの研究は公開できません。コストはタスクあたり「たった」202 ドルでしたが、適切な結果を得るには複数回の反復が必要でした。

したがって、大規模なコンピューティング予算を利用できない人にとって、選択肢は基本的に 2 つに限られます。 1 つは、Google が既存のモデルを公開配布してくれることを祈り、それを自分のニーズに合わせて微調整することです。しかし、その結果、モデルは排除できない偏見や敵対的な弱点を学習してしまう可能性があります。 2つ目は何もせずにただ横になることです。

ですから、私の問題はこの研究だけにあるのではありません。 OpenAI が GPT-4 に 1 兆ドル (比喩的に言えば) を費やしたいのであれば、それはそれで結構です。人々が実際の仕事をより良くこなせるように支援するよりも、派手さ、大きな数字、贅沢さを過度に評価する科学・出版文化です。私のお気に入りの論文は、van der Oord (2019) による「Representation Learning with Contrastive Predictive Coding」です。この論文では、教師なしの事前トレーニングタスクを使用し、その後、ラベル付けされた小さなサブセットで教師ありトレーニングを行って、すべてのラベル付けされたデータの精度結果を再現し、データ効率の観点からこの改善について説明しています。私はこれらの結果を自分の仕事に再現して使用し、時間と費用を節約しました。この論文だけに基づいて、私は彼の博士課程の学生になりたいと思っています。

しかし、OpenAIは論文「Language Models are Few-Shot Learners」でより大規模なトランスフォーマーモデルGPT-3を提案し、約4000件の引用とNeurIPS 2020 Best Paper Awardを獲得し、メディア全体から注目を集めました。

<<: 10年後には自動運転車が普及するでしょうか？

>>: クロスモーダルメタトランスファーに基づく、Meituと大連理工大学の参照ビデオオブジェクトセグメンテーション方法は、1つのステージのみを必要とする。