3行のコードで損失なく40%高速化、You YangチームのAIトレーニングアクセラレータがICLR口頭発表論文に選出

3行のコードで損失なく40%高速化、You YangチームのAIトレーニングアクセラレータがICLR口頭発表論文に選出

プルーニングを使用すると、AI トレーニングを高速化し、ロスレス操作を実現できます。わずか 3 行のコードで実行できます。

今年のトップクラスのディープラーニングカンファレンス ICLR で、シンガポール国立大学の You Yang 教授のチームの成果が口頭発表されました。

このテクノロジーを使用することで、損失なくトレーニング コストを最大 40% 節約できます。

この成果は InfoBatch と呼ばれ、サンプルをプルーニングする加速方式を引き続き使用します。

しかし、InfoBatch は、プルーニングの内容を動的に調整することで、加速によって生じるトレーニング損失の問題を解決します。

プラグアンドプレイで、アーキテクチャに制限されません。CNN ネットワークと Transformer モデルの両方を最適化できます。

現在、このアルゴリズムは多くのクラウドコンピューティング企業の注目を集めています。

では、InfoBatch はどのような加速効果を実現できるのでしょうか?

ロスレスによりトレーニングコストが40%削減

研究チームが複数のデータセットに対して実施した実験。これらすべてが InfoBatch の有効性を検証しました。

これらの実験では、画像の分類、セグメンテーション、生成などのタスクや、言語モデルの命令の微調整などがカバーされます。

画像分類タスクでは、研究チームは CIFAR10 および CIFAR100 データセットを使用して ResNet-18 をトレーニングしました。

結果は、剪定率が 30%、50%、70% の場合、InfoBatch の精度がランダム剪定やその他のベースライン方法の精度を上回り、剪定率が 30% の場合、精度が低下しないことを示しています。

剪定率が 30% から 70% に増加すると、InfoBatch の精度損失も他の方法に比べて大幅に低くなります。

ImageNet-1K データセットでトレーニングされた ResNet-50 を、プルーニング率 40%、エポック 90 で使用すると、InfoBatch は UCB と同じトレーニング時間を実現しながら、より高い精度を実現し、完全なデータ トレーニングを上回ることさえあります。

同時に、ImageNet の追加 (OverHead) 時間コストは他の方法に比べて大幅に低く、わずか 0.0028 時間、つまり 10 秒です。

Vit-Base モデルをトレーニングする場合(事前トレーニング フェーズで 300 エポック、微調整フェーズで 100 エポック) 、InfoBatch は24.8% のコスト削減率で、完全なトレーニングと同じ精度を維持できます。

クロスアーキテクチャテストの比較結果からも、InfoBatch はさまざまなモデルアーキテクチャに対して強力な堅牢性を発揮することが示されています。

さらに、InfoBatch は既存のオプティマイザーと互換性があり、さまざまなオプティマイザーと併用した場合に優れたロスレスの加速効果を発揮します。

これらの視覚タスクだけでなく、InfoBatch は言語モデルの教師あり微調整にも適用できます。

常識 (MMLU)、推論 (BBH、DROP) などの能力に大きな損失がなく、プログラミング能力 (HumanEval) がわずかに向上するだけで、InfoBatch は DQ に基づいて時間消費をさらに 20% 削減できます。

さらに、作者の最新のアップデートによると、InfoBatch は検出タスク (YOLOv8) で 30% のロスレス高速化も達成しており、コードは github で更新される予定です。

では、InfoBatch はどのようにしてロスレス加速を実現するのでしょうか?

剪定内容を動的に調整する

核となる秘密は、偏りのない動的なデータプルーニングです。

従来のプルーニング方法における勾配期待方向の偏差と総更新量の削減の問題を解決するために、InfoBatch は動的プルーニング方法を採用しています。

InfoBatch の順方向伝播中、各サンプルのスコア (損失) は維持され、平均をしきい値として、スコアの低いサンプルの一定割合がランダムに削除されます

同時に、予想される勾配更新を維持するために、残りの低スコアのサンプルの勾配がそれに応じて増幅されます

このようにして、InfoBatch トレーニング結果と元のデータのトレーニング結果間のパフォーマンス ギャップが、以前の方法と比較して改善されます。

具体的には、トレーニングのフォワードプロセス中に、InfoBatch はサンプルの損失値をサンプルスコアとして記録するため、基本的に追加のスコアリングオーバーヘッドは発生しません。

最初のエポックでは、InfoBatch はデフォルトですべてのサンプルを初期化して保持します。その後の各エポックの開始前に、InfoBatch はプルーニング確率 r に従って、平均よりも低いスコアを持つサンプルをランダムにプルーニングします。

確率の具体的な表現は次のようになります。

スコアが平均より低いがトレーニングを続行するために保持されるサンプルの場合、InfoBatch は再スケーリング メソッドを使用して対応する勾配を 1/(1-r) に増やし、全体的な更新をほぼ偏りのないものにしています。

さらに、InfoBatch は、トレーニングの後半の段階で完全なデータセットを使用して、段階的なプルーニング プロセスを使用します。

その理由は、理論上の期待更新は基本的に同じであるものの、上記の期待値には実際には時刻 t における複数の値が含まれているためです。

つまり、サンプルが途中の特定のラウンドで削減された場合、後でトレーニングされる可能性はまだありますが、残りの更新ラウンドが不十分な場合、この確率は大幅に低下し、残差勾配期待偏差が発生します。

したがって、最後の数回のトレーニング ラウンド (通常は約 12.5% ~ 17.5%) では、InfoBatch は完全な元のデータをトレーニングに使用します。

論文アドレス: https://arxiv.org/abs/2303.04947
GitHub ホームページ:
https://github.com/NUS-HPC-AI-Lab/InfoBatch

<<: 

>>:  Googleが新しい検索方法を正式に発表:円を描く

ブログ    
ブログ    
ブログ    

推薦する

役に立つ知識の無用性:AI技術は現代の錬金術か?

[[431348]]人工知能は新時代の錬金術となるのか?著名なAI研究者のアリ・ラヒミ氏らによると...

...

Google の最新のオープンソース Gemma モデルが Llma-2 を数秒で上回りました。

ジェマとはジェマ軽量で最先端のオープンモデルシリーズで、 ジェミニ同じ研究と技術をモデル化します。 ...

柯潔はなぜ「負けてカッとなった」と言ったのか!人間対機械の第一ラウンドを説明する8つの質問

4時間以上の対局の末、柯潔はAlphaGoに0.25ポイント差で負けた。対局後、アルファ碁の指導に参...

人工知能と教育や指導が出会うと、どんな火花が散るでしょうか?

人工知能は世界第4次産業革命であり、工業、医療などの分野での応用が拡大しています。オンライン教育の普...

美団総合ビジネス推奨システムの品質モデルと実践

著者: Yong Hao Gen Gen、Wang Xin など1 はじめに美団の総合店内事業(以下...

小売業における AI の ROI をマクロとミクロのレベルで測定

[[259079]] AI の応用により予測コストが大幅に削減され、企業はますます新しい、予想外の方...

電子商取引で人工知能を効果的に活用する10の方法

[[388530]] [51CTO.com クイック翻訳] 「人工知能」は今日では人気の用語となり、...

建設ロボット代替の流れが到来。高齢化した移民労働者はどこへ行くのか?

長年にわたり、数億人の出稼ぎ労働者が経済建設と社会発展に積極的に参加し、中国の近代化推進に多大な貢献...

人工知能の現状と今後の発展はどのようなものでしょうか?

まず、人工知能の現在の開発状況を理解しましょう。人工知能技術は現在、急速な発展期にあります。雨後の筍...

...

他の人たちが赤い封筒を掴んでいる間、プログラマーたちは赤い封筒のアルゴリズムを研究している

羊年春節期間中のWeChat紅包の人気は明らかで、広告主は現金紅包に5億円を投入し、CCTVの羊年春...

人工知能の新時代が近づいています。従来の産業の従事者はどこへ向かうのでしょうか?

世間の好むと好まざるとにかかわらず、人工知能の新しい時代が静かに到来した。しかし、人工知能が本格的に...

中国がAI技術の輸出を制限! TikTokアルゴリズムの名前が挙がり、売却または制限される

[[339978]]米国のTikTok狩りは続く。 8月27日、ByteDanceがTikTokの北...

専門家の洞察: ディープラーニングとその可能性

[[419428]] 「ディープラーニング」は最近、物理セキュリティ業界で人気の高い専門用語の 1 ...