「宝くじ仮説」の著者による新しいPyTorchライブラリは人気があり、モデルのトレーニングが2〜4倍高速化されます。

「宝くじ仮説」の著者による新しいPyTorchライブラリは人気があり、モデルのトレーニングが2〜4倍高速化されます。

さまざまなタスクに人工知能を導入する企業が増えるにつれ、AI モデルのトレーニングはコストがかかり、難しく、時間がかかることがすぐにわかりました。

MosaicML という企業は、こうした新たな課題に対処するための新しい方法を見つけることを目指しています。最近、MosaicML は、モデルのトレーニングを高速化し、コストを削減し、よりパフォーマンスの高いモデルを取得することを目指して、効率的なニューラル ネットワーク トレーニング用の PyTorch ライブラリ「Composer」をリリースしました。

Composer は PyTorch で記述されたオープンソース ライブラリであり、より優れたアルゴリズムを統合して、ディープラーニング モデルのトレーニングを高速化し、コストの削減と精度の向上を実現することを目的としています。現在、このプロジェクトは GitHub プラットフォームで 800 を超えるスターを獲得しています。

プロジェクトアドレス: https://github.com/mosaicml/composer

Composer には、ユーザーが独自のトレーニング ループに統合できる機能インターフェイス (torch.nn. functional に類似) があり、効率的なトレーニング アルゴリズムをトレーニング ループにシームレスに統合できる Trainer も含まれています。

プロジェクトでは 20 を超える加速方法が導入されており、数行のコードでユーザーのトレーニングに適用したり、組み込みの Trainer で使用したりできます。

一般的に、Composer にはいくつかのハイライトがあります。

  • コンピューター ビジョンと言語モデリングのネットワークのトレーニングを高速化する 20 以上の方法。 Composer が作業を行ってくれるので、研究論文を再現しようと時間を無駄にする必要はありません。
  • パフォーマンスを最大化し、効率的なトレーニングのためのベスト プラクティスを統合するように作成された、使いやすいトレーナーです。
  • すべての加速方法は関数形式で利用できるため、ユーザーは既存のトレーニング ループに統合できます。
  • できるだけ早く開始できるようにするための、堅牢で再現可能なベースライン。

では、Composer を使用することでどのようなトレーニング効果の向上が図れるのでしょうか?


複数のモデル ファミリのトレーニングにかかる​​時間とコストが削減されます。

プロジェクト情報によると、Composer トレーニングを使用すると、次のことが可能になります。

  • ResNet-101 は、ImageNet で 1 時間 30 分で 78.1% の精度に到達します (AWS では 49 ドル)。これは、ベースラインよりも 3.5 倍高速で、71% 安価です。
  • ResNet-50 は、ImageNet で 1 時間 14 分 (AWS で 40 ドル) で 76.51% の精度を達成しました。これは、ベースラインよりも 2.9 倍高速で、65% 安価です。
  • OpenWebText で 4 時間 27 分で GPT-2 のパープレキシティが 24.11 に改善されました (AWS では 145 ドル)。これはベースラインよりも 1.7 倍高速で、43% 安価です。

Reddit コミュニティでは、プロジェクト作成者の Jonathan Frankle 氏が発言し、Composer は宝くじ仮説に関する彼の研究の直接的な継続であると述べました。



2019 年、Frankle 氏と Carbin 氏の「宝くじ仮説: スパースで訓練可能なニューラル ネットワークの発見」が ICLR 2019 で最優秀論文賞を受賞しました。この論文では、Frankle らは、標準的な剪定手法によって、初期化後に効率的にトレーニングできるサブネットワークが自然に発見されることを発見しました。これらの結果に基づいて、2 人は「宝くじ仮説」を提唱しました。これは、高密度でランダムに初期化されたフィードフォワード ネットワークにはサブネットワーク (「当選券」) が含まれており、これを個別にトレーニングすると、同様の反復回数で元のネットワークに匹敵するテスト精度を達成できるというものです。

現在、フランクル氏は Mosaic 社の主任科学者であり、Composer の開発の原動力となっています。

今回、フランクル氏は、ディープラーニングの背後にある「数学」には神聖なものは何もないと述べた。 「数学」を根本的に変更してもまったく問題ありません(たとえば、重みを大幅に削除するなど)。本来得られるネットワークとは異なるネットワークが得られますが、元のネットワークが「正しい」ネットワークであるわけではありません。 「計算」を変更することで、ネットワークが同様に良くなり(たとえば、同じ精度)、さらに高速化されるなら、それは成功です。

ディープラーニングの背後にある「数学」を分析したい場合は、宝くじ仮説が一例です。 Composer には、これを行うための多数のテクニックがあり、それに応じた高速化も実現されています。

同時に、プロジェクトの著者らは Composer と PyTorch Lightning も比較しました。「PyTorch Lightning は、異なる API を持つ異なるトレーニング ライブラリです。実際、私たちは最初の Composer 実装を PTL 上に構築しました。」


PyTorch Lightningの作者であるウィリアム・ファルコン氏もその後の議論に登場したが、両者は合意に達しなかったようだ。

現在、Composer のトレーナーは、Resnet-50、Resnet-101、UNet、GPT-2 のアクセラレーションを含む多くのモデルに適用できます。



作者は、今後はViT、BERT、セグメンテーション、ターゲット検出など、より多くのモデルに拡張される予定だと述べています。

<<:  機械学習の再考: 人工知能はどのようにして「記憶を失う」ことを学ぶのか?

>>:  自動運転はどこへ行ってしまったのか?

ブログ    
ブログ    
ブログ    

推薦する

1,000元の予算で半日のトレーニングを実施し、その効果は主流の大型モデル、オープンソース、市販の中国製LLaMA-2に匹敵する。

LLaMA-1 と比較して、LLaMA-2 はより高品質のコーパスを導入し、大幅なパフォーマンスの...

DAMOアカデミーAIが中国科学技術博物館に展示され、AIが認識した初のCOVID-19 CTスキャンが科学技術による防疫努力の歴史的証人となる

5月29日、全国科学技術労働者の日が近づく中、アリババDAMOアカデミーのAIによって識別されラベル...

あなたのデータ戦略は GenAI に対応していますか?

AI、特に GenAI の急速な発展により、分析および IT リーダーには、データ戦略とデータ管理...

AIがパートナー探しをお手伝い:Tinder + AI = 仲人?

[[346697]] 2012年、インキュベーター企業のHatch Labsは、IACとXtrem...

...

Javaで機械学習を始める方法

[[201237]] Java で機械学習を始めるのに最適なツールは何ですか?この質問はしばらく前か...

...

データ拡張とは何ですか?

十分なトレーニング データがあれば、機械学習モデルは非常に優れたパフォーマンスを発揮します。残念なが...

...

いくつかの特徴選択方法を比較すると、どれが優れているでしょうか?

[[403820]]この記事はWeChat公式アカウント「DATA STUDIO」から転載したもの...

ターミネータースカイネット?国防総省は、敵の行動を数日前に予測できるAI予測システムGIDEをリリースした

[[415649]]最近、米国防総省は、大量の情報源を分析し、数日後の敵の行動を1分以内に予測し、事...

マスク氏が突然ツイッター買収を希望、上場廃止に2700億ドルで入札。ツイッターとテスラの株価は下落

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

携帯電話なら何でもコピー&ペーストできる。このデザイナーはパートタイムでコードを書き、ARを新たなレベルに引き上げた。

見たものを何でもコピーします。これは魔法ですか、それとも孫悟空の魔力ですか?どちらでもない。これが ...

...

2月10日に職場復帰ラッシュが到来し、北京は「急速AI温度検出器」の配備を開始した。

新型コロナウイルスによる肺炎の流行は依然として続いており、中国のさまざまな省や市では2月10日に大規...