100倍速い!ディープラーニングトレーニングツールであるDetermined AIがオープンソースになりました。より速く、よりシンプルに、より強力に

100倍速い!ディープラーニングトレーニングツールであるDetermined AIがオープンソースになりました。より速く、よりシンプルに、より強力に

ディープラーニングの研究者として、私はモデルのトレーニングに深く悩まされています。モデルを何日も何晩も実行し、最終的に1つのステップが間違っていることに気づき、最初からやり直す必要があるのです。

ハイパーパラメータをいくら調整しても、精度が高くない。本当に疲れた…

システム環境を手動で調整します。間違えると動作しなくなります...

多くの場合、モデルをトレーニングするだけでも、膨大な時間と多くの変更、そして長い待ち時間が必要になります。本当に心の中で泣きます!

すると、まだ救われる可能性があることがわかりました。決意を固めた AI がカラフルな雲に乗って私を救出に来たのです!

この問題に悩まされていた多くのディープラーニング研究者は、数年を費やし、ついに膨大な数のディープラーニング実践者にとって便利なトレーニングツールを開発しました。

このディープラーニング トレーニング プラットフォームは、この分野に長年携わってきた専門家によって 3 年かけて構築されました。彼らの目標は、ディープラーニング チームがモデルをより速くトレーニングし、GPU リソースを簡単に共有し、効果的に共同作業できるようにすることです。

Definitely を使用すると、ディープラーニング エンジニアは、DevOps を気にしたり、フォールト トレランスや実験の追跡などの一般的なタスクのコードを記述したりすることなく、大規模なモデルの構築とトレーニングに集中できます。

公式ウェブサイトリンク:

https://determined.ai/developers/

「ちょっと待ってください、ここには何が入っているのですか?詳しく説明してもらえますか?」

わかりました。では、詳しく見て、全部お見せします。

モデルのトレーニングに集中して、より速く、より正確に!

ご存知のとおり、完全なディープラーニング プロジェクトには、データの準備、モデルのトレーニング、モデルの展開が含まれます。

Definitely を使用すると、サンプル コードや DevOps に多くの時間と労力を費やすのではなく、モデル自体のトレーニングに集中できるようになります。

モデルのトレーニング部分では、Determined は次の作業を完了するのに役立ちます。

  • より高速な分散トレーニング
  • インテリジェントなハイパーパラメータ最適化
  • 実験の追跡と視覚化

こうすることで、モデルのトレーニングという目の前のタスクに集中できるようになります。

トレーナーは、ディープラーニング作業用に作成された専用環境にすぐにアクセスし、インストール、ティアダウン、その他の定型コードについて心配することなく、モデルのセットアップに時間を費やすことができます。

これを見ると、開発者は本当に思慮深いと言いたいです。彼らは私たちが何に時間をかけたくないかを正確に知っています。本当に感謝しています*100!

それで、このアーティファクトは私たちに何の役に立つのでしょうか?

  • 実験の追跡、効率的なデータの読み込み、フォールト トレランス、柔軟なカスタマイズをサポートする組み込みのトレーニング ループ抽象化。
  • コードを変更することなく、高性能な分散トレーニングを実現します。
  • 最先端の研究に基づいた自動ハイパーパラメータ最適化。

これらの機能により、モデルのトレーニングが非常に簡単になります。上司はもう私のモデルについて心配する必要はありません!

公式ウェブサイトのリンクをクリックするだけで、以下の機能を体験できます。

次に、モデル トレーニングに密接に関連する 2 つの部分、つまり分散トレーニング速度とインテリジェントなハイパーパラメータ最適化について見てみましょう。

分散トレーニング

Definitely は主に Horovod を使用しています。Horovod を出発点として、研究者は長年の専門知識と経験を活かして、トレーニング プロセス全体をインベントリ構成よりもはるかに高速化しました。

このようにして、無駄な時間を削減し、コンピューターのハードウェアをより有効に活用して、効率的なトレーニング速度を実現できます。

Horovod に関する基本情報は次のとおりです。

Horovod は TensorFlow 用の分散トレーニング フレームワークで、Uber によって構築され、オープンソース化されており、現在は Uber の Michelangelo 機械学習サービス プラットフォーム上で実行されています。 Horovod は、分散型ディープラーニング プロジェクトの立ち上げと実行を簡素化し、加速します。大量のデータや大規模なモデルがある場合、機械学習モデルのトレーニングの効率を向上させるために、一般的にマルチ GPU 分散トレーニングが使用されます。 TensorFlow クラスターには、概念が多すぎる、学習曲線が急峻である、修正コードが大量である、パフォーマンスの損失が大きいなど、多くの欠点があります。Horovod はディープラーニングをさらに向上させます。規模が大きくなるにつれて、Horovod のパフォーマンスは基本的に直線的に増加し、損失は TensorFlow よりもはるかに小さくなります。

Horovod の詳細については、以下のリンクをクリックして学習して理解してください。

「TensorFlow クラスターを諦めて Horovod を採用する時が来た」

https://www.infoq.cn/article/J4ry_9bsfbcNkv6dfuqC

分散モデルは、Determined を使用してどのくらいの速さでトレーニングできますか?下の写真を見ると、24 倍に達することがわかります。 !

PS: 本当にずっと速くなった気がします...

[[324693]]

ハイパーパラメータの最適化

タスクと緊密に統合された最先端のインテリジェント検索機能とデフォルトの並列設定を提供することで、開発者は従来のハイパーパラメータ検索デバッグの煩わしさを回避するのに役立ちました。

このようにして、より高速に、より正確なモデルを取得できます。

Definitely を使用すると、ハイパーパラメータの最適化の速度はどのくらい向上しますか?

100回!これを見て、本当に感動しました...余った時間でどうぶつの森をプレイできますか?とにかく、ACAL2020の準備という正当な理由がありますハハハ〜

GPUスケジューリングはより柔軟になり、さまざまな一般的なフレームワークをサポートします。

また、Determined は、次のような GPU スケジューリングをより柔軟に実行することもできます。

1) トレーニングタスクのサイズを動的に調整する

2) AWSとGCP上のクラウドリソースを自動管理

同時に、TensorBoard や GPU ベースの Jupyter Notebook もサポートできます。 (私の親しい友人もこのプラットフォームで使用できます!!)

「TensorflowとPytorchの両方をサポートできますか?」 - 通行人Aは思わず

ああ、もう 1 つ重要な点があります。このプラットフォームを使用しながら、Tensorflow と Pytorch を引き続き使用できるということです。Determined API を実装するには、モデル コードを変更するだけです。

便利ですよね!

プラットフォームは透明性とオープン性を備え、ユーザーサービスも充実しています。

ディープラーニングチームコラボレーションツール

このプラットフォームは透明性があり、オープンで、チームコラボレーションに便利なので、ディープラーニング チームに最適です。

Definitely は、実験の追跡、ログ管理、メトリクスの視覚化、再現性、依存関係の管理などを通じて、誰もが実験管理を成功させるのに役立ちます。このプラットフォームはあらゆる規模のチームに最適です。

チームで開始し、準備ができたら作業を簡単に共有して拡張できます。

オープンソースであり、さまざまなクラウドプロバイダーで利用可能

開発者向けアドバイス: ディープラーニングの実践者は、独自のソリューションを超えて進むことを選択できます。

「Determined は、クラウド プラットフォーム、オンプレミス インフラストラクチャ、またはその両方で動作します。このプラットフォームは、選択したディープラーニング フレームワークで動作し、一般的なサービス フレームワークに簡単にエクスポートできます。」

このプラットフォームを使用すると、非常に簡単な手順でプロジェクトをオープンソース化し、他のパートナーに利益をもたらすことができます。

詳細なユーザードキュメント

現在、Determined には正式なユーザー マニュアルが用意されており、ユーザーはいつでも参照することができます。

https://docs.determined.ai/latest/

シンプルで使いやすいチュートリアルもあります:

最後に、開発者は、誰でも Definitely 開発チームとコミュニケーションを取り、フィードバックやコミュニケーションを提供できるように、Slack リンクも添付しました。

プロジェクトのオープンソース アドレスは次のとおりです。興味のあるパートナーは GitHub にアクセスしてすぐに体験できます。

https://github.com/determined-ai/determined

<<:  張漢松: 大ヒットARゲームのルールを解説

>>:  「Nvidia人工呼吸器」オープンソース:コンピュータアーキテクチャのマスターによって構築され、コストが98%削減され、黄仁訓が賞賛

ブログ    
ブログ    
ブログ    

推薦する

人工知能は大学のキャンパスにどのような変化をもたらしたのでしょうか?

[[279290]] [51CTO.com クイック翻訳] 大学はどのようにして、個人の教育キャリ...

コアアルゴリズムの欠如により、人工知能の開発は「ボトルネック」のジレンマに直面している。

[[264142]] 「中国で人工知能の基本アルゴリズムの研究に携わっている数学者は何人いるのか?...

人工知能による雇用促進

近年、人工知能は急速に発展し、新たな科学技術革命と産業変革を主導する中核的な原動力となり、人類の生産...

...

人工知能によるサイバーセキュリティ防御の強化

人工知能は貴重で脆弱なデータを保護する上で大きな可能性を秘めていますが、セキュリティ チームがそれを...

AIは科学者のツールになり得るか? Nature がトップクラスの学者 5 人にインタビュー: コードの書き方を学び、期待を下げよう

[[430245]]人工知能(AI)は、専用の研究分野から他の分野のツールへと徐々に移行しており、学...

AI脳を搭載したドローン:群衆の中の暴力的な人々を正確に識別できる

[[233174]]もしある日私を殴りたくなったら、ただ殴って終わりにできると思いますか?今はそんな...

機械学習を利用するハッカーを心配していますか?データを盗む7つの新しい方法を知る

機械学習は、大規模なデータセットを分析してパターンを識別する能力があることで知られています。基本的に...

複合 AI: エンタープライズ AI の成功の鍵

最近、Dynatrace は、AI への投資が増加し続けるにつれて、「複合 AI」が企業による AI...

マスク氏がテスラFSD V12の試乗を生放送!世界初のエンドツーエンドAI自動運転、10,000台のH100でトレーニング

現地時間8月26日、マスク氏は自らオンラインにアクセスし、FSD Beta V12の試乗ライブ放送を...

人工知能を初めて適用するときに尋ねるべき5つの質問

企業が社内でソリューションを構築する必要は必ずしもありませんが、これが失敗の一般的な原因となります。...

Visual Mamba が登場: 2.8 倍高速、メモリが 87% 削減

「万能トランスフォーマー」として知られるマンバは、発売から2か月も経たないうちに高性能ビジュアルバー...

アルゴリズムの時間計算量分析: Big O 表記

[[354643]]開発の際、アルゴリズムの品質をどのように評価し、アルゴリズムの効率をどのように説...