「Singularity」AIコンピューティングプラットフォームの詳細を公開！それは4年前のマイクロソフトの古いプロジェクトの復活であることが判明した

AI サービスプラットフォームのコストと効率の問題は、大手サービスプロバイダーが解決と改善に懸命に取り組んでいる難しい問題です。

具体的には、顧客のニーズを満たしながらシステム全体のリソースの消費を最小限に抑え、ディープラーニングのワークロードの利用率を高めることでコストを削減する方法についてです。

最近、Microsoft Azure 研究チームは協力して、コード名「Singularity」の新しい AI インフラストラクチャサービスを構築しました。研究者の言葉を借りれば、これは「マイクロソフトの内外で AI の主要な推進力となる、まったく新しい AI プラットフォームサービス」です。

Singularity サービスは、データサイエンティストや AI 実践者に、AI 専用に構築された Microsoft の分散インフラストラクチャサービス上でモデルを構築、拡張、実験、反復する方法を提供するように設計されています。

論文の宛先:

出典：http://arxiv.org/pdf/2202.07848.pdf

Singularity サービスを説明する論文の中で、研究者らは次のように述べています。

「Singularity の中核となるのは、ディープラーニングのワークロードを透過的にプリエンプトし、弾力的にスケーリングする、新しいワークロード対応スケジューラです。これにより、正確性やパフォーマンスを損なうことなく、世界中の AI アクセラレータ (GPU、FPGA など) の利用率が向上します。」

Singularity サービスを使用すると、アクティブなワークロードを動的かつ透過的に占有して、異なるノード、クラスター、データセンター、またはリージョンのセットに移行し、正確に実行できることが報告されています。また、特定のタイプのアクセラレータの異なるセットでサイズを変更することもできます (つまり、エラスティックスケーリング)。

Singularity プラットフォームアーキテクチャ図

ユーザーはコードを変更する必要はなく、柔軟性を制限する可能性のあるカスタムライブラリを使用する必要もありません。 Microsoft によれば、このアプローチによりディープラーニングワークロードの信頼性が大幅に向上するという。

この論文の著者には、Azure CTO の Mark Russinovich、2019 年に Azure に移って AI とディープラーニングに取り組むまで Azure Cosmos DB に携わっていたパートナーアーキテクトの Rimma Nehme、技術研究者の Dharma Shukla などが含まれています。

現在使用されている弾性負荷分散メカニズムと比較して、Singularity スケジューラは、各ワーカーを物理 GPU に 1 対 1 でマッピングしたり、多対 1 のマッピングを使用して物理 GPU を仮想化し、ワールドサイズを変更せずに複数のワーカー間でタイムスライスしたりできます。

対照的に、現在の弾性メカニズムスケジューラは、ワールドサイズを 4 分の 1 に縮小して最後のチェックポイントから作業を再開するため、リソースが無駄になります (たとえば、最後のチェックポイント以降の初期化と反復をやり直す必要があります)。

テスト結果は、さまざまなモデルでベースラインレベル (B) と比較して Singularity サービス (DP) を使用することで得られるパフォーマンスの向上を示しています。

透過的な弾性負荷スケジューリングのパフォーマンスに関しては、Singularity は平均 7% の優位性を達成しました。

研究者らは、Singularity はディープラーニングのワークロードのスケジューリングにおいて大きな進歩を遂げ、弾力性などのニッチな機能を主流の機能に変え、これに基づいてディープラーニングのワークロードのスケジューリングを実現したと述べました。

Singularity により、これまでにないレベルのワークロードの互換性が実現します。ワークロードは、グローバルに分散されたフリートのどこにあってもアイドル状態のリソースを活用できます。

Singularity はシンプルなユーザーエクスペリエンスを提供します。ユーザーはチェックポイントや弾性負荷の問題を心配することなく、機械学習タスク自体に集中するだけで済みます。これらのインフラストラクチャの最適化は、ユーザーに対して完全に透過的です。

4年前の古いプロジェクトが「生まれ変わる」？

ZD Net は、Singularity が Microsoft が以前に開始した Brainwave プロジェクトの商業化の次の段階になる可能性があると報じました。

マイクロソフトは以前、FPGA（フィールドプログラマブルゲートアレイ）を顧客へのサービスとして提供する計画について説明していた。

2018年、マイクロソフトはAzureで高速なAI処理とコンピューティング機能を提供することを目的とした「Brainwave」プロジェクトを発表しました。

当時、マイクロソフトは、AI ワークロード向けに顧客に提供する FPGA 処理プラットフォームである Brainwave を搭載した、クラウド上の Azure Machine Learning ハードウェアアクセラレーションモデルのプレビューを提供していました。

Brainwave は、高性能分散システムアーキテクチャ、カスタマイズ可能なチップ (FPGA) 上で実行されるハードウェアディープニューラルネットワークエンジン、およびトレーニング済みモデルを展開するためのコンパイラで構成されています。

実際、マイクロソフトが自社のプラットフォーム上で「Singularity」という言葉を使用したのは今回が初めてではない。 Microsoft は以前、完全にマネージドコードで開発されたマイクロカーネルオペレーティングシステムと、関連するツールおよびリソースライブラリのセットの名前として Singularity を使用していました。

Singularity は最終的に、Barrelfish、Helios、Midori、Drawbridge など、Microsoft の他のいくつかのクラウドプラットフォームおよびオペレーティングシステムプロジェクトを生み出したり、影響を与えたりしました。

AIコンピューティングプラットフォーム、大手メーカーが競争してレイアウト

マイクロソフトが人工知能のための高性能コンピューティングおよび高速コンピューティングプラットフォームの構築をかなり前から計画し始めていることは注目に値します。

2019年、マイクロソフトはOpenAIに10億ドルを投資し、1年後にはOpenAIと提携して特にOpenAIのために、公開記録で5番目に強力なスーパーコンピューターを構築したと発表しました。

MicrosoftがOpenAIと共同で構築したAIスーパーコンピューターはOpenAI専用のものですが、Microsoftは以前から、Azure AIサービスやGitHubを通じて、より多くのユーザーに大規模なAIモデルやトレーニング最適化ツールを提供していく予定だと述べてきました。

Microsoft は、専用のスーパーコンピューターを必要としない顧客向けに、Azure AI 傘下でさまざまな高速コンピューティングサービスも提供しています。

2021 年 11 月、Microsoft は Azure で 80GB の NVIDIA A100 GPU を使用して AI スーパーコンピューターのラインナップを拡大すると発表しました。

AI スーパーコンピューティング機能を社内および顧客向けに提供しようとしているテクノロジー企業は Microsoft だけではありません。 Meta も同じことを行っており、予期せぬことが起こらない限り、Meta はこの作業をメタバースを解き放つ鍵と位置付けています。

<<: 意思決定権を機械に委任することは可能でしょうか?

>>: ニューラルネットワークが大きいほど良いのはなぜですか? NeurIPSの論文が証明：堅牢性は一般化の基礎である

AIシステムが初めて真の自律プログラミングを実現：遺伝的アルゴリズムを使用して初心者プログラマーを上回る

「Singularity」AIコンピューティングプラットフォームの詳細を公開！それは4年前のマイクロソフトの古いプロジェクトの復活であることが判明した

4年前の古いプロジェクトが「生まれ変わる」？

AIコンピューティングプラットフォーム、大手メーカーが競争してレイアウト

AIシステムが初めて真の自律プログラミングを実現：遺伝的アルゴリズムを使用して初心者プログラマーを上回る

[NCTSサミットレビュー] Ali Yuyao: 画像インテリジェンスアルゴリズムに基づいてクライアント上のH5ページテストの効率を向上させる軽量ソリューション

人工知能におけるGNNとは何ですか?

人間や魚を認識するAIは人魚も認識できるのか？ Alibaba CVPR 論文における因果推論法の回答

ニューロンクラスタリングはAIの学習戦略をシミュレートできる

人工知能を使って手作業を置き換え、コストを削減し、効率を高めることは、まさに賢いことだ

アリババAIは1日1兆回以上呼び出され、中国を代表する人工知能企業に

人工知能が人間に取って代わり、多くの人が失業することになるのでしょうか？

PyTorch と TensorFlow の最新バージョンを比較すると、2021 年にはどちらを選択しますか?

5Gが普及しつつある中、人工知能は「取り残される」ことになるのか？

推薦する

IoTセキュリティ戦略における機械学習の重要性

スタンフォード大学の最新LLMランキングが発表されました！自社のアルパカが最下位、中国チームのウィザードLMオープンソースが1位、GPT-4とクロードが1位と2位となった。

顔認識ブームを冷静に考える：倫理的・道徳的問題は熟考する価値がある

SQL SERVER データマイニング: クラスタリングアルゴリズムとシーケンシャルクラスタリングアルゴリズムの理解

AIが人事と採用を変える3つの方法

分析: 人工知能について私が心配しているのはなぜでしょうか?

セキュリティ企業：ホワイトハットの60％以上が生成AIに興味を持っており、脆弱性を見つける最大の動機は金儲けである

SKU多次元属性状態判定アルゴリズム

LLaVA: GPT-4V(ision) のオープンソース代替品

確かな情報です!機械学習で知っておくべき 5 つの回帰アルゴリズム!

大規模なモデルを効率的に展開するにはどうすればよいでしょうか? CMU の最新の LLM 推論と MLSys 最適化テクノロジーに関する 10,000 語のレビュー

マイクロソフト、AIを活用してがんの放射線治療時間を短縮：スキャン速度が2.5倍に向上、精度は90％に