OpenAI は機械学習をサポートするために k8s を 7,500 ノードに拡張

OpenAI は機械学習をサポートするために k8s を 7,500 ノードに拡張

GPT-3、CLIP、DALL+などの大規模モデルのニーズや、ニューラル言語モデルに似たスケーリング法則に関する小規模で迅速な反復研究のニーズを満たすために、OpenAIはインフラストラクチャk8sクラスターを7,500ノードに拡張しました。

説明によると、大規模な機械学習ジョブの場合、ノードは通常 1 つのポッドによって占有され、OpenAI によって展開されたクラスターは二分帯域幅を備えているため、ノード数が多くてもスケジューラへの負荷は比較的低く、新しいタスクが一度に数百のポッドを作成する場合にのみスケジューリング負荷が発生します。

さらに、OpenAIは、エイリアスベースのIPアドレスへの切り替えによる多数のノードのネットワーク問題の解決、負荷を分散するために専用ノードにetcdとAPIサーバーを展開すること、PrometheusとGrafanaを使用して指標を収集する際にOOM問題を特定すること、クラスターのヘルスチェックを設計すること、チーム間でクラスターリソースを合理的に割り当てることなど、k8sクラスターの拡張における重要な作業についても詳しく説明しました。

しかし、OpenAIは、大規模環境でのPrometheusの内蔵TSDBストレージエンジンの圧縮速度が遅く、WAL(書き込み事前記録)の再起動に時間がかかる、クラスターを拡張すると各ポッドに一定量の帯域幅が必要であると計算されるためネットワーク帯域幅の圧迫が生じるなど、k8sクラスターの拡張時に解決すべき問題がまだいくつかあるとも指摘している。ただし、まだ改善の余地は大きいものの、k8s は優れたスケーラビリティにより研究ニーズを満たすことができます。

この記事はOSCHINAから転載したものです

この記事のタイトル: OpenAI が機械学習をサポートするために k8s を 7500 ノードに拡張

この記事のアドレス: https://www.oschina.net/news/127949/openai-scale-k8s-7500

<<:  AIと機械学習でデータセンターを強化

>>:  人工知能がデジタル変革の課題に対処できる 5 つの分野

ブログ    

推薦する

オブジェクトストレージがAIの最大の課題を克服するのに理想的な理由

2020 年のコロナウイルスのパンデミックは、データの迅速な分析と解釈の重要性、そして情報に基づいた...

...

...

NYU のポスドクが、arXiv に 30 分遅れて論文を提出したというだけで ACL に拒否されたのですか?学者たちは憤慨し、ACLに二度と投票しないと誓う

ACL は国民を怒らせた!今朝、この投稿のせいで AI コミュニティ全体が騒然となった——ニューヨー...

...

...

OpenAIの初の開発者会議が事前に「公開」され、新しいChatGPTプロトタイプGizmoが公開された

今年9月、OpenAIは初の開発者会議「OpenAI DevDay」を正式に発表した。その時、Ope...

2020年、全国の産業用ロボット出荷台数は前年比19.1%増加した。

工業情報化部が発表したデータによると、2020年1月から12月まで、全国の産業用ロボットの生産台数は...

ハンズフリーロボットがゴミ分別の問題解決に役立つ

地球は私たちの共通の家であり、地球環境を保護するために私たちは協力しなければなりません。したがって、...

AI 対応スマート ビルディングの利点は何ですか?

世界が人工知能(AI)を採用し続けるにつれて、AIを使用したスマートビルディングの人気が高まっていま...

「ハードコア」AIが私たちの家庭に導入されるまでにはどれくらいの時間がかかるのでしょうか? 最先端技術には依然としてブレークスルーが必要

お腹が空いたら、キッチンロボットがミシュランレストランの基準に匹敵するステーキを調理します。運転した...

オープンソース | AREX: Ctrip の次世代自動回帰テスト ツールの設計と実装

著者についてCtrip の R&D エネルギー効率マネージャー兼 SRE である Haibi...

ナレッジグラフとディープラーニングが「出会う」とき

著者: Xiao Yanghua、復旦大学コンピュータ科学技術学院准教授、博士課程指導教員、上海イン...

ディープラーニングアルゴリズム

ディープラーニングアルゴリズムは、マシンビジョンにおける巧妙な受信機コンバーターのようなものです。柔...