GPT-3、CLIP、DALL+などの大規模モデルのニーズや、ニューラル言語モデルに似たスケーリング法則に関する小規模で迅速な反復研究のニーズを満たすために、OpenAIはインフラストラクチャk8sクラスターを7,500ノードに拡張しました。 説明によると、大規模な機械学習ジョブの場合、ノードは通常 1 つのポッドによって占有され、OpenAI によって展開されたクラスターは二分帯域幅を備えているため、ノード数が多くてもスケジューラへの負荷は比較的低く、新しいタスクが一度に数百のポッドを作成する場合にのみスケジューリング負荷が発生します。 さらに、OpenAIは、エイリアスベースのIPアドレスへの切り替えによる多数のノードのネットワーク問題の解決、負荷を分散するために専用ノードにetcdとAPIサーバーを展開すること、PrometheusとGrafanaを使用して指標を収集する際にOOM問題を特定すること、クラスターのヘルスチェックを設計すること、チーム間でクラスターリソースを合理的に割り当てることなど、k8sクラスターの拡張における重要な作業についても詳しく説明しました。 しかし、OpenAIは、大規模環境でのPrometheusの内蔵TSDBストレージエンジンの圧縮速度が遅く、WAL(書き込み事前記録)の再起動に時間がかかる、クラスターを拡張すると各ポッドに一定量の帯域幅が必要であると計算されるためネットワーク帯域幅の圧迫が生じるなど、k8sクラスターの拡張時に解決すべき問題がまだいくつかあるとも指摘している。ただし、まだ改善の余地は大きいものの、k8s は優れたスケーラビリティにより研究ニーズを満たすことができます。 この記事はOSCHINAから転載したものです この記事のタイトル: OpenAI が機械学習をサポートするために k8s を 7500 ノードに拡張 この記事のアドレス: https://www.oschina.net/news/127949/openai-scale-k8s-7500 |
>>: 人工知能がデジタル変革の課題に対処できる 5 つの分野
人工知能は、脳内の機能的接続のスキャンを分析するだけで、人の政治的イデオロギーを予測することができま...
囲碁界の無敵の「アルファ碁」から、どこにでもある「顔認識」まで、機械学習は人々の生活に驚異的な変化を...
2019年、人間と機械のゲームバトルにおいて、Open AI Fiveが圧倒的なパフォーマンスでD...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
モバイルインターネットやビッグデータなどの新技術の推進により、人工知能は新たな発展ブームを迎え、実際...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ソートとは、もともと無秩序だったシーケンスを、順序のあるシーケンスに並べ替えることを意味します。ソー...
[[189593]] Siri から Google 翻訳まで、ディープ ニューラル ネットワークは...
01 機械学習モデルが説明できない理由数日前、あるピア交換グループで熱く議論されたトピックがありまし...
金融やその他の分野における自動化は避けられません。しかし、金融サービスの自動化は、高いレベルの注意、...
ChatGPT のような強力な生成 AI システムはどのように機能し、他の種類の人工知能とどう違うの...
人間によるフィードバックによる強化学習 (RLHF) は、モデルを人間の意図に合わせるための一般的な...
前面に書かれた視覚言語の事前トレーニングにより、多くの視覚言語タスクのパフォーマンスが向上します。し...