ディープラーニングのトレーニング中に GPU の温度が高すぎますか?すぐにクールダウンするには、以下の数行のコマンドを入力してください

ディープラーニングのトレーニング中に GPU の温度が高すぎますか?すぐにクールダウンするには、以下の数行のコマンドを入力してください

[[197022]]

新しく購入した水冷なしのパブリック版GPUの温度は、フル負荷で稼働すると室温から85度まで急上昇しました。また、モデルのトレーニングは数分で終わるものではなく、長時間高温で稼働する可能性が非常に高いです。こんなに高価なGPUが熱くなり続けるのは本当に残念です!

まず、私は Zhihu の友人の記事「ディープラーニング プラットフォームをゼロから組み立てる (GPU 冷却)」に触発されました。具体的な住所:

http://t.cn/RK9wyBK

この記事は、Ubuntu X サーバー環境で nvidia-settings を変更して GPU ファン速度を変更する方法について説明します。デフォルトの nvidia-settings 設定では、計算中に GPU 温度が 85 度に達してもファン速度は 70% を超えないため、GPU の熱をうまく放散できないため、GPU ファン速度を手動で変更する必要があります。

注: 以下の設定は Linux システムの GPU 設定です。Windows ユーザーは関連記事を検索してください。

1. ディスプレイ(Xサーバー)がある場合

上記の記事「ディープラーニング プラットフォームをゼロから構築する」を完全に実行できます。主な手順は次のとおりです。

1. /etc/X11/xorg.congファイルを変更する

  1. sudo ナノ /etc/X11/xorg.conf

2. 「デバイス」セクションにオプション「Coolbits」「4」を追加します。

  1. セクション「デバイス」  
  2. 識別子「Device0」  
  3. ドライバー「nvidia」  
  4. ベンダー名「NVIDIA」  
  5. オプション「クールビット」   「4」  
  6. 終了セクション

3. コンピュータを再起動します: sudo reboot

4. 入力:

  1. nvidia-settings -a "[gpu:0]/GPUFanControlState=1" -a "[fan:0]/GPUTargetFanSpeed=100"  

ここで GPUTargetFanSpeed=100 はファン速度で、100 はファンが 100% の速度で動作することを意味し、他の速度に変更することもできます。新しい NVIDIA ドライバーでは、GPUCurrentFanSpeed が GPUTargetFanSpeed に変更されていることに注意してください。また、GPUFanControlState=1 は、ユーザーが GPU ファン速度を手動で調整できることを意味します。

オリジナルのZhihuの著者である張三氏に感謝します

2. モニターがない場合

一般的に、Ubuntu でディープラーニング環境を構築した後、多くの人は Ubuntu の X デスクトップ サービスを無効にし、別の Windows コンピューターから ssh 経由で GPU マシンに接続することに慣れています。この時点で、X サーバーは無効になっており、コンピューターの電源を入れるとコマンドライン モードが自動的に起動します。上記の最初の方法はこの状況には適用できません。理由は、nvidia-settings は X デスクトップ環境でのみ実行できるためです。この設定を強制しようとすると、エラーが発生します。

したがって、通常の状況では、この設定を変更してファン速度を変更することはできません。

しかし、それを変更する他の方法はあるのでしょうか?持っている!システムを騙してモニターがあると思わせる必要があります。これはヘッドレス モードと呼ばれることもあります。

主な解決策は、リンクの記事を参照することです (X なしのファン速度: powermizer がカードを p8 に落とす)。

http://t.cn/RK9ASS5

この記事では、ファン速度を変更するためのスクリプトを紹介します。Ubuntu でスクリプトを実行すると、ファン速度をリアルタイムで調整して GPU を冷却できます。

詳細な手順は次のとおりです。

1. この github リポジトリをローカル ディレクトリ /opt にクローンします。

https://github.com/boris-dimitrov/set_gpu_fans_public

cd /opt

git クローン https://github.com/boris-dimitrov/set_gpu_fans_public

このリポジトリには、上記のようにいくつかのファイルが含まれています。主なものは cool_gpu ファイルです。フォルダーをクローンした後、cool_gpu を実行してファン速度を調整できます。

2. フォルダ名を set-gpu-fans に変更します。作者の不注意により、このフォルダは cool_gpu コードでは「set-gpu-fans」という名前になっていますが、git によってクローンされたフォルダ名は「set_gpu_fans_public」です。

sudo mv set_gpu_fans_public を設定する

3. システムにこのコードの場所を知らせるためのシンボリック リンクを作成します。

gpu-fans を /opt/gpu-fans に設定します

4. set-gpu-fans フォルダを見つけて、次のコマンドを入力します。

  1. cd /opt/set-gpu-fans
  2. sudo tcsh
  3. ./cool_gpu >& コントローラ.log &
  4. tail -f コントローラ.log

このコマンドは、cool_gpu 冷却コードを実行します。起動すると、次のようなリアルタイムで変化するプロンプトが表示されます。

計算テストを始める前に、現在の GPU 温度を確認しましょう。

ここでは、2 枚のカードを使用して計算テストを行っています。2 枚のカードの Perf (パフォーマンス) 項目が「P2」に調整されており (他のカードは P8 のまま)、2 枚のカードの温度は 35 度、3 つのファンの速度はすべて 55% であることがわかります。 「P2」は、NVIDIA のグラフィック カードの電源状態を表し、P0 から P12 まで、パフォーマンスが最も高い状態は P0、実行中の計算は P2、消費電力が最も高い (パフォーマンスが最も高い) 状態は P12 です。

モデルのトレーニングを開始すると、プログラムが常に温度を自動的に調整していることがわかります。

トレーニング モデルを一定期間実行した後、最終的な温度ステータスは次のようになります。

ファンはすべて 80% の速度に調整され、温度は 65 度で安定しました。記事の冒頭のデータと比較すると、グラフィック カードの温度は 84 度から 65 度に下がり、なんと 20 度も下がりました。

3. 注目すべき点

上記の記事の後半部分が出る前に、インターネット上で最もオリジナルなバージョンと言える別の記事が出回っていました。上記の後半部分のコードは、記事のオリジナルバージョンに基づいて改良されています。リンクアドレスはこちらです (X サーバーなしでファン速度を設定する):

http://t.cn/RK9yQmf

しかし、この記事の元のコードには重大な問題があります。ファン速度は強制的に変更できますが、GPU はダウングレードされ、電源状態は強制的に P8 に低下し、コンピューティング パフォーマンスが大幅に低下します。

この記事はかなり前に公開されたもので、最新のグラフィック カードやドライバーには適していない可能性があります。そのため、上記の 2 番目の部分には改良版があります。したがって、元のバージョンのコードは使用しないでください。そうしないと、GPU のパフォーマンスが制限されます。

Leifeng.comから転載。この記事の著者はHu Zhihao氏で、元々は著者の個人ブログに掲載されたものです。

<<:  人工知能の導入により AR/VR はどこへ向かうのでしょうか?

>>:  あなたは知っていますか?注文するテイクアウトはすべて、ディープラーニングとの美しい出会いです

ブログ    

推薦する

中科世宇の王金橋氏:5Gは新しい警察アプリケーションを強化し、交通管理の「細かく科学的な」管理を改善します

最近、「つながりとインテリジェンス、より安全な世界の構築」をテーマにした2021年世界セキュリティ博...

PyTorch から Mxnet まで、7 つの主要な Python ディープラーニング フレームワークを比較

[[184728]]最近、Data Science Stack Exchange の「ニューラル ネ...

Paxos と Raft はコンセンサスアルゴリズム/プロトコルではないのですか?

インターネットの一員として、私たちは「分散」の雰囲気に浸ることがよくあります。高可用性、高信頼性、高...

AIをホームセキュリティに活用する方法

人工知能の台頭は、ホームセキュリティを含む多くの業界に大きな影響を与えています。人工知能は、監視カメ...

...

Baidu Apollo がインテリジェント時代のモバイル空間「Apollo II」を正式に開始

2021年8月5日、百度アポロの新世代自動運転ミニバス「アポロII」が広州市黄埔で正式に公開されまし...

...

わずか6秒で、AIはあなたの声を聞くだけであなたの外見を説明できる

信じられますか?人工知能は最近、あなたの声からわずか6秒で性別、年齢、人種を判別し、さらにはあなたの...

Github で最も注目されている機械学習イノベーション プロジェクト 7 つ

最新の機械学習開発と最先端のコードを持つプラットフォームはどれでしょうか? そう、GitHub です...

ビッグデータがなくてもディープラーニングは可能でしょうか?中小企業のトレーニングのための新しいソリューション、大規模モデル

海外メディアの報道によると、AI専門家のアンドリュー・ン氏はIEEEに対し、ディープラーニングの今後...

Huaweiの大型モデルがNature誌に掲載されました!評論家:予測モデルの将来を再検討する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

しゃべるアバター!新しいフレームワークLipSync3Dは将来的に動的なリップシンクを可能にするかもしれない

Google AIの研究者たちは、インド工科大学カラグプル校と協力し、音声コンテンツから話すアバター...

AI聴覚技術は国際紛争に関与したことがあるか?

AI視覚技術がさまざまな業界で応用されるのはもはや目新しいことではなく、現在ではAI聴覚技術も戦場...

...

...