この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 Nvidia の最新世代 1080 グラフィック カードを使用して、複雑なアートワークを 20 分で生成できますか? ニューラル ネットワークを始めるのが今やそれほど手頃になったのでしょうか? そうです、これはneural-style-ptと呼ばれるスタイル転送モデルで、Pytorch に基づいて実装され、オープンソース化されました。 このアルゴリズム モデルに関するトピックは、わずか 1 日前に Reddit に投稿され、約 2,000 回の閲覧を集めました。 Neural-style-pt は本当にクールで親しみやすいですか? 豊富な統合方法neural-style-pt は、論文「A Neural Algorithm of Artistic Style」の Pytorch 実装です。 この論文では、畳み込みニューラル ネットワークを使用して 1 つの画像のコンテンツと別の画像のスタイルを組み合わせるアルゴリズム、つまりよく知られている「スタイル転送」ネットワークを紹介しています。 たとえば、「Starry Night」のアート スタイルをスタンフォード大学のキャンパスの夜景にマッピングします。 または、特定の画像のさまざまな芸術的スタイルに基づいて、それらをターゲット画像に結合します。 「個別の」融合に加えて、複数のアート スタイルを 1 つの画像に統合することもできます。 左上から時計回りに、「星空」+「叫び」、「叫び」+「コンポジション セブン(ワシリー カンディンスキーの油絵)」、「座るヌード(モディリアーニの油絵)」+「コンポジション セブン」、「座るヌード」+「星空」のスタイルです。 スタイル転送を実行するときに、「-original_colors 1」コマンドを追加して、元の色を変更せずにスタイルのみを変更します。 1080 カードで実行できますか?バックエンドとオプティマイザーに応じて、アルゴリズムの実行速度は大きく異なります。 Tesla K80 で 512 ピクセルの画像を使用して 500 回の反復を行った場合の時間参照:
GTX 1080 では、同じベンチマーク時間はさらに速くなります。
1080 グラフィック カードの現在の販売価格を考慮すると、このしきい値は機械学習にとってすでに非常に魅力的であると言わざるを得ません。 デフォルトでは、neural-style-pt は畳み込みにバックエンドを使用し、最適化に L-BFGS を使用します。ただし、メモリを大量に消費します。以下の方法でメモリ使用量を削減できます。 cuDNN を使用するには、-backend cudnn を追加して cuDNN バックエンドを使用します。 ADAM を使用する場合は、L-BFGS の代わりに ADAM を使用するために -optimizer adam を追加します。 デフォルト設定では、neural-style-pt はシステム上で約 3.7 GB の GPU メモリを使用しますが、ADAM と cuDNN に切り替えると、GPU メモリのフットプリントが約 1 GB に削減されます。 始め方neural-style-pt をインストールするには、まず Pytorch を準備する必要があります。 次に、次のコマンドを使用してトレーニング済みのモデルをインストールできます。
インストール後、開始して試してみるのは非常に簡単です。1 行のコードで実現できます。
複数のスタイルを読み込む場合は、異なる画像ファイル名を区切る必要があります。
画像名には完全な URL パスを含める必要があることに注意してください。 これらが基本的な操作です。 neural-style-pt のもう 1 つの強力な機能は、複数の異なるコンピューティング デバイスを使用して高解像度の画像を処理できることです。 デバイスによって、ネットワーク レイヤーごとに計算結果が出力されます。 -gpuディレクティブを使用して、どの GPU および CPU デバイスを使用するかを制御し、-multidevice_strategy を使用して、デバイス間でレイヤーを分割する方法を制御できます。 たとえば、4 つの GPU を備えたサーバーでは、コマンド「-gpu 0,1,2,3」は、GPU 0、1、2、3 の順に処理することを意味します。 -multidevice_strategy 3,6,12 ディレクティブが同時に指定されており、最初の 2 つのレイヤーは GPU 0 で計算され、レイヤー 3 から 5 は GPU 1 で計算され、レイヤー 6 から 11 は GPU 2 で計算され、残りのレイヤーは GPU 3 で計算されることを示しています。 最大の出力解像度を実現するには、必要に応じて -multidevice_strategy を調整します。 以下は、8 つの Tesla K80 GPU を使用してサーバー上で生成された 4016 x 2213 解像度の画像です。 1080 グラフィック カードと「分散」コンピューティングの入門、クールで楽しい低敷居スタイルの転送ネットワーク、ぜひ試してみてください。 ポータル: |
<<: エッジコンピューティングは産業界でどのような用途に使われていますか?
>>: GIF 圧縮アルゴリズムの発明者が IEEE の最高栄誉賞を受賞
人工知能に関しては、多くの人が懸念を表明しています。例えば、人類開発の最前線にいるホーキング博士とマ...
2020年10月1日、私たちの祖国は71歳の誕生日を迎えました!我が国は、最初の人工衛星の打ち上げか...
私たちは現在、拡張現実 (AR) と仮想現実 (VR) によって実現される新しい体験によって勢いを増...
2019年7月現在、AIの現状はどうなっているのでしょうか。最新の調査、研究、予測に基づき、AI技術...
著者:Chris Kadoch 氏は Rekor Systems の最高技術責任者です。 [[376...
この文書は、OpenAI 内外の多くの人々からのフィードバックを含め、過去 2 年間にわたって改良し...
今日の世界では、人工知能(AI)が私たちの日常生活にますます統合されつつあります。 SiriやAle...
一気に15言語で22の1位を獲得!いや、もっとすごいのは、彼は40以上の言語を読んで理解できるという...
人工知能の分野において、コンピューター ビジョンの 2 大巨頭は CLIP と DINOv2 です。...