ディープラーニングツール: TensorFlow システムアーキテクチャと高性能プログラミング

2015 年 11 月 9 日、Google は人工知能プラットフォーム TensorFlow をオープンソース化し、これは 2015 年に最も注目されたオープンソースプロジェクトの 1 つとなりました。 Google は、v0.1 から v0.12 までの 12 のバージョン反復を経て、2017 年 2 月 15 日に TensorFlow 1.0 をリリースし、同時に米国カリフォルニア州マウンテンビューで第 1 回 TensorFlow Dev Summit カンファレンスを開催しました。

TensorFlow 1.0 と Dev Summit (2017) のレビュー

以前のバージョンと比較して、TensorFlow 1.0 の機能改善は主に次の点に反映されています。

高速化: TensorFlow 1.0 は XLA コンパイルテクノロジーを使用して、TensorFlow の実行パフォーマンスとメモリ使用率を向上させます。ベンチマーク問題のテスト結果によると、単一マシンの Inception v3 モデルの場合、計算速度は単一マシン 8 GPU の 7.3 倍でした。分散型 Inception v3 モデルの場合、計算速度は複数マシン 64 GPU の 58 倍でした。
より柔軟: tf.layers、tf.metrics、tf.losses モデルの高レベル API のサポートに加えて、このバージョンでは keras (高レベルニューラルネットワークライブラリ) API との完全な互換性も実現されています。
より製品指向: TensorFlow Python API はバージョン v1.0 で安定し、製品の互換性の強固な基盤が築かれました。

TensorFlow 1.0 がリリースされた日に、Google は TensorFlow 2017 DEV Summit も開催しました。議題には主に以下の点に関する基調講演が含まれます。

実践的な TensorBoard 可視化テクノロジー: TensorBoard の使用方法と、TensorFlow グラフモデルとトレーニングデータの可視化について説明します。
TensorFlow 高レベル API: トレーニングモデルを定義するためのレイヤー、推定器、および既定推定器高レベル API の使用を紹介します。
Keras と TensorFlow の統合: モデルの定義とトレーニングのために TensorFlow で Keras API を使用する方法を紹介します。
DeepMind における TensorFlow: AlphaGo などのアプリケーションを含む、DeepMind での TensorFlow プラットフォームの使用の典型的な事例を紹介します。
皮膚がんの画像分類: スタンフォード大学医学部は、医療診断のために皮膚がんの写真を分類するために TensorFlow を使用しています。
モバイルおよび組み込み TensorFlow: Android、iOS などのシステムを含むモバイル端末や組み込みデバイスで TensorFlow モデルを実行する方法を紹介します。
分散 TensorFlow: 分散 TensorFlow の関連技術と、それを大規模モデルのトレーニングに適用する方法を体系的に紹介します。
TensorFlow エコシステム: トレーニングデータの生成、分散方式での TensorFlow の実行、モデルの提供などの制作プロセスを含む TensorFlow エコシステムについて説明します。
TensorFlow Serving を使用して本番環境でモデルを提供する: TensorFlow Serving モデルを本番環境に適用する方法を体系的に説明します。
ML ツールキット: 線形回帰、KMeans、その他のアルゴリズムモデルの使用など、TensorFlow の機械学習ライブラリを紹介します。
シーケンスモデルと RNN API: 高性能なシーケンス間モデルと関連 API の構築方法を紹介します。
ワイド & ディープラーニング: ワイドモデルとディープモデルを組み合わせて包括的なトレーニングモデルを構築する方法を紹介します。
マゼンタ、音楽とアートの生成: 強化されたディープラーニングモデルを使用して、音楽のサウンドと芸術的な画像を生成します。
ケーススタディ、医療における TensorFlow – 網膜画像: TensorFlow 機械学習プラットフォームを使用して医療用網膜画像を分類し、医療診断を支援します。

TensorFlow システムアーキテクチャ

TensorFlow は分散型機械学習プラットフォームであり、その主なアーキテクチャを下図に示します。 RPC と RDMA はネットワーク層であり、主にニューラルネットワークアルゴリズムパラメータの送信を担当します。 CPU と GPU はデバイス層であり、主にニューラルネットワークアルゴリズムの特定の計算操作を担当します。カーネルは、畳み込み演算、活性化演算など、TensorFlow におけるアルゴリズム演算の特定の実装です。分散マスターはサブグラフの構築に使用され、サブグラフを複数のシャードに分割し、異なるサブグラフシャードを異なるデバイスで実行します。マスターは、サブグラフシャードを Executor/Worker エンドに分散する役割も担います。 Executor/Work は、デバイス (CPU、GPU など) 上のサブグラフ操作の実行をスケジュールし、グラフ操作の結果を他のワーカーと送受信する役割を担います。 C API は TensorFlow をフロントエンドとバックエンドに分割します。フロントエンド (Python/C++/Java クライアント) は、C API に基づいて TensorFlow バックエンドプログラムの実行をトリガーします。トレーニングライブラリと推論ライブラリは、モデルトレーニングと推論のためのライブラリ関数であり、ユーザーがアプリケーションモデルを開発するために使用します。

次の図は、クライアント、マスター、ワーカーの内部動作原理を示しています。「/job:worker/task:0」と「/job:ps/task:0」はワーカー内の実行サービスを表します。「job:ps」は、モデルパラメータを保存および更新するために使用されるパラメータサーバーを表します。「job:worker」は、モデルパラメータを最適化し、同時パラメータをパラメータサーバーに送信するために使用されます。分散マスターおよびワーカーサービスは、分散 TensorFlow にのみ存在します。 TensorFlow のスタンドアロンバージョンは、ローカルセッションを実装し、ローカルプロセスの内部通信を通じて上記の機能を実装します。

ユーザーは TensorFlow アプリケーションを作成して計算グラフを生成します。クライアントコンポーネントはセッションを作成し、シリアル化テクノロジを使用してグラフ定義を分散マスターコンポーネントに送信します。下の図では、クライアントは s+=w*x+b のグラフ計算モデルを作成します。

クライアントがセッション操作をトリガーすると、Maser は実行するサブグラフを構築します。そして、デバイスの状態に応じて、サブグラフは複数のスライスに分割されます。以下は、マスターによって構築された実行サブグラフです。

次に、サブグラフを分割し、パラメータサーバー上でモデルパラメータをグループ化し、コンピューティングワーカー上でグラフコンピューティング操作をグループ化します。次の図は、実行可能なグラフカット戦略を示しています。

分散マスターは、モデルパラメータの分割に従ってエッジをカットし、次の図に示すように、タスク間で Tensor 情報を送受信するための通信ノードを挿入します。

次に、分散マスターは、次の図に示すように、RegisterGraph メソッドを通じてサブグラフシャードをタスクに送信します。

マスターは RunGraph を通じてサブグラフ操作をトリガーし、ワーカーは GPU/CPU コンピューティングデバイスを使用して TensorFlow カーネル操作を実行します。 cudaMemcpyAsync は、このノードの CPU と GPU 間でデータを転送するために使用されます。ピアツーピア DMA は、CPU を介したデータのコピーを回避するために、このノードの GPU 間でデータを転送するために使用されます。 TensorFlow は、次の図に示すように、gRPC (TCP) および RDMA (統合イーサネット) テクノロジを使用して、ワーカー間のデータ通信と転送を実装します。

高性能プログラミング

TensorFlow カーネルは C/C++ で開発されており、C++、Python、Java、Go でクライアント API を提供します。特に、Python API は現在主流の TensorFlow モデル開発インターフェースです。しかし、なぜモデルをトレーニングするために C++ API を使用する必要があるのでしょうか? この記事は、次の 2 つの考慮事項に基づいています。まず、Python API を使用してモデルをトレーニングする場合、C/C++ の基礎となるインターフェイスを呼び出すために Python API を常に使用する必要があります。インターフェイスの繰り返し呼び出しは、プログラムの実行パフォーマンスにある程度影響します。さらに重要なのは、GPU 上でモデルをトレーニングするには大量のメモリスワップが必要になることです。モデルのトレーニングに C++ API を使用すると、コンピューティングパフォーマンスが向上し、GPU メモリ割り当てをより適切に制御できるようになります。

次の図は、Python API のコンピューティングアーキテクチャを示しています。モデルトレーニングの各反復で、プログラムは Python API を介してバッチデータを読み取り、TensorFlow Session Run インターフェースを介してデータを C++ に渡し、ニューラルネットワークトレーニングをトリガーします。次の図に示すように:

次の図は、C++ API のコンピューティングアーキテクチャを示しています。モデルトレーニングの各反復では、バッチデータが C++ API を通じて読み取られた後、モデルトレーニングが直接トリガーされます。異なる言語間の API インターフェースの循環呼び出しとデータ転送を削減します。次の図に示すように:

モデルのトレーニングに C++ API を使用するには、まずトレーニングモデルを記述する必要があります。これは Python で行うことができます。まず Python API を使用してトレーニングモデルを記述し、次にグラフモデルを Protobuf シリアル化ファイルに変換します。次に、C++ API を介してモデルファイルを読み込み、TensorFlow セッションを作成し、モデル変数を初期化し、トレーニングデータを読み込み、ニューラルネットワークトレーニングを実行します。プログラムのアーキテクチャを下図に示します。

以下は、Python API を使用してトレーニングモデルを定義する例です。

tf.Session() を sess として使用:

 #トレーニングデータにアクセスするためのプレースホルダーテンソルを定義する
    x = tf.placeholder(tf.float32, [なし、32]、名前= "x" )
    y = tf.placeholder(tf.float32, [なし, 8],名前= "y" ) 
 
    #トレーニングモデルを定義する
    w1 = tf.Variable(tf.truncated_normal([32, 16], stddev=0.1))
    b1 = tf.Variable(tf.constant(0.0, 形状=[16]))
    w2 = tf.Variable(tf.truncated_normal([16, 8], stddev=0.1))
    b2 = tf.Variable(tf.constant(0.0, 形状=[8]))
    a = tf.nn.tanh(tf.nn.bias_add(tf.matmul(x, w1), b1))
    y_out = tf.nn.tanh(tf.nn.bias_add(tf.matmul(a, w2), b2),名前= "y_out" )
    コスト = tf.reduce_sum(tf.square(y-y_out)、名前= "コスト" )
    オプティマイザー = tf.train.AdamOptimizer().minimize(コスト、名前= "train" ) 
 
    #変数初期化操作を定義する
    init = tf.initialize_variables(tf.all_variables(),名前= 'init_all_vars_op' ) 
 
    #グラフモデルをProtobufファイルに変換する
tf.train.write_graph(sess.graph_def, './' , 'mlp.pb' , as_text= False )を実行します。

以下は、C++ API を使用して Protobuf グラフモデルをロードし、トレーニングを実行する例です。

 #include "tensorflow/core/public/session.h"  
 #include "tensorflow/core/graph/default_device.h"  
名前空間 tensorflow を使用します。 
 
 int main( int argc, char * argv[]) {
    //Protobuf モデル ファイル名
    std::string graph_definition = "mlp.pb" ;
    //Tensorflowセッション
    セッション* セッション; 
 
    //グラフモデルオブジェクトを定義する
    グラフ定義 graph_def;
    SessionOptions オプション; 
 
    //セッションの実行結果を保存する
    std::vector<Tensor> 出力; 
 
    #Protobufモデルファイルをグラフモデルオブジェクトにロードします
    TF_CHECK_OK(ReadBinaryProto(Env:: Default (), graph_definition, &graph_def)); 
 
    // デフォルトでは、モデルのトレーニング操作は GPU 0 で実行されます
    graph::SetDefaultDevice( "/gpu:0" , &graph_def); 
 
    //GPUメモリ使用量パラメータを設定する
    opts.config.mutable_gpu_options()->set_per_process_gpu_memory_fraction(0.5);
    opts.config.mutable_gpu_options()->set_allow_growth( true ); 
 
    //TensorFlowセッションを作成する
    TF_CHECK_OK(NewSession(opts, &session)); 
 
    // グラフオブジェクトをセッションにロードする
    TF_CHECK_OK(セッション->作成(graph_def)); 
 
    // モデルパラメータ初期化操作を実行する
    TF_CHECK_OK(セッション->実行({}, {}, { "init_all_vars_op" }, nullptr)); 
 
    //データ型と次元情報を含むモデル入力データを定義する
    テンソル x(DT_FLOAT、TensorShape({100、32}));
    テンソル y(DT_FLOAT, TensorShape({100, 8})); 
 
    //テンソルを行列に変換し、テンソルデータを初期化する
    自動 _XTensor = x.matrix< float >();
    自動 _YTensor = y.matrix< float >();
    _XTensor.setRandom();
    _YTensor.setRandom(); 
 
 ( int i = 0; i < 10; ++i)の場合{
        //モデルのトレーニング操作を実行します。{{ "x" , x}、{ "y" , y}} は入力データの Tensor 名と Tensor オブジェクトを表します。{ "cost" } は出力値を取得するための操作名を表します。&outputs は"cost"操作を実行した後に返される Tensor オブジェクトを表します。
        TF_CHECK_OK(セッション->実行({{ "x" , x}, { "y" , y}}, { "cost" }, {}, &outputs)); 
 
        //「コスト」操作を実行した後の結果を取得します
フロートコスト = 出力[0].スカラー<フロート>()(0);
        std::cout << "コスト: " << cost << std::endl; 
 
        // 「トレーニング」操作を実行する
        TF_CHECK_OK(session->Run({{ "x" , x}, { "y" , y}}, {}, { "train" }, nullptr)); // トレーニング
        出力をクリアします。
    } 
 
    //セッションを閉じてセッションオブジェクトを削除する
    セッション->閉じる();
セッションを削除します。
 0を返します。
 }

C++ プログラムが作成されるときに、コンパイル中にリンクする必要があるヘッダーファイルはオープンソースによって整理され、/usr/lib/python2.7/site-packages/tensorflow/include ディレクトリに保存されます。コンパイルして実行するときは、libtensorflow_cc.so をリンクする必要があります。ライブラリファイルは次のようにコンパイルできます: bazel build -c opt //tensorflow:libtensorflow_cc.so –copt=-m64 –linkopt=-m64 –spawn_strategy=standalone –genrule_strategy=standalone –verbose_failures。詳細については、TensorFlow ソースコードの公式コンパイルドキュメントを参照してください。

要約する

この記事では、まず TensorFlow 1.0 の主な新機能と TensorFlow 2017 Dev Summit の主な議題について説明します。現時点では、TensorFlow の GitHub スターランキングは 51,000 以上、フォークランキングは 24,000 以上に達し、コミットは 15,000 以上あります。 TensorFlow の新バージョンが継続的にリリースされ、新機能が継続的に追加されることにより、TensorFlow はより柔軟に使用でき、操作が高速になり、より製品指向的に使用されるようになり、現在主流のディープラーニングプラットフォームの 1 つになりました。

次に、クライアント、マスター、ワーカー、カーネルの概念と操作方法を含むTensorFlowのシステムアーキテクチャを紹介しました。これは、大規模な分散トレーニングに適した機械学習プラットフォームです。上記のシステムアーキテクチャから、TensorFlow カーネルは C/C++ で開発されていることがわかります。Python API を使用してモデルをトレーニングする場合、Python で C/C++ の基盤となるインターフェースを継続的に呼び出す必要があります。インターフェースの繰り返し呼び出しは、プログラムの実行パフォーマンスに一定の影響を与えます。高性能コンピューティングをお探しの場合は、この記事の「高性能コンピューティング」セクションで推奨されている方法を試してみてください。

参考文献