データサイエンスのための Python: ニューラルネットワーク

人工ニューラルネットワーク (ANN) は、数学的および物理的な方法を使用して人間の脳のニューラルネットワークを簡素化、抽象化、シミュレートする人工ニューラルネットワークモデルです。

これは、ニューロンモデルと BP ニューラルネットワークを含む、ニューラルネットワークの簡単な紹介です。

ここでは、機械学習の 3 つの要素であるモデル、戦略、アルゴリズムについて簡単に説明します。

モデルには、非ランダム効果部分 (説明変数と被説明変数の関係、主に機能関係) とランダム効果部分 (外乱項) が含まれます。

戦略とは、最適な目的関数を設定する方法を指します。一般的な目的関数には、線形回帰の残差二乗和、ロジスティック回帰の尤度関数、SVM のヒンジ関数などがあります。

アルゴリズムとは、微分法によって計算したり、数値計算の分野でアルゴリズムを使用して解いたりするなど、目的関数のパラメータを見つける方法です。

ニューラルネットワークは数値アルゴリズムを使用してパラメータを解決します。つまり、計算されるモデルパラメータは毎回異なります。

1. ニューラルネットワーク

01 ニューロンモデル

ニューラルネットワークの最も基本的なコンポーネントはニューロンモデルです。

各ニューロンは、多入力、単一出力の情報処理ユニットです。入力信号は重み付けされた接続を介して送信され、しきい値と比較して合計入力値を取得し、その後、活性化関数によって処理されて単一の出力が生成されます。

ニューロンの出力は、入力の加重合計に活性化関数を適用した結果です。

ニューロンの活性化関数は、ニューロンにさまざまな情報処理特性を与え、ニューロンの出力と活性化状態の関係を反映します。

今回取り上げる活性化関数は閾値関数（ステップ関数）とシグモイド関数（S型関数）です。

02 単層パーセプトロン

パーセプトロンは、単一層の計算ユニットを持つニューラルネットワークであり、線形に分離可能なバイナリ分類問題を解決するためにのみ使用できます。

多層パーセプトロンには適用できず、隠れ層の予想出力を決定することはできません。

その構造は以前のニューロンモデルに似ています。

活性化関数は、単極性（または双極性）しきい値関数を使用します。

03 BPニューラルネットワーク

エラーバックプロパゲーションアルゴリズム（教師あり学習アルゴリズム）を使用してトレーニングされた多層ニューラルネットワークは、BP ニューラルネットワークと呼ばれます。

これは多層フィードフォワードニューラルネットワークです。モデルの学習プロセスは、信号の順方向伝播とエラーの逆方向伝播の 2 つのプロセスで構成されます。

順方向伝播中、信号は入力層から各層の加重和として計算され、最終的に各隠れ層を介して出力層に伝達され、出力結果が得られます。出力結果は、期待される結果（監視信号）と比較され、出力誤差が得られます。

エラーバックプロパゲーションは、勾配降下アルゴリズムに従って、隠れ層から入力層まで層ごとにエラーを伝播し、各層のすべてのユニットにエラーを分配して、各ユニットのエラー信号（学習信号）を取得し、それに応じて各ユニットの重みを変更します。

2 つの信号伝播プロセスは継続的に循環され、重みが更新され、最終的に判断条件に基づいてサイクルを終了するかどうかが決定されます。

そのネットワーク構造は、一般的に、入力層、隠し層、出力層を含む単一の隠し層ネットワークです。

活性化関数は通常、シグモイド関数または線形関数を使用します。ここでは、隠れ層と出力層の両方でシグモイド関数を使用します。

2. Python実装

ニューラルネットワークに明確なトレーニングサンプルが用意された後、ネットワークの入力層のノード数 (説明変数の数) と出力層のノード数 (説明変数の数) が決定されます。

考慮する必要があるのは、隠し層の数と各隠し層内のノードの数です。

この本のデータを使用して、モバイルオフグリッドデータのセットを含むいくつかの実践的な実験を実施してみましょう。

モバイル通信ユーザーの消費特性データ、対象分野は解約するかどうかで、分類レベルは 2 つ（はい、いいえ）です。

独立変数には、ユーザーの基本情報、消費された製品情報、ユーザーの消費特性が含まれます。

データを読み取ります。

 pandasをpdとしてインポートする
sklearnからメトリックをインポート
matplotlib.pyplot をpltとしてインポートします。
 sklearn.preprocessingからMinMaxScaler をインポートします
sklearn.neural_networkからMLPClassifier をインポートします
sklearn.model_selectionからGridSearchCV をインポートします
sklearn.model_selectionからtrain_test_split をインポートします
 
 # 表示する行数を設定する
pd.set_option( 'display.max_rows' , 10)
 # 表示する列数を設定する
pd.set_option( 'display.max_columns' , 10)
 # IDEで改行が発生しないように、表示幅を1000に設定します
pd.set_option( 'ディスプレイ幅' , 1000)
 # データを読み取り、skipinitialspace: 区切り文字の後のスペースを無視します
解約率 = pd.read_csv( 'telecom_churn.csv' , skipinitialspace= True )
印刷(解約)

3000 を超えるユーザーデータを含む出力データの概要。

scikit-learn の関数を使用して、データセットをトレーニングセットとテストセットに分割します。

 # 独立変数データを選択する
データ = churn.iloc[:, 2:]
 # 従属変数データを選択する
ターゲット = churn[ 'churn' ]
 # scikit-learn を使用してデータセットをトレーニング セットとテスト セットに分割します
train_data、test_data、train_target、test_target = train_test_split(データ、ターゲット、test_size=0.4、train_size=0.6、random_state=1234)

ニューラルネットワークでは、データの極端な正規化が必要です。

連続変数は極端な値に標準化する必要があり、カテゴリ変数はダミー変数に変換する必要があります。

このうち、多カテゴリ名義変数はダミー変数に変換する必要がありますが、順序変数とバイナリ変数は変換しないことを選択し、連続変数として扱うことができます。

このデータでは、教育レベルやパッケージの種類は階層変数であり、性別などの変数はバイナリ変数であり、これらはすべて連続変数として扱うことができます。

これは、このデータセットには多重分類名目変数が存在せず、すべてが連続変数として扱えることを意味します。

 # 極値正規化
スケーラー = MinMaxScaler()
スケーラー.fit(train_data) 
 
スケールされたトレーニングデータ = scaler.transform(トレーニングデータ)
 scaler_test_data = scaler.transform(テストデータ)

多層パーセプトロンモデルを構築します。

 # 多層パーセプトロンに対応するモデルを設定する
mlp = MLPClassifier(hidden_layer_sizes=(10,)、活性化= 'logistic' 、アルファ=0.1、max_iter=1000)
 # トレーニングセットでモデルをトレーニングする
mlp.fit(スケールされたトレーニングデータ、トレーニングターゲット)
 # ニューラルネットワークモデル情報を出力する
印刷(mlp)

出力モデル情報は以下の通りです。

次に、トレーニングセットでトレーニングされたモデルを使用して、トレーニングセットとテストセットで予測を行います。

 # モデルを使用して予測を行う
train_predict = mlp.predict(スケールされたtrain_data)
 test_predict = mlp.predict(scaler_test_data)

予測確率、つまりユーザー離脱の確率を出力します。

 # 出力モデルの予測確率（1の場合）
 train_proba = mlp.predict_proba(スケールされたtrain_data)[:, 1]
 test_proba = mlp.predict_proba(scaler_test_data)[:, 1]

モデルを評価し、評価データを出力します。

 # 予測情報に基づくモデル評価結果を出力する
印刷(metrics.confusion_matrix(test_target, test_predict, labels=[0, 1]))
印刷(metrics.classification_report(test_target, test_predict))

出力は次のようになります。

失われたユーザーのモデルの f1 スコア (精度と再現率の調和平均) は 0.81 であり、これは良好な結果です。

さらに、失われたユーザーに対するリコール感度は 0.83 であり、モデルは失われたユーザーの 83% を識別できるため、モデルの失われたユーザーを識別する能力が許容できることがわかります。

モデルの予測の平均精度を出力します。

 # 指定されたデータセットを使用してモデル予測の平均精度を出力します
mlp.score(scaler_test_data, test_target) を印刷します。
 # 出力値は0.8282828282828283です

平均精度値は0.8282です。

モデルの ROC の下の領域を計算します。

 # ROC曲線を描く
fpr_test、tpr_test、th_test = metrics.roc_curve(test_target、test_proba)
 fpr_train、tpr_train、th_train = metrics.roc_curve(train_target、train_proba)
 plt.figure(図のサイズ=[3, 3])
 plt.plot(fpr_test, tpr_test, 'b--' )は、
 plt.plot(fpr_train, tpr_train, 'r-' )は、
 plt.title( 'ROC曲線' )
 plt.show() 
 
 # AUC値を計算する
印刷(metrics.roc_auc_score(test_target, test_proba))
 # 出力値は0.9149632415075206です

ROC曲線は以下のようになります。

トレーニングセットとテストセットの曲線は非常に近く、過剰適合現象は発生しません。

AUC 値は 0.9149 であり、モデルが非常にうまく機能していることがわかります。

モデルの *** パラメータ検索を実行し、*** パラメータでモデルをトレーニングします。

 # GridSearchCV を使用して *** パラメータ検索を実行します
パラメータグリッド = {
    # モデル内の隠れ層の数
'隠しレイヤーのサイズ' : [(10, ), (15, ), (20, ), (5, 5)],
    # 活性化関数
'活性化' : [ 'ロジスティック' , 'tanh' , 'relu' ],
    # 正則化係数
'アルファ' : [0.001, 0.01, 0.1, 0.2, 0.4, 1, 10]
 } 
 
 mlp = MLP分類子(max_iter=1000)
 # 評価基準としてroc_auc、4分割交差検証、n_jobs=-1を選択してマルチコアCPUのすべてのスレッドを使用する
gcv = GridSearchCV(推定器=mlp、param_grid=param_grid、
                   スコアリング= 'roc_auc' 、cv=4、n_jobs=-1)
 gcv.fit(スケールされたトレーニングデータ、トレーニングターゲット)

最も高いパラメータを持つモデルのケースを出力します。

 # ***パラメータの下にあるモデルのスコアを出力します
印刷(gcv.best_score_)
 # 出力値は0.9258018987136855です
 
 # ***パラメータの下のモデルのパラメータを出力します
印刷(gcv.best_params_)
 # 出力パラメータ値は{ 'alpha' :0.01、 'activation' : 'tanh' 、 'hidden_layer_sizes' :(5,5)}です
 
 # 指定されたデータセットを使用してモデル予測の平均精度を出力します
gcv.score を印刷します(scaler_test_data、test_target)
 # 出力値は0.9169384823390232です