ディープラーニングを使用してNBAの試合結果を予測する

この記事では、ディープラーニングを使用して NBA の試合結果を予測します。この記事を通じて、次のことを学ぶことができます。

NBA の技術統計をクロールする方法。
データを前処理する方法。
シンプルなディープネットワークモデルを構築する方法。
試合の結果を予測する方法。

ついに翌日の試合を 100% の精度で予測するモデルが完成しました。

技術統計収集

ディープラーニングを使用してゲーム結果を予測するには、学習サンプルとして大量の技術統計データが必要です。

公式テクニカル統計ウェブサイトをご覧ください: http://stats.nba.com/schedule

ブラウザの開発者ツールを開き、各ゲームの右側にある BOX SCORE をクリックします。次のような json ファイルが要求されることがわかります。

具体的には、次の JSON 内の hls (ホームチームデータ) と vls (アウェイチームデータ) という統計情報が必要です。

URL の形式は次のとおりです:

https://data.nba.com/data/10s/v2015/json/mobile_teams/nba/2017/scores/gamedetail/0021700228_gamedetail.json

数回試してみると、パターンが見つかります。

https://data.nba.com/data/10s/v2015/json/mobile_teams/nba/ これは修正されました。
2017 年はシーズン開始年です。たとえば、前シーズンは 2016 年でした。
/scores/gamedetail/ と *** の _gamedetail.json も修正されました。
0021700228 はゲームの ID です。ルールは 002 がルール、17 はシーズン開始年の最後の 2 桁 (昨シーズンは 16 など)、00228 は 1 から始まる 5 桁の数字で、1 未満の場合はゼロが追加されます。たとえば、シーズンの最初のゲームは 00001 で、00228 は 228 番目のゲームです。
キャプチャされた URL は https ですが、http もサポートされており、クロール時に https よりも高速です。

コレクションスクリプトは比較的単純で、ループで取得して Redis に保存します。

トレーニングに使用するデータは、ホームチームデータとアウェイチームデータの形式で整理し、勝ち負けのラベルを追加する必要があります (バスケットボールの試合では引き分けはありません)。

 127.0.0.1:6379> HGET ゲーム詳細差分 0021700228_ゲーム詳細.json 
 
 {u'ast '：2、' win '：1.0、u'fbptsa'：6、u'tf '：1、u'bpts'：-4、 'away'：u'lac '、u'pip'：u'cha '、u'dreb'：4、u'fga u'fbptsm '：5、u'tpa'：-3、u'fgm '：1、u'stl'：2、u'fbpts '：10、u'ble'：13、u'tov '：-6、u'oreb'：1、u'potov '：16、u'fta'：10、u'pipm '：10、u'pipm'： -1、u'pf': -6、u'tmreb': -2、u'blk': 3、u'reb': 5、u'pipa': -4、u'ftm': 10、u'tpm': 3}"

***2015 年、2016 年、2017 年から 2017 年 11 月 19 日までの 3 シーズンから合計 2699 件の有効なデータが収集されました。

データ前処理

データ処理にはPandasを使用しており、非常に便利です。

まず、redis から直接データを読み取ります。

 pandasをpdとしてインポートする
Redisをインポートする
ast をインポート
 
 cli = redis.Redis()
データ = cli.hgetall( "gamedetaildiff" )
 df = pd.DataFrame([ast.literal_eval(data[k]) データのkに対して])
 df = df.fillna(value=0.0) # 空白データを0で埋める
df.head()

入力データは無関係な項目が削除され、トレーニングデータとテストデータに整理されます。

 dataX = df.drop ([ "勝利" 、 "日付" 、 "ホーム" 、 "アウェイ" ]、軸=1)
 dataY = df[ "勝つ" ]
 train_x = np.array(dataX)[::2] # トレーニングセット 
 train_y = np.array(データY)[::2]
 test_x = np.array(dataX)[1::2] # テストセット 
 test_y = np.array(データY)[1::2]

処理されるデータのディメンションは次のとおりです。

深いネットワークの構築

この部分は、Keras があるため、実際にはこの記事の中で最も簡単な部分です。

 keras.modelsからSequentialをインポートする
keras.layers.coreからDense をインポートする
 
モデル = シーケンシャル()
モデルを追加します(Dense(60, input_dim=train_x.shape[1], activation= 'relu' ))
 model.add (Dense(30, activation= 'relu' ))
 model.add (Dense(1, activation= 'sigmoid' ))
 model.compile(損失= 'binary_crossentropy' 、オプティマイザー= 'adam' 、メトリック=[ 'accuracy' ])

最もシンプルな 3 層の完全接続ネットワーク。

ネットワークの出力次元は 1 なので、最後の層の活性化関数は sigmoid で、損失関数は binary_crossentropy です。

モデルのトレーニングと検証

10エポック後、トレーニングデータに対するモデルの精度は98.89%に達したことがわかります。

次に、テストデータを使用してモデルを検証します。

トレーニングデータの精度も 95.40% に達し、このモデルが比較的信頼できることを示しています。トレーニングには数秒しかかかりませんが、保存しておきましょう。

モデルを保存します( "nba-model.hdf5" )

新しいデータの予測

これで、ゲームの結果を予測できるモデルができました。ここで問題となるのは、2 つのチームの技術統計をどのようにシミュレートするかということです。

ホームチームの過去 5 回のホームゲームの平均技術統計とアウェイチームの過去 5 回のアウェーゲームの平均技術統計を使用し、その 2 つを減算してモデルの予測入力とします。

まず、Redis から完全なデータを取得します。

 game_detail_data = cli.hgetall( "gamedetail" )
ゲームの詳細json = []
 game_detail_dataのkの場合:
    } は、
    di_h = {}
    j = json.loads(ゲームの詳細データ[k])
    vls = j[ "g" ][ "vls" ]
    hls = j[ "g" ][ "hls" ]
    di_v.update (vls[ "tstsg" ])
    di_v.update ({ "日付" : j[ "g" ][ "gdtutc" ], "名前" : vls[ "ta" ], "ホーム" : 0})
    ゲームの詳細jsonを追加します(di_v)
    di_h.update (hls[ "tstsg" ])
    di_h.update ({ "日付" : j[ "g" ][ "gdtutc" ], "名前" : hls[ "ta" ], "ホーム" : 1})
    ゲームの詳細jsonを追加します(di_h)
 game_detail_df = pd.DataFrame(game_detail_json)
 game_detail_df = game_detail_df.fillna(値=0.0)

Pandas を使用すると、1 行のコードでホームチームの過去 5 回のホームゲームの平均を見つけることができます。

 def predict(ホーム=なし、アウェイ=なし):
    home_data = game_detail_df[(game_detail_df[ 'name' ]==home) & (game_detail_df[ 'home' ]==1)].sort_values( by = 'date' , ascending= False )[:5].mean()
    away_data = game_detail_df[(game_detail_df[ 'name' ]==away) & (game_detail_df[ 'home' ]==0)].sort_values( by = 'date' , ascending= False )[:5].mean()
    home_data = home_data.drop ([ 'home' ] )
    away_data = away_data.drop ([ 'home' ] )
    new_x = np.array(ホームデータ - アウェイデータ)
 model.predict_classes(new_x[np.newaxis,:], verbose=0)[0][0]を返す