家賃決定問題を用いてK近傍法アルゴリズムを学ぶ

[[405033]]

k 近傍法の考え方は、私の意見では最も純粋で明確な考え方であり、k 近傍法アルゴリズム (KNN) は、この考え方をデータ分野に適用したものにすぎません。

あなたの給料はあなたの周りの人々によって決まります。

あなたのレベルは、あなたに最も近い人々のレベルによって決まります。

あなたが見る世界は、あなたの周りの人々によって決まります。

思考は思考です。エンコードできなければ、データサイエンスの分野に適用することはできません。

質問をし、その方法を適用して問題を解決することで、方法の理解を深めます。

質問: Airbnb プラットフォームの家主の場合、家賃はどのように設定しますか?

分析: 入居者は、主に価格、寝室数、家屋タイプ、場所などを含む Airbnb プラットフォーム上の賃貸情報に基づいて、満足できる家屋を選択します。家賃は市場の動向と密接に関係しています。同じタイプの家でも家賃が高すぎると、入居者は間違いなく借りてくれません。家賃が低すぎると、利益は上がりません。

回答: 私たちの家と似た条件の家をいくつか集めて、最も似ている家を特定し、それらの価格の平均を計算して、私たちの家の家賃として使用します。

これは K 最近傍法 (KNN)、つまり k 最近傍アルゴリズムです。 KNN の中心的な考え方は、ラベル付けされていないサンプルのカテゴリが、その k 個の最近傍による投票によって決定されるというものです。

この記事では、家賃価格設定の問題に基づいてこのアルゴリズムを適用するプロセス全体を整理します。これには次の部分が含まれます。

データの読み込み
データ処理
手書きアルゴリズムコード予測
モデル予測にsklearnを使用する
ハイパーパラメータの最適化
クロス検証
要約する

このデータセットは公開されていることをあらかじめ述べておきます。インターネット上では関連トピックに関する資料が多数見つかります。この記事では、それを完全かつ正確に説明することを目指しています。より詳細な学習資料が見つかったら、大変助かります。

1. データを読み込む

まず、データを読み込んで、データの状況を把握します。ターゲット変数 price、cleaning_fee、security_deposit の形式に問題があることがわかります。他の変数は文字型であるため、処理する必要があります。見やすくするためにデータフレームを転置しました。

2. データ処理

まず価格のみを扱い、アルゴリズムのアイデア自体に焦点を当ててみます。

 # ターゲット変数価格を処理し、数値型に変換します
カンマを削除 = dc_listings[ 'price' ].str.replace ( ' ,' , '' )
 stripped_dollars = stripped_commas.str.replace ( '$' , '' )
 dc_listings[ 'price' ] = stripped_dollars.astype( 'float' ) 
 
 # k近傍法もモデルであり、トレーニングセットとテストセットを分割する必要がある。
サンプル番号 = len(dc_listings)
 # ここでは、データセットがランダムかつ効果的に分割されるように、まずデータをランダムに分割します。
 dc_listings = dc_listings.loc[np.random.permutation(len(sample_num))]
 train_df = dc_listings.iloc[0: int (0.7*sample_num)]
 test_df = dc_listings.iloc[ int (0.7*sample_num):]

3. 手書きアルゴリズムコード予測

k 最近傍アルゴリズムの定義に従って直接コードを記述します。簡潔さと効率性のため、単一の変数に対してのみ予測を行います。

家に住む人数は家賃と高い相関関係にある情報であるはずであり、エリアも同様であるはずです。ここでは前者を採用します。

私たちの目標はアルゴリズムのロジックを理解することです。実際の操作では、通常、単一の変数のみが考慮されるわけではありません。

 # 注意: これは train_df です
def predict_price(new_listing):
    temp_df = train_df.copy()
    temp_df[ '距離' ] = temp_df[ '収容' ].apply(lambda x: np.abs ( x - new_listing))
    temp_df = temp_df.sort_values( '距離' )
    最も近い価格 = temp_df.iloc[0:5][ '価格' ]
    予測価格 = 最近隣価格.mean()
リターン（予測価格） 
 
 # ここはtest_dfです
test_df[ '予測価格' ] = test_df[ '収容可能' ].apply(予測価格)
 # MAE(平均絶対誤差)、MSE(平均二乗誤差)、RMSE(平均二乗誤差)
 test_df[ 'squared_error' ] = (test_df[ 'predicted_price' ] - test_df[ 'price' ])**(2)
 mse = test_df[ 'squared_error' ].mean()
 rmse = mse ** (1/2)

モデルアルゴリズムの構築はトレーニングセットに基づいており、予測評価はテストセットに基づいていることを強調しておく価値があります。厳密に言えば、アプリケーション評価には、クロスタイムサンプルという別の種類のサンプルがあります。

結果から判断すると、変数調整のみを使用して最近傍選択を行う場合でも、予測結果は依然として非常に効果的です。

4. モデル予測にsklearnを使用する

今回は、文字列と説明のない変数のみを削除し、使用できる残りの変数をすべて使用して、さらに多くの変数を使用します。

複数の変数を使用する場合、これらの不変量の次元は異なるため、標準化する必要があります。変数を重ね合わせることができることを保証しながら、各変数の分布の違いを保証します。

 # 数値以外の変数と不適切な変数を削除する
drop_columns = [ '部屋タイプ' 、 '都市' 、 '州' 、 '緯度' 、 '経度' 、 '郵便番号' 、 'ホスト応答率' 、 'ホスト承認率' 、 'ホストリスト数' ]
 dc_listings = dc_listings.drop (drop_columns、軸=1 )
 # 欠損率が高すぎる列（変数）を削除する
dc_listings = dc_listings.drop ([ '清掃料' , '保証金' ], axis=1 )
 # 欠損値のある行（サンプル）を削除する
dc_listings = dc_listings.dropna(軸=0)
 # 複数の変数は異なる次元を持ち、標準化する必要がある
正規化されたリスト = (dc_listings - dc_listings.mean())/(dc_listings.std())
 normalized_listings[ '価格' ] = dc_listings[ '価格' ] 
 
 # モデリングに使用できるデータセットが7:3でトレーニングセットとテストセットに分割されました
train_df = 正規化されたリスト.iloc[0: int (0.7*len(正規化されたリスト))]
 test_df = normalized_listings.iloc[ int (0.7*len(normalized_listings)):]
 # 価格はy、残りの変数はXです
特徴 = train_df.columns.tolist()
機能を削除します( '価格' )

処理されたデータセットは次のとおりです。ここで、price は予測するターゲットであり、残りは利用可能な変数です。

 sklearn.neighborsからKNeighborsRegressor をインポートします
sklearn.metricsからmean_squared_errorをインポートする
 
 knn = KNeighborsRegressor(n_neighbors=5, アルゴリズム= 'brute' )
 knn.fit(train_df[特徴], train_df[ '価格' ])
予測 = knn.predict(test_df[特徴])
 mse = 平均二乗誤差(test_df[ '価格' ], 予測)
 rmse = mse ** (1/2)

最終的なrmse = 111.9は単変量knnの117.4よりも小さく、結果は最適化されています。厳密に言えば、この比較は、特徴が欠落している少数のサンプルが失われたため、完全に公平ではありません。

5. ハイパーパラメータの最適化

パート 3 と 4 では、k = 5 と仮定しましたが、これは衝動的な決定でした。この値が妥当かつ最適であるかどうかは、さらに判断する必要があります。

このうち、この k はハイパーパラメータです。どのデータセットでも、knn を使用する限り、k 値を決定する必要があります。

k 値はデータに基づいてモデルによって学習されるのではなく、事前に設定され、結果に基づいて逆選択によって決定されます。あらゆるハイパーパラメータはこのように決定され、他のアルゴリズムでも同様です。

 matplotlib.pyplot をpltとしてインポートします。
 %matplotlib インライン
 
 hyper_params = [x が範囲(1,21)内の場合のx ]
 rmse_values = []
特徴 = train_df.columns.tolist()
機能を削除します( '価格' ) 
 
 hyper_paramsのhpの場合:
    knn = KNeighborsRegressor(n_neighbors=hp、アルゴリズム= 'brute' )
    knn.fit(train_df[特徴], train_df[ '価格' ])
    予測 = knn.predict(test_df[特徴])
    mse = 平均二乗誤差(test_df[ '価格' ], 予測)
    rmse = mse**(1/2)
    rmse_values.append(rmse) 
     
 plt.plot(hyper_params、rmse_values、c= 'r' 、線種= '-' 、マーカー= '+' )

k が大きいほど、トレンドに関して予測価格と実際の価格の偏差がより正確になることがわかりました。ただし、k が大きくなるほど、計算量も大きくなることに注意してください。

k 値を決定するときは、アルボー法を使用できます。つまり、上の図の変曲点、つまり比喩的に手の肘に注目します。

k=5 よりも k=7 または 10 の方が良い結果になる可能性があります。

6. クロスバリデーション

上記の計算結果は、トレーニングセットとテストセットの分割においてランダム性を考慮していますが、完全にそれらに依存しています。しかし、特にサンプルサイズが十分に大きくない場合は、単一の結果が偶然である可能性があります。

クロス検証はこの問題を解決するために設計されています。同じサンプルセットを異なるトレーニングセットとテストセットに分割できます。各分割ごとに再トレーニングと予測を実行し、結果を総合的に確認します。

最も広く使用されているのは n 倍交差検証であり、これはデータセットをランダムに n 個の部分に分割し、n-1 個のサブセットをトレーニングセットとして使用し、残りの 1 つのサブセットをテストセットとして使用するものです。このようにして、合計 n 回のトレーニングと予測を実行できます。

次のように、ロジックを直接手動で記述できます。

サンプル数 = len(正規化されたリスト)
 normalized_listings.loc[ normalized_listings.index [0: int (0.2*sample_num)], "fold" ] = 1
 normalized_listings.loc[normalized_listings.index [ int ( 0.2*sample_num): int (0.4*sample_num)], "fold" ] = 2
 normalized_listings.loc[normalized_listings.index [ int ( 0.4*sample_num): int (0.6*sample_num)], "fold" ] = 3
 normalized_listings.loc[normalized_listings.index [ int ( 0.6*sample_num): int (0.8*sample_num)], "fold" ] = 4
 normalized_listings.loc[normalized_listings.index [ int ( 0.8*sample_num ):], "fold" ] = 5 
 
折り畳みID = [1,2,3,4,5]
 def train_and_validate(df, 折り畳み):
    折り畳み率 = []
折り畳みの場合:
        ＃ 電車
        モデル = KNeighborsRegressor()
        訓練 = df[df[ "折り畳み" ] != 折り畳み]
        テスト = df[df[ "fold" ] == fold].copy()
        model.fit(train[特徴], train[ "価格" ])
        ＃ 予測する
        ラベル = model.predict(テスト[特徴])
        test[ "predicted_price" ] = ラベル
        mse = 平均二乗誤差(テスト[ "価格" ], テスト[ "予測価格" ])
        rmse = mse**(1/2)
        fold_rmses.append(rmse)
戻り値(fold_rmses) 
 
 rmses = train_and_validate(正規化されたリスト、fold_ids)
平均rmse = np.mean(rmses)

エンジニアリングでは、ツールとリソースを最大限に活用する必要があります。 sklearn ライブラリには、一般的に使用される機械学習アルゴリズムの実装が含まれており、検証に直接使用できます。

 sklearn.model_selectionからcross_val_score、KFold をインポートします
kf = KFold(5, シャッフル= True , ランダム状態= 1)
モデル = KNeighborsRegressor()
 mses = cross_val_score(モデル、正規化されたリスト[機能]、正規化されたリスト[ "価格" ]、スコアリング= "負の平均二乗誤差" 、cv=kf)
 rmses = np.sqrt( np.absolute (mses))
平均rmse = np.mean(rmses)

クロス検証の結果により、特に小規模なデータセットでは信頼性が高まります。偶発的なエラーをある程度軽減できるからです。

クロス検証とハイパーパラメータ最適化を組み合わせると、通常、このデータセットでは knn アルゴリズムによって予測される最良の結果が得られます。

 # ハイパーパラメータの最適化
num_folds = [x が範囲(2,50,2)内の場合のx ]
 rmse_values = [] 
 
 num_foldsの折り畳みの場合:
    kf = KFold(fold、シャッフル= True 、ランダム状態= 1)
    モデル = KNeighborsRegressor()
    mses = cross_val_score(モデル、正規化されたリスト[機能]、正規化されたリスト[ "価格" ]、スコアリング= "負の平均二乗誤差" 、cv=kf)
    rmses = np.sqrt( np.absolute (mses))
    平均rmse = np.mean(rmses)
    std_rmse = np.std(rmses)
    rmse_values.append(平均rmse) 
     
 plt.plot(num_folds, rmse_values, c= 'r' , 線種= '-' , マーカー= '+' )