「データマイニングのアルゴリズムは、線形代数、確率論、情報理論に基づいています。それらを深く掘り下げていくと非常に興味深いです。数学者、統計学者、コンピュータ科学者の知恵を理解することができます。このコラムでは、比較的単純な一般的なアルゴリズムから始めて、TensorFlow に基づく高度なアルゴリズムを学習します。顔認識や NLP の実際のプロジェクトに参加して、一定の成果を達成できれば最高です。」 1. 線形回帰モデルの理解まず、回帰モデルについてお話ししましょう。回帰モデルは、従属変数 (ターゲット) と独立変数 (予測子) の関係を調査します。従属変数は連続または離散です。離散の場合は、分類問題になります。住宅価格予測モデルについて考えると、家の大きさ、間取り、立地、南北の通風などの独立変数に基づいて、家の販売価格を予測することができます。これは最も単純な回帰モデルです。中学校では、回帰式は一般的に次のように書かれます。ここで、x は独立変数、y は従属変数、w は特徴行列、b はバイアスです。 機械学習の導出に線形代数の考え方を導入し、休日予測モデルを記述する式を使用すると仮定します。x は家の特徴セットを表し、n×1 列ベクトルです。合計 m 個の特徴セットがあります。θ は n×1 列ベクトルで、取得したい未知数です。 私たちは、誤差を最小化する戦略を採用しています。たとえば、予測式があります:ysalary=Θ1*学歴+Θ2*職務経験+Θ3*技術能力+.......+Θn*x+基本給。予測されたy値と実際の値y_の間にはギャップがあります。戦略関数は、m個の特徴セットの(実際の値y-予測値)の二乗の合計を最小化することです。 (差は負になる可能性があるため、二乗和が使用されます) 正規方程式を解く方法に従って、θ の偏微分を求めます。 つまり、特徴行列 X と従属変数 y が与えられれば、エラー率を最小化し、後続の回帰モデルを満たす θ の値を見つけることができます。線形代数を知っている人なら、この問題が分かるでしょう。θ の式には逆行列演算があり、行列が逆行列であることが必要ですが、これは通常保証できません。これにより、θ に解がなくなり、戦略は失敗します。 2. コンピュータの仕組み: 勾配降下法 従来の方程式では、多数の行列演算、特に逆行列演算が必要であり、行列が非常に大きい場合には計算の複雑さが大幅に増加します。 、正規方程式法は行列の偏微分に対して一定の制限があります(行列が可逆であることを保証できません)。次に、コンピューターソリューションである勾配降下法を紹介します。毎回小さなステップを踏み、この小さなステップが最も効果的なステップであることを確認します。山を下っていることを想像してください。目的地(グローバル最小値)がどこにあるかはわかりませんが、毎回最も急なステップを踏むことを保証できます。 私たちの戦略は同じままで、m 個の特徴セットの (真の値 y-予測値) の二乗の合計を最小化することです。 勾配降下法の実装: 初期 θ 値を割り当て、式に従って θ を徐々に更新して J(θ) が減少し続け、最終的に収束し、対応するパラメータ θ が解になります。導出の便宜上、まずはトレーニングサンプルが 1 つしかない場合に導出式を計算する方法を検討します。 θ の各成分の更新式は次のとおりです。 m 個のトレーニング データに拡張すると、パラメーター更新式は次のようになります。 3. ロジスティック回帰モデルロジスティック回帰と線形回帰はどちらも一般化線形モデルに属します。ロジスティック回帰は線形回帰の理論に基づいており、バイナリ分類モデルです。また、複数の分類問題に一般化することもできます。非線形因子はシグモイド関数を通じて導入されるため、0/1分類問題を簡単に処理できます。まず、シグモイド関数を紹介します。 シグモイド関数のグラフは、[0, 1]の間の値を持つS字曲線です。値が0から遠い場合、関数値は急速に0または1に近づきます。シグモイド関数の微分特性は次のとおりです。 ロジスティック回帰の予測関数は以下のとおりです。これは、特徴から結果へのマッピングに関数マッピングのレイヤーを追加するだけです。最初に特徴が線形に合計され、次に関数 g(z) を使用して仮説関数が予測されます。 g(z)は0から1の間の連続値をマッピングできます。 尤度関数を求め、両辺の対数を取ることで、θ の偏微分を求めることができます。 このようにして、勾配上昇の各反復の更新方向が得られるので、θ の反復式は次のようになります。 線形回帰モデルが同じ式になっているのは単なる偶然ではありません。両者の間には深いつながりがあります。 IV. 回帰モデルの使用データは、2014 年 5 月から 2015 年 5 月までの米国キング郡の住宅販売価格と住宅基本情報です。データはトレーニング データとテスト データに分かれており、それぞれ kc_train.csv と kc_test.csv の 2 つのファイルに保存されます。トレーニング データには主に 10,000 件のレコードと 14 のフィールド (販売日、販売価格、寝室数、浴室数、住宅面積、駐車場面積、階数、住宅スコア、建築面積、地下室面積、建築年、修繕年、緯度、経度) が含まれます。 データセットのアドレス: https://github.com/yezonggang/house_price、モデル構築を完了するには次のプロセスに従います。
この記事はWeChatのパブリックアカウント「データ社会」から転載したものです。下のQRコードからフォローできます。この記事を転載する場合は、Data Society 公式アカウントまでご連絡ください。 |
>>: 機械学習は数字を数え、マウスをクリックしてモデルをトレーニングし、残りはコンピューターに任せます
[51CTO.com クイック翻訳] データサイエンスに対する人々の関心は過去 5 年間で大幅に高ま...
量子コンピューティングは、学術誌だけでなく、一般の新聞や雑誌でも頻繁に議論される、非常に人気の高いト...
2022年秋、OpenAIがChatGPTをリリースした後、わずか数か月で数千万人のユーザーを獲得し...
同国の「第14次5カ年計画」では、「人工知能」を重要なブレークスルーを必要とする最先端科学技術分野の...
2000年から10年間の発展を経て、中国のPC時代のインターネットは「交通経済」を生み出しました。...
[[195952]] 1. ディープラーニングディープラーニングといえば、一度でも触れたことがある人...
人工知能は人類史上最も革命的な技術の一つとなるでしょう。 AI テクノロジーが発展するにつれて、どの...
5月5日、教育部が主催する第3回全国基礎教育情報化応用展示会・交流活動において、北京市朝陽区で人工...
教師のアシスタントとして、また生徒のガイドとして、教育における人工知能は教育業界全体を変革することが...
編集者注: 日々の仕事や研究において、データ サイエンティストが遭遇する最も一般的な問題の 1 つは...
[[201203]] 1. Keras を使用する理由ディープラーニングが大人気の昨今、サードパーテ...
[[422086]]過去数年間で、Transformer は NLP 分野全体をほぼ支配し、コンピ...