統計ソフトウェアStataを回帰分析に使用する方法

統計ソフトウェアStataを回帰分析に使用する方法

[[377047]]

[51CTO.com からのオリジナル記事] データマイニングと機械学習は、今日の社会では長い間、古典的かつ人気のあるテクノロジーとなっています。関連技術を導入し、社会に大きな利益をもたらしている企業は数多くあります。 Scikit-Learn、Pandas、R、Spark MLLib など、多くの人気のあるデータマイニング ソフトウェアがあり、実践者の日常的な開発とデータ分析作業を大幅に促進します。

オープンソースソフトウェアが普及している今日の世界では、従来の有料ソフトウェアは見過ごされがちです。しかし、Matlab、Mathematica、Maple、Stataなどの数学およびコンピュータソフトウェアは人々に大きな利便性を提供し、オープンソースソフトウェアにはない多くの機能を備えています。今日に至るまで、それらは依然としてあらゆる分野でかけがえのない役割を果たしています。

Stata は、30 年以上の歴史を持つ優れた統計学習ソフトウェアとして、統計学習のための強力なソリューションを提供します。現在のバージョンは 16.0 にアップデートされました。この記事では、Stata の概要を紹介し、回帰分析に Stata を使用する方法を紹介します。

まず、UCLA の学校評価データセットをダウンロードします。

  1. https://stats.idre.ucla.edu/stat/stata/webbooks/reg/elemapi を使用してください
  2. mkdir c:regstata  
  3. cd c:regstata  
  4. エレマピを保存 
  5. エレマピを使う

データセットを取得した後、回帰分析を実行する必要がある場合は、次のコマンドを実行するだけです。

  1. 回帰 api00 acs_k3 食事満腹  
  2.  
  3. 出典 | SS df MS観測= 313
  4. -------------+---------------------------------- F(3, 309) = 213.41  
  5. モデル | 2634884.26 3 878294.754 確率 > F = 0.0000
  6. 残差 | 1271713.21 309 4115.57673 R二乗 = 0.6745
  7. -------------+----------------------------------- 調整 R 二乗 = 0.6713  
  8. 合計 | 3906597.47 312 12521.1457 ルート MSE = 64.153
  9.  
  10. ----------------------------------------------------------------------------------------------  
  11. api00 | 係数標準誤差 t P>|t| [95% 信頼区間]
  12. -------------+----------------------------------------------------------------  
  13. acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614074
  14. 食事 | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
  15. フル| .1086104 .090719 1.20 0.232 -.0698947 .2871154
  16. _コンス | 906.7392 28.26505 32.08 0.000 851.1228 962.3555
  17. ----------------------------------------------------------------------------------------------  

新しい変数を予測する必要がある場合は、次のコマンドを実行します。

  1. 予測fv

モデルの残差を表示する必要がある場合は、次のコマンドを実行します。

  1. 将来価値、残差を予測する

Stata の最も魅力的な点は、基本的な回帰分析機能に加えて、独自の最適化パラメータ選択機能を提供していることです。Lasso 回帰や Ridge 回帰を計算する場合、最適化関数にペナルティ項があることはご存じのとおりです。ペナルティ項の前の係数をどのように選択するかは、数学界を何十年も悩ませてきた難しい問題であり、数年前まで解決されていませんでした。 Stata はこの点に関して 2 つのアルゴリズムを提供します。1 つはプラグイン メソッド、もう 1 つはクロス検証メソッドです。

Lasso 回帰のプラグイン メソッドを使用する場合は、以下を呼び出すだけです。

  1. lasso linear api00 acs_k3 食事フル、選択(プラグイン)

返された結果にはパラメータ値と残差が表示されます。

  1. --------------------------------------------------------------------------  
  2. | 
  3. |非ゼロサンプル
  4. ID | 説明 ラムダ係数 R 二乗 BIC
  5. ---------+----------------------------------------------------------------  
  6. * 1 | 選択されたラムダ .1715319 1 0.6610 3513.359
  7. --------------------------------------------------------------------------  

Lasso 回帰のクロス検証メソッドを使用する場合は、以下を呼び出すだけです。

  1. lasso linear api00 acs_k3 食事フル、選択(cv)

返される結果には次の表が含まれます。

  1. --------------------------------------------------------------------------  
  2. |       CV平均
  3. | 非ゼロサンプル予測
  4. ID | 説明 ラムダ係数 R二乗誤差
  5. ---------+----------------------------------------------------------------  
  6. 1 |最初のラムダ 91.43285 0 0.0017 12460.5
  7. 37 | ラムダ 3.210383 3 0.6667 4159.559
  8. * 38 | 選択されたラムダ 2.925181 3 0.6667 4159.504
  9. 39 | ラムダ2.665316 3 0.6666 4160.824
  10. 43 |最後のラムダ 1.837099 3 0.6657 4172.744
  11. --------------------------------------------------------------------------  

Lasso 回帰 + プラグイン法、Lasso 回帰 + クロス検証法、従来の OLS の結果が異なることがわかります。 Stataが提供するパラメータ選択法は近年の最新の研究成果であるため、RやScikit-Learnなどの無料のオープンソースソフトウェアではまだ適用されていません。これもStataの貴重な特徴です。

Stata は、さまざまな一般的なデータ分析およびデータ マイニング機能をサポートする便利なプログラミング インターフェイスを提供します。さらに、グラフィカル ユーザー インターフェイスも提供しており、ユーザーはボタンをクリックしたり、ドロップダウン ボックスを選択したりすることで、さまざまな操作を簡単に実行できます。 Stataは経済分野の定番ソフトウェアとして、インターネット企業をはじめとするIT企業からも注目されるはずです。

著者について

テクニカル ディレクター兼建築家の Wang Hao 氏は、ユタ大学で学士号/修士号を取得し、国際ビジネス経済大学で MBA を取得しています。 Baidu、Sina、NetEase、Doubanなどの企業で長年にわたり研究開発と技術管理に携わっており、機械学習、ビッグデータ、推奨システム、ソーシャルネットワーク分析などの技術に長けています。彼はTVCGやASONAMなどの国際会議やジャーナルに11本の論文を発表している。国際学術会議IEEE SMI 2008およびICBDT 2020で最優秀論文賞を受賞。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  ビッグデータは古い顧客を殺しています。消費者が権利を守るのは困難です。アルゴリズムの不公平な適用をどのように規制すべきでしょうか?

>>:  上海は質の高い農業の発展を推進:科学技術設備の改善と無人農場の建設

ブログ    
ブログ    

推薦する

自動運転車が保険業界に与える影響

自動運転車の急速な発展は、自動車業界や輸送業界を再定義するだけでなく、保険業界にも混乱をもたらすでし...

人工知能が教育評価の近代化に貢献

教育評価は、教育の質の継続的な向上を促進する「牛の鼻」として、確立された教育目標に基づき、一定の教育...

LinkedIn が Dagli をオープンソース化し、Java 機械学習ライブラリをリリース

近年では、大規模データ向けのTensorFlow、PyTorch、Caffee、CNTK、Spark...

信じられない! XiaoIceのデジタルツイン仮想人物は70日間ライブ放送されましたが、誰もそれが本物の人間ではないことに気づきませんでした

[[441368]]中国ビジネスニュースは70日間生放送されましたが、アンカーがデジタルツインの仮想...

...

調査によると、AIツールは企業の従業員が年間約400時間を節約するのに役立つことがわかった

7月10日、人材分析・計画会社Visierは、英国、米国、カナダ、ドイツの250社以上の企業の従業員...

JD X ロボティクス チャレンジが終了、BUPT チームのインテリジェント ロボットが優勝

3月25日、北京郵電大学のウォータードロップチームが優勝トロフィーを掲げ、JD X部門主催のJD 2...

人工知能の専門家:ディープラーニングは行き止まりではない

ディープラーニングは機械学習手法の一種であり、人工知能を実現するための重要な基盤です。最近、一部の学...

何も起こらないときは「自動運転」、何か起こったときは「運転支援」?

近年、スマートカーの事故が多発しており、事故の原因は主にいわゆる「自動運転」機能に関連しており、必然...

450、バックトラッキング アルゴリズムとは何ですか? 一度見れば理解できますが、実際に書いてみると失敗します。

バックトラッキングアルゴリズムとは何ですか? Baidu 百科事典では、バックトラッキング アルゴリ...

CV モデルが動作しないのはなぜですか?理由がこんなに単純だとは思いませんでした...

コンピューター ビジョン モデルのパフォーマンスが低下する理由は、アーキテクチャ設計上の欠陥、代表的...

機械学習は2021年にこれらの5つの業界を変革するだろう

機械学習は、COVID-19 によって揺さぶられた世界におけるスムーズな移行を可能にしています。機械...

...

AIの力を活用してITを進化させる

[[436560]]世界中の IT プロフェッショナルは、膨大なデータに圧倒され、本当に重要な洞察を...

銀行、金融、保険業界に革命をもたらす主要技術

不安定な市場環境、規制上のハードル、そしてBrexitは、好況時でも最も回復力のある企業にさえ課題を...