機械学習を使って株価を予測する非常に簡単な方法

機械学習を使って株価を予測する非常に簡単な方法

[[336572]]

この記事では、H2o.ai フレームワークを使用した機械学習を使用して R 言語で株価を予測する手順を段階的に説明しました。 このフレームワークは Python でも使用できますが、私は R に慣れているため、このチュートリアルでは R 言語を使用します。 「人工知能を使って株価を予測するにはどうしたらいいのだろう?」と疑問に思ったことがあるかもしれません。その手順は次のとおりです。

  • 情報を収集する
  • データのインポート
  • データのクリーニングと処理
  • テストとトレーニングの観察を分ける
  • モデルを選択
  • モデルのトレーニング
  • モデルをテストデータに適用する
  • 評価結果
  • 必要に応じてモデルを強化する
  • 結果に満足するまで、手順 5 から 10 を繰り返します。

前回の記事では、Plotly ライブラリを使用して高頻度データをプロットする方法を示し、分析のためにデータを収集する方法を説明しました。 リストのステップ 3 に直接進みましょう。ステップ 1 と 2 の実行方法を知りたい場合は、前の出版物を参照してください。

私たちの研究の質問は、「今後 1 時間の資産の終値はいくらになるか」です。

データクリーニング

MetaTrader を使用して予測する資産のデータをインポートした後、いくつかの変数を変更する必要があります。 まず、変数の名前を定義します。

  1. #名前の設定 変数
  2.  
  3. col_names <- c( "日付" "始値" "高値" "安値" "終値" "ティック" "出来高" )
  4.  
  5. colnames(データ) <- col_nameshead(データ)

データは次の形式になります:

> データ — 著者による画像

利用可能な変数のうち、始値、高値、安値、終値、およびボリュームのみを使用します。 このようにして、他者を排除します。

  1. data$日付<- NULL  
  2.  
  3. データ$ティック <- NULL  

次の観測値の終値を知りたいので、次の値を1行上に移動する必要があります。 これを行うには、関数を作成し、元のデータセットに新しいデータを含む変数を作成します。

  1. # 指定された変数nを上にシフトするshift <- function (x, n) { c(x[-(seq(n))], rep(NA, n))}data$shifted <- shift(data$ Close , 1)tail(data)

> データ — 著者による画像

上記の最初の行で変数 Close の値を割り当てたことに注意してください。 この方法では、最後の行に NA があり、na.omit() 関数を使用してその行を省略します。

  1. #NA 観測データを削除 <- na.omit(data)write.csv(data, "data.csv" )

完璧です。モデリングを開始するためのデータが準備できました。

データの分割

この問題では、人工知能モデルを分析およびトレーニングするための完全なソリューションを提供する H2O.ai というソフトウェア パッケージを使用します。 ユーザーフレンドリーな構造により、データサイエンスの知識がない人でも複雑な問題を解決できます。 まずライブラリを環境にロードしましょう:

  1. #パッケージのインストールinstall.packages( "h2o" )#ライブラリの読み込み library(h2o)

インストールしてロードしたら、モデルを構築するための基盤として使用される仮想マシンを起動します。 仮想マシンを起動するときに、必要なコア数とメモリ パラメータを設定する必要があります。

  1. #すべてのスレッド (-1)16 GBメモリを使用して仮想マシンを初期化しますh2o.init(nthreads = -1, max_mem_size = "16g" )

データをインポート:

  1. h2o.importFile( "data.csv" )h2o.describe(データ)

> データを水に変える — 著者による画像

ここで、データセット内で予測する変数と、モデルを「教える」ために使用される変数を定義します。

  1. y <- "shifted" #予測たい変数x <- setdiff(names(data), y)

次に、トレーニング データの 80% の比率でデータをトレーニングとテストに分割します。

  1. パーツ <- h2o.splitFrame(データ、.80) トレーニング <- パーツ[[1]] テスト <- パーツ[[2]]

データをセグメント化した後、H2O.ai パッケージの驚くべき部分に進みます。

モデルを選択

すべてのデータ サイエンティストが機械学習プロジェクトを作成するときに実行する必要があるタスクの 1 つは、予測を行うための最適なモデルまたはモデル セットを決定することです。 特定のタスクに最適なものを選択するには、多くの知識、特に数学の確固たる基礎が必要です。

H2O.ai パッケージを使用すると、他の懸念事項にも対処しながら、最適なモデルを選択するように要求できます。 これを自動モデリングと呼びます。 明らかに、この種の魔法は問題を解決する最も効率的な方法ではないかもしれませんが、良いスタートです。

モデルのトレーニング

モデルを作成するには、automl 関数を呼び出して、次のように必要なパラメータを渡します。

  1. オートモデル <- h2o.automl(x, y, トレーニング, テスト, max_runtime_secs=120)

数分後には、パフォーマンス別に分類されたモデルのリストが表示されます。 詳細については、下記までお電話ください。

オートモデル@リーダー

> モデルの説明 — 著者による画像

アプリケーションモデル

リーダーができたので、それをテスト データに適用してみましょう。モデルがまだ観測していないデータを使用してパフォーマンスを評価するので、ここが面白いところです。

モデルとテスト データを引数として、予測関数を呼び出します。

  1. 予測 <- h2o.predict(automodel@leader, test)

結論は

この記事では、資産の財務データを処理および操作し、データを分析してから 1 時間以内に終値を予測する機械学習モデルを簡単に作成する方法を説明しました。

モデルの評価と最適化については次の記事で説明します。

ではまた来週!

<<:  AIの力を借りれば、罠だらけのジムは歴史の舞台から消えるのでしょうか?

>>:  スマートワーク: AI がリモートワークをどう変えるのか

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能「トレーナー」がAIをより賢くする

「人工知能は子供のようなものです。継続的なトレーニング、調整、育成を通じて、その「IQ」はますます高...

機械学習の特徴選択のためのPythonツール

[[392070]]特徴選択は、データセット内で最も有用な特徴を見つけて選択するプロセスであり、機械...

機械学習はデータセキュリティに対する新たな脅威や裏口となるのでしょうか?

機械学習アルゴリズムは重要なサイバーセキュリティ技術となり、現在は主にマルウェアの特定、セキュリティ...

Google、少ないパラメータでテキスト分類を行う新モデル「pQRNN」を発表、BERTに匹敵する性能

最近、Googleは、昨年発表した「PRADO」をさらに改良した小型モデルでSOTA結果を達成した新...

動作計画のための探索アルゴリズム: フロントエンド計画、バックエンド軌道生成から状態解まで

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

DALL·E 3=旅の途中+PS? OpenAIは、生画像の後に改良できる「シード」機能をひっそりとリリースした。

今日、DALL·E 3 のチュートリアルがオンラインで話題となり、1 日も経たないうちに 100 万...

欧州の新しいAI法は倫理監査を強化する

EU があらゆる業界での AI および機械学習技術の使用を効果的に規制する AI 法の施行に向けて...

...

...

調査レポート:世界のテクノロジー支出は2024年に5.3%増加して4.7兆ドルに達する

調査によると、2024年の世界のテクノロジー市場では期待できる出来事がたくさんあることが分かっていま...

会話型 AI は FMCG 業界でどのように導入されていますか?

今日、ますます多くの消費財 (CPG) 企業が、日用消費財 (FMCG) 事業に AI テクノロジー...

2019年の中国人工知能産業の競争環境の分析

近年、人工知能の技術と応用は成熟を続けており、人工知能市場の規模は徐々に拡大しています。中国情報通信...

ディープラーニング:先入観、限界、そして未来

ブログのタイトルに使うには奇妙な言葉だとは思いますが、先日、私が今考えている疑問のいくつかにまさに当...

開発に重点を置き、革新を追求します。 LeaTech Global CTO Leadership Summit が始まりました!

[51CTO.comより]デジタル経済時代の到来が加速し、「第14次5カ年計画」が発表されるにつれ...

最高速度:250fps!リアルタイムの高性能車線検出アルゴリズムLaneATT

CVPR 2021 車線検出論文: 車線から目を離さない: リアルタイムの注意誘導型車線検出。紙:...