1. はじめに生成 AI は間違いなくゲームを変えるテクノロジーですが、ほとんどのビジネス上の問題では、回帰や分類などの従来の機械学習モデルが依然として第一の選択肢となっています。 プライベートエクイティやベンチャーキャピタルなどの投資家が機械学習をどのように活用できるか想像してみてください。このような質問に答えるには、まず投資家が重視するデータとその使用方法を理解する必要があります。企業への投資の決定は、支出、成長、バーンレートなどの定量化可能なデータだけでなく、創業者の実績、顧客のフィードバック、製品体験などの定性的なデータにも基づいて行われます。 この記事では線形回帰の基礎について説明します。完全なコードはここにあります。 [コード]: https://github.com/RoyiHD/linear-regression 2. プロジェクトのセットアップこの記事では、このプロジェクトに Jupyter Notebook を使用します。まず、いくつかのライブラリをインポートします。 ライブラリのインポート
3. データ問題を単純化するために、この記事では地域データを使用します。これらの数字は、会社の支出カテゴリと利益を表しています。さまざまなデータ ポイントの例をいくつか見ることができます。この記事では、支出データを使用して線形回帰モデルをトレーニングし、利益を予測したいと考えています。 この記事で使用されるデータは、1 つの企業の支出について記述したものであることを理解することが重要です。意味のある予測力は、支出データを収益の伸び、地方税、償却、市場状況などのデータと組み合わせた場合にのみ得られます。
データの読み込み中
4. データの視覚化データを理解することは、どの機能を使用するか、どの機能を正規化および変換する必要があるか、データから外れ値を除去するか、特定のデータ ポイントに対してどのような処理を実行するかを決定するために重要です。 目標(利益)ヒストグラム DataFrame を使用してヒストグラムを直接プロットできます (Pandas は Matplotlib を使用して DataFrame をプロットします)。また、利益に直接アクセスしてプロットすることもできます。 写真 ご覧のとおり、利益が 200,000 ドルを超える外れ値はほとんどありません。このことから、この記事のデータはある程度の規模の企業を表しているとも推測できます。外れ値の数は比較的少ないため、そのまま保持できます。 機能(支出)ヒストグラムここでは、使用された特徴のヒストグラムを確認し、その分布を確認します。 Y 軸は数字の頻度を表し、X 軸は支出を表します。 写真 また、外れ値がわずかしかない健全な分布になっていることもわかります。直感的に、研究開発とマーケティングに多くの費用を費やす企業は、より収益性が高いと予想されます。下の散布図からわかるように、研究開発費と利益の間には明確な相関関係があります。 写真 支出と利益の相関関係は、相関ヒートマップを通じてさらに詳しく調べることができます。図からわかるように、研究開発費とマーケティング費は管理費よりも利益との相関性が高いです。 写真 5. モデルのトレーニングまず、データセットをトレーニング セットとテスト セットの 2 つの部分に分割する必要があります。 Sklearn は、このタスクを実行するためのヘルパー メソッドを提供します。データセットはシンプルで十分に小さいため、次の方法で特徴とターゲットを分離できます。 データセット
ほとんどのデータ サイエンティストは、X_train、y_train などの異なる命名規則、または他の同様のバリエーションを使用します。
次に、モデルを作成してトレーニングします。 Sklearn は物事を非常にシンプルにします。 6. モデル評価この論文では、モデルのパフォーマンスとその有用性を評価することを目的としています。まず、計算された係数を見てみましょう。機械学習では、係数は各特徴に掛けられる学習された重みまたは値です。各機能の学習係数が表示されることが期待されます。 上記のように、係数は 3 つあり、それぞれ特性(「研究開発費」、「管理費」、「マーケティング費」)に 1 つずつあります。各係数を視覚的に理解しやすくするために、グラフとしてプロットすることもできます。 写真 計算エラーこの記事では、モデルのエラー率を理解することを目的とし、Sklearn の R2 スコアを使用します。 1 に近いほど、モデルの精度が高くなります。これは実際には非常に簡単な方法でテストできます。 データセットの最初の行を取得できます。以下の支出モデルを使用して利益を予測すると、192,261 ドルに十分近い数字が得られることが予想されます。 次に、推論リクエストを作成します。 モデルを実行します。 ここで、エラー率は abs(199739-192261)/192261=0.0388 であることがわかります。これは非常に正確です。 7. 結論データを処理し、モデルを構築し、データを分析する方法は多数あります。すべての状況に当てはまる単一のソリューションは存在しません。機械学習を使用してビジネス上の問題を解決する際の重要なプロセスの 1 つは、同じ問題を解決するように設計された複数のモデルを構築し、最も有望なものを選択することです。 |
[[419256]] [51CTO.com クイック翻訳]信頼の設計、成長の加速、変化の形成は、ガー...
対称暗号化アルゴリズムはどのようにして ASP.NET データ暗号化を実装するのでしょうか?それでは...
[[204963]]この記事は、著者 @Daniel Martinez (https://twitt...
[[226435]]人工知能は、交通、金融、教育など、考えられるほぼすべての分野に革命をもたらして...
[51CTO.com クイック翻訳] 世界経済フォーラムは毎年、世界中のテクノロジーの先駆者について...
クラウド コンピューティング 機械学習プラットフォームは、機械学習のライフ サイクル全体をサポートす...
GPT-4に次ぐ、李開復のYi-34B-Chatの最新成果が発表されました——アルパカ認定モデル部門...
昨今、室温超伝導の再現に対する世界的な熱気は衰えを知らず、さまざまな有力者が自らの見解を表明している...
[[346111]]序文再帰は非常に重要なアルゴリズムの考え方です。フロントエンド開発者であっても、...
「人工知能の将来性は明るいが、財務見通しは良くない」「2018年は人工知能に進歩がなかった」「201...
1. PIDの紹介モーター制御この方法ではフィードバックはありません。つまり、入力数値を完全に信じて...
[51CTO.comより引用] 2017年12月1日~2日、51CTO主催のWOTDグローバルソフト...