私は長年、学界と産業界の両方で機械学習モデリングに取り組んできましたが、Scalable ML で「ビッグデータ」の実用性について議論する優れたビデオ シリーズを視聴した後、機械学習を学ぶ際にもっと早く理解しておけばよかったと思う点について考え始めました。このビデオは Mikio Braun によるもので、Scala と Spark に関連する知識を紹介しています。 機械学習を学ぶ際に、もっと早く理解しておけばよかったと思うことが 3 つあります。 モデルを製品に適用することは簡単なことではありません。 実際の特徴選択や特徴抽出の手法を教科書で学ぶのは困難です。 モデル評価フェーズは非常に重要です。 一つずつ紹介していきましょう。 1. モデルを製品に適用するのは簡単なことではない 私は Data-Product で、常微分方程式を積に適用する方法について講演しました。モデルの劣化、製品内モデル評価、開発と運用間のコミュニケーションを自分一人で処理することがいかに難しいかに気づくまでには、しばらく時間がかかりました。 Yhat の ScienceOps はこの問題の解決策です。最初はその素晴らしさに気づきませんでしたが、今では市場でこの製品の直接的な競合製品を見つけるのが難しいので、彼らが非常に重要な問題を解決していると感じています。徐々に、私は運用チームが担当する業務を処理できるほど賢くないことに気づき、喜んでこの作業をアウトソーシングすることにしました。 2. 教科書で実際の特徴選択や特徴抽出の手法を学ぶのは難しい 特徴の選択と抽出の方法やテクニックは、教科書からは学べないことがよくあります。これらのテクニックは、Kaggle などのコンテストや実際のプロジェクトからのみ学ぶことができ、場合によっては、これらのテクニックやメソッドを実際に適用して学ぶ必要があります。これらのタスクは、データ サイエンス プロジェクト プロセス全体のかなりの割合を占めます。 3. モデル評価段階は非常に重要 モデルをテスト セット データに適用するまで、予測分析フェーズに入ったとは言えません。クロス検証、評価メトリックなどの評価手法は、データをテスト セットとトレーニング セットに単純に分割するため、非常に貴重です。しかし、現実世界では通常、定義されたテスト セットとトレーニング セットを含むデータは提供されないため、現実世界のデータをテスト データとトレーニング データに分割することは、多くの感情的要素が関与する創造的な作業です。 Dato にはモデル評価について議論する優れた記事が多数あります。 Mikio Braun によるトレーニング セットとテスト セットの説明は読む価値があると思います。彼が描いた図も気に入っており、トレーニング セットとテスト セットの概念に詳しくない読者のために記事に含めました。 論文や会議、さらには問題を解決するために使用する方法について議論するときでさえ、モデル評価が軽視されることがよくあります。 「SVM を使用しました」では何もわかりません。データの取得元、選択した機能、モデルの評価方法、それを本番環境に導入する方法、クロス検証やモデルのトラブルシューティングをどのように使用したかはわかりません。機械学習のこうした「汚い」側面について、もっと議論する必要があると思います。 私の友人のイアンは、現実世界の状況に合わせて機械学習モデルを構築する必要のあるあらゆるレベルの人に適した、Data Science Delivered に関する優れたノートブックを持っています。また、データ サイエンティストの採用を検討している採用担当者や、データ サイエンス チームで働いているマネージャーにとっても、「大量の汚れたデータをどのように処理しますか?」と尋ねられる相手を探している人にとっても、素晴らしい読み物です。 |
<<: 今後3年間で、人工知能は銀行と顧客とのコミュニケーションの主な手段となるだろう
>>: Sparkに代わると期待されるリアルタイム機械学習フレームワークRay
一瞬のうちに、ロボットは魔法を使うことを覚えたのでしょうか?まず、テーブルの上の水のスプーンを手に取...
機械学習と AI タスクの実行方法や環境内でのデータの収集方法に応じて、組織はどの AI ストレージ...
[[279594]]データとマイニングという言葉を組み合わせると、IT とテクノロジーが連携して企...
AI はこれまでに開発された最も強力なテクノロジーの 1 つですが、すでに 4 回の進化を経ています...
偽造品、アルゴリズムの偏り、その他の問題が私たちの日常生活に及ぼす影響[[323166]]過去数年間...
動的プログラミング基本的に、それは次のことを意味します。女の子を追いかけるときは、彼女の親しい友達全...
CLIP は最も人気のあるビジュアル ベース モデルであり、その適用シナリオには以下が含まれますが、...
ワイヤレス ルーターは、ワイヤレス ネットワークの開発において非常に重要な役割を果たします。ここでは...
【51CTO.com クイック翻訳】自然言語処理 (NLP) は、コンピューターが人間の自然な言語を...
ボストン・ダイナミクスの創業者マーク・レイバート氏は、スポットロボット犬は将来「家庭で使用できるよう...