機械学習を学ぶ際に早い段階で知っておくべき3つのこと

機械学習を学ぶ際に早い段階で知っておくべき3つのこと

私は長年、学界と産業界の両方で機械学習モデリングに取り組んできましたが、Scalable ML で「ビッグデータ」の実用性について議論する優れたビデオ シリーズを視聴した後、機械学習を学ぶ際にもっと早く理解しておけばよかったと思う点について考え始めました。このビデオは Mikio Braun によるもので、Scala と Spark に関連する知識を紹介しています。

機械学習を学ぶ際に、もっと早く理解しておけばよかったと思うことが 3 つあります。

モデルを製品に適用することは簡単なことではありません。

実際の特徴選択や特徴抽出の手法を教科書で学ぶのは困難です。

モデル評価フェーズは非常に重要です。

一つずつ紹介していきましょう。

1. モデルを製品に適用するのは簡単なことではない

私は Data-Product で、常微分方程式を積に適用する方法について講演しました。モデルの劣化、製品内モデル評価、開発と運用間のコミュニケーションを自分一人で処理することがいかに難しいかに気づくまでには、しばらく時間がかかりました。 Yhat の ScienceOps はこの問題の解決策です。最初はその素晴らしさに気づきませんでしたが、今では市場でこの製品の直接的な競合製品を見つけるのが難しいので、彼らが非常に重要な問題を解決していると感じています。徐々に、私は運用チームが担当する業務を処理できるほど賢くないことに気づき、喜んでこの作業をアウトソーシングすることにしました。

2. 教科書で実際の特徴選択や特徴抽出の手法を学ぶのは難しい

特徴の選択と抽出の方法やテクニックは、教科書からは学べないことがよくあります。これらのテクニックは、Kaggle などのコンテストや実際のプロジェクトからのみ学ぶことができ、場合によっては、これらのテクニックやメソッドを実際に適用して学ぶ必要があります。これらのタスクは、データ サイエンス プロジェクト プロセス全体のかなりの割合を占めます。

3. モデル評価段階は非常に重要

モデルをテスト セット データに適用するまで、予測分析フェーズに入ったとは言えません。クロス検証、評価メトリックなどの評価手法は、データをテスト セットとトレーニング セットに単純に分割するため、非常に貴重です。しかし、現実世界では通常、定義されたテスト セットとトレーニング セットを含むデータは提供されないため、現実世界のデータをテスト データとトレーニング データに分割することは、多くの感情的要素が関与する創造的な作業です。 Dato にはモデル評価について議論する優れた記事が多数あります。

Mikio Braun によるトレーニング セットとテスト セットの説明は読む価値があると思います。彼が描いた図も気に入っており、トレーニング セットとテスト セットの概念に詳しくない読者のために記事に含めました。

論文や会議、さらには問題を解決するために使用する方法について議論するときでさえ、モデル評価が軽視されることがよくあります。 「SVM を使用しました」では何もわかりません。データの取得元、選択した機能、モデルの評価方法、それを本番環境に導入する方法、クロス検証やモデルのトラブルシューティングをどのように使用したかはわかりません。機械学習のこうした「汚い」側面について、もっと議論する必要があると思います。

私の友人のイアンは、現実世界の状況に合わせて機械学習モデルを構築する必要のあるあらゆるレベルの人に適した、Data Science Delivered に関する優れたノートブックを持っています。また、データ サイエンティストの採用を検討している採用担当者や、データ サイエンス チームで働いているマネージャーにとっても、「大量の汚れたデータをどのように処理しますか?」と尋ねられる相手を探している人にとっても、素晴らしい読み物です。

<<:  今後3年間で、人工知能は銀行と顧客とのコミュニケーションの主な手段となるだろう

>>:  Sparkに代わると期待されるリアルタイム機械学習フレームワークRay

推薦する

中国の人工知能はどれほど強力か?将来ロボットが手術を行えるようになるか?外国人は信じられないと言う

写真は人工知能中国の人工知能はどれほど強力か?将来ロボットが手術を行えるようになるか?多くの中国人は...

...

Java ソートアルゴリズムの概要 (VII): クイックソート

クイックソートはバブルソートの改良版です。その基本的な考え方は、ソート パスを通じて、ソートするデー...

...

将来、人工知能に最も影響を受ける5つの業界!

人工知能の概念はますます普及しています。急速に発展する人工知能にとって、チェスの世界を席巻することは...

App Storeが検索アルゴリズムを大幅に変更:名前よりも人気に重点を置く

アメリカのテクノロジーブログ「TechCrunch」の主要寄稿者であるMG Siegler氏によると...

教育におけるAIの役割: AIが学習方法をどのように変えるか

教育分野では、人工知能(AI)の適応性が大きな注目を集めています。学習者、教育者、政策立案者はいずれ...

2021年に注目すべき5つのロボットトレンド

[[388526]]画像ソース: https://pixabay.com/images/id-520...

図解機械学習: 誰でも理解できるアルゴリズムの原理

機械学習の話題は誰もが話題にするほど普及していますが、それを完全に理解している人はほとんどいません。...

...

2024年の人工知能の6つの主要な発展トレンド

テクノロジーが支配する急速に進化する世界では、人間の創造性と人工知能 (AI) の魅力的な融合が中心...

次世代のサイバー脅威はAIから生まれる

ボストン コンサルティング グループ (BCG) によると、米国と日本のサイバーセキュリティ専門家の...

OpenAI の新しい論文が GAN を破り SOTA に到達!この圧倒的な拡散モデルは単なる仕掛けなのか、それとも本物なのか?

最近またFaceAPPが人気になってきているので、編集者もダウンロードして試してみました。大丈夫です...

Mac専用の大型モデルフレームワークが登場! 2行のコードでデプロイでき、ローカルデータとチャットでき、中国語もサポートしています

Mac ユーザーは、ついに、RTX を使用した独自の大型モデル チャットを持つ N カード プレーヤ...