人工知能プロジェクトのための 10 のヒント - ガイド

昨日の人工知能プロジェクトに関する 10 の提案 - 理論に続き、今日は人工知能プロジェクトの 10 の指針についてお話します。

AI プロジェクトを計画する際には、モデル構築の目標を特定することが重要ですが、この理解があって初めて成功するソリューションが得られます。適切な推奨事項を真に実現するには、AI プロジェクトチームはプロジェクトを実行する際にベストプラクティスの実装パスに従う必要があります。正しい道をたどるために、先ほど示した 10 の提案の実行パスについて説明しましょう。

1. 問題を理解する

あらゆる問題を解決する上で最も基本的な部分は、解決しようとしている問題が何であるかを正確に知ることです。何を期待しているのか、制限事項はあるのか、そしてプロジェクトの最終的な目的は何なのかを必ず理解してください。早めに質問し、同僚、ビジネスエキスパート、エンドユーザーと理解を検証します。答えがあなたの理解と一致していれば、あなたは正しい方向に進んでいると分かります。

2. データを知る

データの意味を理解することで、どのモデルが適切に機能し、どの機能を使用すればよいかを理解できるようになります。データの背後にある問題はどのモデルが最も成功するかに影響し、計算時間はプロジェクトのコストに影響します。意味のある機能を使用および作成することで、人間の意思決定を模倣したり改善したりすることができます。各フィールドの意味を知ることは、特にデータを匿名化する必要があり、したがって明確さが劣る可能性がある規制産業においては、問題解決にとって重要です。機能の意味がわからない場合は、ビジネスの専門家に相談してください。

3. データを分割またはクリーンアップする

モデルは未知のデータに対してどのように機能するでしょうか? 新しいデータに一般化できない場合、特定のデータに対するパフォーマンスは最も重要なことではありません。トレーニング中はモデルにデータの一部を見せないようにするため、未知の状況でモデルがどのように機能するかを検証できます。このアプローチは、適切なモデルアーキテクチャを選択し、最適なパフォーマンスを得るためにパラメータを調整するために重要です。

教師あり学習の問題の場合、データを 2 つまたは 3 つの部分に分割する必要があります。

トレーニングデータ (モデルの学習元となるデータ) は通常、元のデータの 75 ～ 80% がランダムに選択されます。

テストデータ (モデルを評価するデータ) が残りのデータです。

構築するモデルの種類によっては、検証セットと呼ばれる 3 番目のホールドアウトデータセットも必要になる場合があります。これは、テストデータで調整された複数の教師あり学習モデルを比較するために使用されます。この場合、非トレーニングデータをテストと検証の 2 つのデータセットに分割する必要があります。テストデータを使用して同じモデルの反復を比較し、検証データを使用して異なるモデルの最終バージョンを比較します。

Python でデータを正しく分割する最も簡単な方法は、Scikit-learn の train_test_split 関数を使用することです。

4. テストデータを漏らさない

テストデータの情報をモデルに入力しないことが重要です。これは、データセット全体のトレーニングに悪影響を及ぼす可能性があります。また、分割する前に変換 (スケーリングなど) を実行するのと同じくらい微妙な影響を与える可能性があります。たとえば、分割する前にデータを正規化する場合、グローバル最小値または最大値が保持されたデータ内に存在する可能性があるため、モデルはテストデータセットに関する情報を取得します。

5. 適切な評価指標を使用する

問題はそれぞれ異なるため、状況に応じて適切な評価方法を選択する必要があります。最も単純な、そして潜在的に最も危険な分類基準は、精度です。がんの検出の問題について考えてみましょう。適度に正確なモデルが必要な場合は、常に「がんではない」と予測することになります。なぜなら、99% 以上の確率で正しいからです。しかし、実際に癌を検出したい場合、これはあまり有用なモデルではありません。分類と回帰の問題にどの評価メトリックを使用するかを慎重に検討してください。

6. シンプルに

問題に取り組むときは、最も複雑なモデルではなく、仕事に適したソリューションを選択することが重要です。経営陣、顧客、そしてあなた自身も、「最新かつ最高」のものを使いたいと思うかもしれません。ニーズを満たす最も単純な（最も高度なものではない）モデル、つまりオッカムの剃刀の原理を使用する必要があります。これにより、可視性が向上し、トレーニング時間が短縮されるだけでなく、実際にパフォーマンスが向上します。つまり、バズーカ砲でハエを撃ったり、ハエたたきでゴジラを殺そうとしたりしないでください。

7. モデルを過剰適合（または不足適合）させない

過剰適合 (または不足分散) により、モデルは目に見えないデータに対してパフォーマンスが低下します。モデルはトレーニングデータを単純に記憶します。アンダーフィッティング (バイアスとも呼ばれる) とは、モデルに与えられる情報が少なすぎて、問題の正しい表現を学習できない状態を指します。この 2 つのバランスを取ること (「バイアスと分散のトレードオフ」と呼ばれることが多い) は AI プロセスの重要な部分であり、問題が異なれば必要なバランスも異なります。

簡単な画像分類器を例に挙げてみましょう。そのタスクは、画像内に犬がいるかどうかを分類することです。このモデルを過剰適合すると、その画像を以前に見たことがない限り、その画像を犬として認識できなくなります。モデルの適合度が低すぎると、以前に特定の画像を見たことがある場合でも、その画像を犬として認識できない可能性があります。

8. さまざまなモデルアーキテクチャを試す

ほとんどの場合、問題に対してさまざまなモデルアーキテクチャを検討することが有益です。ある問題に対して最も効果的な方法が、別の問題に対しては必ずしも最適とは限りません。単純なアルゴリズムと複雑なアルゴリズムを組み合わせて使用してみてください。たとえば、分類モデルを実行する場合は、ランダムフォレストのような単純なものからニューラルネットワークのような複雑なものまで試してください。興味深いことに、Extreme Gradient Boosting (XGBoost) は、ニューラルネットワーク分類器よりも大幅に優れたパフォーマンスを発揮することがよくあります。単純な問題は、単純なモデルで解決するのが最も効果的であることが多いです。

9. ハイパーパラメータを調整する

ハイパーパラメータは、モデルの計算に使用される値です。たとえば、決定木のハイパーパラメータの 1 つは、ツリーの深さ、つまり答えを決定する前に何回質問するかです。モデルのデフォルトのハイパーパラメータは、平均して最高のパフォーマンスを提供するものです。しかし、あなたのモデルがまさにそのスイートスポットに当てはまる可能性は低いでしょう。異なるパラメータを選択すると、モデルのパフォーマンスが向上します。ハイパーパラメータを調整するための最も一般的な方法は、グリッド検索、ランダム検索、ベイズ最適化検索ですが、他にも多くの高度な手法があります。

10. モデルを正しく比較する

機械学習の最終的な目標は、適切に一般化できるモデルを開発することです。だからこそ、正しく比較して最適なモデルを選択することが非常に重要です。前述のように、評価にはハイパーパラメータのトレーニングに使用したホールドアウトセットとは異なるホールドアウトセットを使用する必要があります。さらに、結果を評価するには適切な統計テストを使用する必要があります。

AI プロジェクトを実行するための指針がわかったので、次の AI プロジェクトで試してみてください。

<<: 拡散モデルはオートエンコーダです。ディープマインドの研究者は新しいアイデアを提案し、

>>: AI+サイエンス: PaddlePaddle をベースにした AlphaFold2 でタンパク質構造予測を実現