人工知能プロジェクトのための 10 のヒント - ガイド

人工知能プロジェクトのための 10 のヒント - ガイド

昨日の人工知能プロジェクトに関する 10 の提案 - 理論に続き、今日は人工知能プロジェクトの 10 の指針についてお話します。

AI プロジェクトを計画する際には、モデル構築の目標を特定することが重要ですが、この理解があって初めて成功するソリューションが得られます。適切な推奨事項を真に実現するには、AI プロジェクト チームはプロジェクトを実行する際にベスト プラクティスの実装パスに従う必要があります。正しい道をたどるために、先ほど示した 10 の提案の実行パスについて説明しましょう。

1. 問題を理解する

あらゆる問題を解決する上で最も基本的な部分は、解決しようとしている問題が何であるかを正確に知ることです。何を期待しているのか、制限事項はあるのか、そしてプロジェクトの最終的な目的は何なのかを必ず理解してください。早めに質問し、同僚、ビジネス エキスパート、エンド ユーザーと理解を検証します。答えがあなたの理解と一致していれば、あなたは正しい方向に進んでいると分かります。

2. データを知る

データの意味を理解することで、どのモデルが適切に機能し、どの機能を使用すればよいかを理解できるようになります。データの背後にある問題はどのモデルが最も成功するかに影響し、計算時間はプロジェクトのコストに影響します。意味のある機能を使用および作成することで、人間の意思決定を模倣したり改善したりすることができます。各フィールドの意味を知ることは、特にデータを匿名化する必要があり、したがって明確さが劣る可能性がある規制産業においては、問題解決にとって重要です。機能の意味がわからない場合は、ビジネスの専門家に相談してください。

3. データを分割またはクリーンアップする

モデルは未知のデータに対してどのように機能するでしょうか? 新しいデータに一般化できない場合、特定のデータに対するパフォーマンスは最も重要なことではありません。トレーニング中はモデルにデータの一部を見せないようにするため、未知の状況でモデルがどのように機能するかを検証できます。このアプローチは、適切なモデル アーキテクチャを選択し、最適なパフォーマンスを得るためにパラメータを調整するために重要です。

教師あり学習の問題の場合、データを 2 つまたは 3 つの部分に分割する必要があります。

トレーニング データ (モデルの学習元となるデータ) は通常、元のデータの 75 ~ 80% がランダムに選択されます。

テスト データ (モデルを評価するデータ) が残りのデータです。

構築するモデルの種類によっては、検証セットと呼ばれる 3 番目のホールドアウト データ セットも必要になる場合があります。これは、テスト データで調整された複数の教師あり学習モデルを比較するために使用されます。この場合、非トレーニング データをテストと検証の 2 つのデータセットに分割する必要があります。テスト データを使用して同じモデルの反復を比較し、検証データを使用して異なるモデルの最終バージョンを比較します。

Python でデータを正しく分割する最も簡単な方法は、Scikit-learn の train_test_split 関数を使用することです。

4. テストデータを漏らさない

テスト データの情報をモデルに入力しないことが重要です。これは、データセット全体のトレーニングに悪影響を及ぼす可能性があります。また、分割する前に変換 (スケーリングなど) を実行するのと同じくらい微妙な影響を与える可能性があります。たとえば、分割する前にデータを正規化する場合、グローバル最小値または最大値が保持されたデータ内に存在する可能性があるため、モデルはテスト データセットに関する情報を取得します。

5. 適切な評価指標を使用する

問題はそれぞれ異なるため、状況に応じて適切な評価方法を選択する必要があります。最も単純な、そして潜在的に最も危険な分類基準は、精度です。がんの検出の問題について考えてみましょう。適度に正確なモデルが必要な場合は、常に「がんではない」と予測することになります。なぜなら、99% 以上の確率で正しいからです。しかし、実際に癌を検出したい場合、これはあまり有用なモデルではありません。分類と回帰の問題にどの評価メトリックを使用するかを慎重に検討してください。

6. シンプルに

問題に取り組むときは、最も複雑なモデルではなく、仕事に適したソリューションを選択することが重要です。経営陣、顧客、そしてあなた自身も、「最新かつ最高」のものを使いたいと思うかもしれません。ニーズを満たす最も単純な(最も高度なものではない)モデル、つまりオッカムの剃刀の原理を使用する必要があります。これにより、可視性が向上し、トレーニング時間が短縮されるだけでなく、実際にパフォーマンスが向上します。つまり、バズーカ砲でハエを撃ったり、ハエたたきでゴジラを殺そうとしたりしないでください。

7. モデルを過剰適合(または不足適合)させない

過剰適合 (または不足分散) により、モデルは目に見えないデータに対してパフォーマンスが低下します。モデルはトレーニング データを単純に記憶します。アンダーフィッティング (バイアスとも呼ばれる) とは、モデルに与えられる情報が少なすぎて、問題の正しい表現を学習できない状態を指します。この 2 つのバランスを取ること (「バイアスと分散のトレードオフ」と呼ばれることが多い) は AI プロセスの重要な部分であり、問​​題が異なれば必要なバランスも異なります。

簡単な画像分類器を例に挙げてみましょう。そのタスクは、画像内に犬がいるかどうかを分類することです。このモデルを過剰適合すると、その画像を以前に見たことがない限り、その画像を犬として認識できなくなります。モデルの適合度が低すぎると、以前に特定の画像を見たことがある場合でも、その画像を犬として認識できない可能性があります。

8. さまざまなモデルアーキテクチャを試す

ほとんどの場合、問題に対してさまざまなモデル アーキテクチャを検討することが有益です。ある問題に対して最も効果的な方法が、別の問題に対しては必ずしも最適とは限りません。単純なアルゴリズムと複雑なアルゴリズムを組み合わせて使用​​してみてください。たとえば、分類モデルを実行する場合は、ランダム フォレストのような単純なものからニューラル ネットワークのような複雑なものまで試してください。興味深いことに、Extreme Gradient Boosting (XGBoost) は、ニューラル ネットワーク分類器よりも大幅に優れたパフォーマンスを発揮することがよくあります。単純な問題は、単純なモデルで解決するのが最も効果的であることが多いです。

9. ハイパーパラメータを調整する

ハイパーパラメータは、モデルの計算に使用される値です。たとえば、決定木のハイパーパラメータの 1 つは、ツリーの深さ、つまり答えを決定する前に何回質問するかです。モデルのデフォルトのハイパーパラメータは、平均して最高のパフォーマンスを提供するものです。しかし、あなたのモデルがまさにそのスイートスポットに当てはまる可能性は低いでしょう。異なるパラメータを選択すると、モデルのパフォーマンスが向上します。ハイパーパラメータを調整するための最も一般的な方法は、グリッド検索、ランダム検索、ベイズ最適化検索ですが、他にも多くの高度な手法があります。

10. モデルを正しく比較する

機械学習の最終的な目標は、適切に一般化できるモデルを開発することです。だからこそ、正しく比較して最適なモデルを選択することが非常に重要です。前述のように、評価にはハイパーパラメータのトレーニングに使用したホールドアウト セットとは異なるホールドアウト セットを使用する必要があります。さらに、結果を評価するには適切な統計テストを使用する必要があります。

AI プロジェクトを実行するための指針がわかったので、次の AI プロジェクトで試してみてください。

<<:  拡散モデルはオートエンコーダです。ディープマインドの研究者は新しいアイデアを提案し、

>>:  AI+サイエンス: PaddlePaddle をベースにした AlphaFold2 でタンパク質構造予測を実現

ブログ    

推薦する

Google、AIコードエディタIDXをリリース:クラウド仮想マシンで開発環境の構成を簡素化

Googleは8月9日、「Project IDX」プロジェクトを公開し、AI技術を統合したコードエデ...

...

R言語におけるAprioriアルゴリズムの応用

[[193979]] I. コンセプト関連性分析は、大規模なデータセットに隠された意味のあるつながり...

LangChain と Pinecone ベクトル データベースを使用してカスタム Q&A アプリケーションを構築する

LangChain、OpenAI、PineconeDB を使用して、任意のデータ ソースから質問応答...

...

銀行におけるクラウドコンピューティングと人工知能の利点

クラウド コンピューティング プロバイダーは、データを分析し、スキルの低いユーザー (または予算が限...

ついに誰かが自動運転を明確にした

01 自動運転とは自動運転は無人運転とも呼ばれ、その名の通り、車両が人間の操作なしに周囲の環境を認...

今後5年間の産業AIの8つの主要な発展トレンド

ChatGPT と生成型人工知能 (AI) が世間の注目を集めるようになり、突如として世界で最も議論...

科学データ研究のための人工知能アシスタントMATAが特許を取得

サザンメソジスト大学(SMU)とNASAの研究者らは、科学的データに関する質問に答えることができる人...

世界最大の多言語音声データセットがオープンソースになりました! 23言語で40万時間以上

[[416170]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

...

世界初の大型モデルエージェントが発売!口を動かすだけでPCが働き者になる

最近、謎のアシスタントであるシャオ・シュアイの助けにより、彼のオフィスの効率は以前に比べて10倍以上...

世界初のAI生成薬がヒト臨床試験に進出

6月30日のニュースによると、今週、完全に人工知能によって設計された世界初の医薬品が人間の臨床試験段...

国防総省は、今後数日間の出来事を予測するために人工知能を活用している。

海外メディアCNETによると、米軍はビッグデータと人工知能を活用して近い将来の出来事を予測しようとし...

美容業界に参入しよう! AIはフェイスリフト手術も可能

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...