人工知能プロジェクトのための 10 のヒント - ガイド

人工知能プロジェクトのための 10 のヒント - ガイド

昨日の人工知能プロジェクトに関する 10 の提案 - 理論に続き、今日は人工知能プロジェクトの 10 の指針についてお話します。

AI プロジェクトを計画する際には、モデル構築の目標を特定することが重要ですが、この理解があって初めて成功するソリューションが得られます。適切な推奨事項を真に実現するには、AI プロジェクト チームはプロジェクトを実行する際にベスト プラクティスの実装パスに従う必要があります。正しい道をたどるために、先ほど示した 10 の提案の実行パスについて説明しましょう。

1. 問題を理解する

あらゆる問題を解決する上で最も基本的な部分は、解決しようとしている問題が何であるかを正確に知ることです。何を期待しているのか、制限事項はあるのか、そしてプロジェクトの最終的な目的は何なのかを必ず理解してください。早めに質問し、同僚、ビジネス エキスパート、エンド ユーザーと理解を検証します。答えがあなたの理解と一致していれば、あなたは正しい方向に進んでいると分かります。

2. データを知る

データの意味を理解することで、どのモデルが適切に機能し、どの機能を使用すればよいかを理解できるようになります。データの背後にある問題はどのモデルが最も成功するかに影響し、計算時間はプロジェクトのコストに影響します。意味のある機能を使用および作成することで、人間の意思決定を模倣したり改善したりすることができます。各フィールドの意味を知ることは、特にデータを匿名化する必要があり、したがって明確さが劣る可能性がある規制産業においては、問題解決にとって重要です。機能の意味がわからない場合は、ビジネスの専門家に相談してください。

3. データを分割またはクリーンアップする

モデルは未知のデータに対してどのように機能するでしょうか? 新しいデータに一般化できない場合、特定のデータに対するパフォーマンスは最も重要なことではありません。トレーニング中はモデルにデータの一部を見せないようにするため、未知の状況でモデルがどのように機能するかを検証できます。このアプローチは、適切なモデル アーキテクチャを選択し、最適なパフォーマンスを得るためにパラメータを調整するために重要です。

教師あり学習の問題の場合、データを 2 つまたは 3 つの部分に分割する必要があります。

トレーニング データ (モデルの学習元となるデータ) は通常、元のデータの 75 ~ 80% がランダムに選択されます。

テスト データ (モデルを評価するデータ) が残りのデータです。

構築するモデルの種類によっては、検証セットと呼ばれる 3 番目のホールドアウト データ セットも必要になる場合があります。これは、テスト データで調整された複数の教師あり学習モデルを比較するために使用されます。この場合、非トレーニング データをテストと検証の 2 つのデータセットに分割する必要があります。テスト データを使用して同じモデルの反復を比較し、検証データを使用して異なるモデルの最終バージョンを比較します。

Python でデータを正しく分割する最も簡単な方法は、Scikit-learn の train_test_split 関数を使用することです。

4. テストデータを漏らさない

テスト データの情報をモデルに入力しないことが重要です。これは、データセット全体のトレーニングに悪影響を及ぼす可能性があります。また、分割する前に変換 (スケーリングなど) を実行するのと同じくらい微妙な影響を与える可能性があります。たとえば、分割する前にデータを正規化する場合、グローバル最小値または最大値が保持されたデータ内に存在する可能性があるため、モデルはテスト データセットに関する情報を取得します。

5. 適切な評価指標を使用する

問題はそれぞれ異なるため、状況に応じて適切な評価方法を選択する必要があります。最も単純な、そして潜在的に最も危険な分類基準は、精度です。がんの検出の問題について考えてみましょう。適度に正確なモデルが必要な場合は、常に「がんではない」と予測することになります。なぜなら、99% 以上の確率で正しいからです。しかし、実際に癌を検出したい場合、これはあまり有用なモデルではありません。分類と回帰の問題にどの評価メトリックを使用するかを慎重に検討してください。

6. シンプルに

問題に取り組むときは、最も複雑なモデルではなく、仕事に適したソリューションを選択することが重要です。経営陣、顧客、そしてあなた自身も、「最新かつ最高」のものを使いたいと思うかもしれません。ニーズを満たす最も単純な(最も高度なものではない)モデル、つまりオッカムの剃刀の原理を使用する必要があります。これにより、可視性が向上し、トレーニング時間が短縮されるだけでなく、実際にパフォーマンスが向上します。つまり、バズーカ砲でハエを撃ったり、ハエたたきでゴジラを殺そうとしたりしないでください。

7. モデルを過剰適合(または不足適合)させない

過剰適合 (または不足分散) により、モデルは目に見えないデータに対してパフォーマンスが低下します。モデルはトレーニング データを単純に記憶します。アンダーフィッティング (バイアスとも呼ばれる) とは、モデルに与えられる情報が少なすぎて、問題の正しい表現を学習できない状態を指します。この 2 つのバランスを取ること (「バイアスと分散のトレードオフ」と呼ばれることが多い) は AI プロセスの重要な部分であり、問​​題が異なれば必要なバランスも異なります。

簡単な画像分類器を例に挙げてみましょう。そのタスクは、画像内に犬がいるかどうかを分類することです。このモデルを過剰適合すると、その画像を以前に見たことがない限り、その画像を犬として認識できなくなります。モデルの適合度が低すぎると、以前に特定の画像を見たことがある場合でも、その画像を犬として認識できない可能性があります。

8. さまざまなモデルアーキテクチャを試す

ほとんどの場合、問題に対してさまざまなモデル アーキテクチャを検討することが有益です。ある問題に対して最も効果的な方法が、別の問題に対しては必ずしも最適とは限りません。単純なアルゴリズムと複雑なアルゴリズムを組み合わせて使用​​してみてください。たとえば、分類モデルを実行する場合は、ランダム フォレストのような単純なものからニューラル ネットワークのような複雑なものまで試してください。興味深いことに、Extreme Gradient Boosting (XGBoost) は、ニューラル ネットワーク分類器よりも大幅に優れたパフォーマンスを発揮することがよくあります。単純な問題は、単純なモデルで解決するのが最も効果的であることが多いです。

9. ハイパーパラメータを調整する

ハイパーパラメータは、モデルの計算に使用される値です。たとえば、決定木のハイパーパラメータの 1 つは、ツリーの深さ、つまり答えを決定する前に何回質問するかです。モデルのデフォルトのハイパーパラメータは、平均して最高のパフォーマンスを提供するものです。しかし、あなたのモデルがまさにそのスイートスポットに当てはまる可能性は低いでしょう。異なるパラメータを選択すると、モデルのパフォーマンスが向上します。ハイパーパラメータを調整するための最も一般的な方法は、グリッド検索、ランダム検索、ベイズ最適化検索ですが、他にも多くの高度な手法があります。

10. モデルを正しく比較する

機械学習の最終的な目標は、適切に一般化できるモデルを開発することです。だからこそ、正しく比較して最適なモデルを選択することが非常に重要です。前述のように、評価にはハイパーパラメータのトレーニングに使用したホールドアウト セットとは異なるホールドアウト セットを使用する必要があります。さらに、結果を評価するには適切な統計テストを使用する必要があります。

AI プロジェクトを実行するための指針がわかったので、次の AI プロジェクトで試してみてください。

<<:  拡散モデルはオートエンコーダです。ディープマインドの研究者は新しいアイデアを提案し、

>>:  AI+サイエンス: PaddlePaddle をベースにした AlphaFold2 でタンパク質構造予測を実現

ブログ    
ブログ    
ブログ    

推薦する

AIがデジタル変革に与える影響

デジタルトランスフォーメーションは10年以上にわたってビジネス変革の中核を担ってきましたが、AIの台...

AI危機の前に、この3つの資質を備えた子供たちが将来勝利するだろう

[[234521]]文|ハオ・ジンファンSF作家第74回ヒューゴー賞受賞者公式アカウント「小唐科学子...

生成型人工知能(GenAI)は将来のテクノロジーの展望を一変させる

ChatGPT の人気が高まるにつれ、生成型人工知能 (GenAI) がテクノロジー業界の未来を大き...

ハーバード大学コンピュータサイエンス学部の旗艦プロジェクトはAIをメンターとして採用している

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ロボットはどのようにして経路を計画するのでしょうか?アニメーションを見てみましょう

機械の進路をたどって見てみましょう。 [[351870]]ロボット研究の分野では、特定のタスクが与え...

人工知能システムが薬剤耐性菌を殺す新しい抗生物質を発見

海外メディアの報道によると、人工知能技術を利用した新薬の発見は成果を上げているようだ。マサチューセッ...

...

災害後、ウェイモブは独自のデータベースの構築を断念し、商人に1億5000万元を支払った。

[[316623]] 【51CTOオリジナル記事】先週、WeMallは大規模なシステム障害に見舞わ...

...

ウエストワールドがやってくる: ロボットは独自の言語を使ってコミュニケーションとコラボレーションを学ぶ

人工知能研究チームOpenAIが発表した最新の報告書は、ロボットが自ら作成した新しい言語を使って互い...

アディダスのロボット工場で作られた靴が出荷されようとしている

アディダスがドイツに開設したロボット靴製造工場「スピードファクトリー」が正式に生産を開始したと報じら...

リモートワークにおけるAIの活用事例

世界中の組織がリモートワークに移行する必要に迫られ、業務を維持するために技術的な対策が必要になりまし...

人工知能の出現は教育にどのような影響を与えるのでしょうか?

近年、科学技術における人工知能の急速な発展により、人工知能は私たちの日常生活にいくつかの新たなハイラ...

ChatGPT Civilization Simulator が再びオンラインになりました!クリックひとつで、火山噴火の日の古代都市ポンペイにタイムスリップ

GPT-4のアップデート機能により、AIを使って歴史をシミュレートすることは、単なる「テキストロール...

ビッグニュース: IBM が 3 つの抗がん AI プロジェクトをオープンソース化しました。

最近、IBM は、がん治療の課題を克服することを目的とした 3 つの AI プロジェクトをオープンソ...