急速に進化するあらゆるトピックと同様に、学ぶべき新しいことが常に存在し、機械学習も例外ではありません。この投稿では、機械学習について、知らないかもしれない、気づいていないかもしれない、あるいは知っていたけれど忘れてしまったかもしれない 5 つの点について説明します。 この投稿のタイトルは、機械学習に関する「最も重要な 5 つのこと」や「トップ 5 のこと」ではなく、単に「5 つのこと」であることに注意してください。これは決定的なものでも網羅的なものでもなく、役に立つかもしれない 5 つの項目を集めただけです。 1. データ準備は機械学習の 80% を占めるので… 機械学習タスクでは、データの準備に多くの時間がかかります。少なくとも、多くの時間がかかるようです。多くの人がそう思います。 データ準備の実行の詳細とその重要性についてはよく議論されますが、それだけではありません。だからこそ、データの準備に注意を払う必要があります。これは、一貫性のあるデータを取得するためだけのものではなく、むしろ、データ準備を採用する必要がある理由を理解してもらうための哲学的な長々とした説教のようなものです。データ準備をしっかり行い、データ準備のできる人になりましょう。 CRISP-DM モデルでのデータ準備。 機械学習に関して私が思いつく最良のアドバイスは、大きなプロジェクトではデータの準備に多くの時間を費やすことになるので、可能な限り最高のデータ準備のプロフェッショナルになることを決意するのはかなり良い目標であるということです。データ準備は、単に時間がかかり面倒な作業であるだけでなく、後続のステップ(不正なデータの入力、不正なデータの出力など)にとって非常に重要であり、不適切なデータ準備者として悪い評判を得ることは、この世で最悪のことではありません。 したがって、データの準備を実行して習得するには時間がかかるかもしれませんが、それは決して悪いことではありません。データ準備の必要性には、専門家として目立つため、また、優れた仕事能力の固有の価値を示すための多くの機会があります。 2. パフォーマンスベースラインの値 特定のアルゴリズムを使用してデータをシミュレートし、ハイパーパラメータの調整、特徴エンジニアリング、チェリーピッキングの実行に多くの時間を費やした場合、たとえば 75% の精度までトレーニングする方法がわかったので満足します。あなたは自分が行った仕事に非常に満足しています。 しかし、結果を何と比較したのですか?ベースライン(データを比較するための経験則よりも簡単な完全なチェック)がなければ、その懸命な努力の結果を実際には何とも比較していないことになります。では、他のデータと比較しない限り、精度はどれも価値があると想定するのは合理的でしょうか?明らかにそうではありません。 ランダムな推測はベースラインにとって最適なアプローチではありません。代わりに、ベースラインの精度を決定するための広く受け入れられている方法があります。たとえば、Scikit-learn は DummyClassifier カテゴリでさまざまなベースライン分類子を提供します。
ベースラインは単なる分類器ではありません。たとえば、ベースライン回帰タスクには統計的手法もあります。探索的データ分析、データ準備、前処理の後に、ベースラインを確立することが機械学習ワークフローの論理的な次のステップです。 3. 検証: トレーニングとテスト以上のもの 機械学習モデルを構築するときは、トレーニング データを使用してモデルをトレーニングします。結果として得られたモデルをテストするときは、テスト データを使用します。では、検証はどこで行われるのでしょうか? fast.ai の Rachel Thomas 氏は最近、適切な検証セットを作成する方法と理由について記事を書き、次の 3 種類のデータを紹介しました。
(たとえば、ランダム フォレストとニューラル ネットワークのどちらが問題に適しているでしょうか。40 本のツリーを持つランダム フォレストと 50 本のツリーを持つランダム フォレストのどちらが適しているでしょうか。)
では、データをテスト、トレーニング、検証セットにランダムに分割するのは良い考えなのでしょうか?結局のところ、答えはノーです。 Rachel は、記事「時系列データ: Kaggle は現在、エクアドルの食料品店の売上を予測する問題に取り組んでいます」でこの質問に答えました。 Kaggle の「トレーニング データ」は 2013 年 1 月 1 日から 2017 年 8 月 15 日まで、テスト データは 2017 年 8 月 16 日から 2017 年 8 月 31 日までです。良いアプローチとしては、2017 年 8 月 1 日から 8 月 15 日までを検証セットとして使用し、それ以前のすべてのデータをトレーニング セットとして使用することが挙げられます。 この投稿の残りの部分では、データセットを Kaggle のコンペティション データに分割する方法について説明します。これは非常に実用的です。また、クロス検証についても説明します。読者は私の方法に従って自分でクロス検証を調べることができます。 データのランダム分割が役立つ場合が他にもたくさんあります。これは、データを取得したときのデータの状態(トレーニング データとテスト データに分割されているか) や、データの種類 (上記の時系列分類を参照) などの要因によって異なります。 Scikit には、ランダム分割が実行可能になる条件を判断する train_validate_test_split メソッドがない可能性がありますが、標準の Python ライブラリを活用して独自のメソッドを作成できます。 4. ツリーよりもアンサンブル法のほうが多い 機械学習の初心者にとって、アルゴリズムの選択は難しい場合があります。分類器を構築する場合、特に初心者の場合は、単一のアルゴリズムで問題の単一のインスタンスを解決するアプローチを採用するのが一般的です。ただし、特定の状況では、分類器を連結または組み合わせる方が効果的な場合があります。このアプローチでは、投票、重み付け、および組み合わせの手法を使用して、最も正確な分類器を追求します。アンサンブル学習は、この機能を複数の方法で提供する分類器です。 ランダム フォレストは、単一の予測モデルで多数の決定木を使用するアンサンブル学習者の非常に重要な例です。ランダムフォレストはさまざまな問題にうまく適用され、それに応じて素晴らしい成果を達成してきました。しかし、これらが唯一の統合方法というわけではなく、試してみる価値のある他の多くの方法があります。 バギングの背後にあるシンプルな概念は、複数のモデルを構築し、それらのモデルからの結果を観察し、結果の大部分を採用することです。最近、車の後部車軸アセンブリに問題が発生しました。問題を診断したディーラーのアドバイスに従わず、他の 2 つの修理店に車を持ち込みましたが、どちらの店も問題はディーラーが示唆したものとは異なると考えました。これは、バギングが実際の生活で使用されていることを示しています。ランダムフォレストはバギング技術に基づいて改良されています。 スピードアップはバギングに似ていますが、概念が少し異なります。モデルに等しい重みを割り当てる代わりに、分類器に重みの割り当てを追加し、加重投票に基づいて最終結果を導出します。私の車の問題を例に挙げると、私は過去に何度も同じ修理工場に行ったことがあり、他の修理工場よりもその修理工場の診断を信頼しているかもしれません。また、私はこれまでディーラーとやり取りしたり取引したりしたことがなく、ディーラーの能力に対する信頼度も低いと仮定します。私が割り当てる重みは反映されます。 スタッキングは、さまざまな同一の学習器の集合ではなく、複数の単一の分類器をトレーニングするという点で、前の 2 つの手法とは異なります。バギングとブースティングでは、同じ分類アルゴリズム (決定木など) の異なるインスタンスを使用して構築されたモデルが多数使用されますが、スタッキングでは、異なる分類アルゴリズム (決定木、ロジスティック回帰、ANN、または他の組み合わせなど) も使用するモデルが構築されます。 次に、統合されたアルゴリズムは他のアルゴリズムの予測に基づいてトレーニングされ、最終的な予測が得られます。この組み合わせは任意のアンサンブル手法で行うことができますが、この組み合わせを実行するための最も適切でシンプルなアルゴリズムはロジスティック回帰であると考えられることがよくあります。スタッキングは分類だけでなく、密度推定などの教師なし学習タスクにも使用できます。 5. Google Colab? 最後に、もう少し実用的なものを見てみましょう。 Jupyter Notebook は、事実上、データ サイエンス開発のための最も実用的なツールとなり、ほとんどの人が自分のパソコンで、または他のより複雑な構成 (Docker コンテナーや仮想マシンなど) を通じてこのソフトウェアを実行しています。最初に注目を集めたのは Google の Colaboratory です。これを使用すると、Jupyter スタイルおよび互換性のあるノートブックを、設定なしで Google ドライブ内で直接実行できます。 Colaboratory は、最近人気の高い Python ライブラリのいくつかが事前設定されており、サポートされているパッケージ管理を通じて Notebooks にインストールできます。たとえば、TensorFlow はこのカテゴリに分類されますが、Keras は分類されません。ただし、pip 経由で Keras をインストールするには数秒しかかかりません。 この問題に関する良いニュースは、ニューラル ネットワークを使用している場合、トレーニングに GPU ハードウェア アクセラレーションを 1 回最大 12 時間無料で有効にできることです。この朗報は、一見したほど完璧ではありませんが、追加の利点であり、GPU アクセラレーションをすべての人に普及させるための良いスタートでもあります。 |
<<: AI スタートアップの品質を測定するにはどうすればよいでしょうか?
>>: 隠れた表現を視覚化することでニューラルネットワークをより深く理解する
過去 2 年間で、生成型人工知能 (GenAI) の出現により、産業プロセス分析に刺激的な新しい可能...
「中東のシリコンバレー」と呼ばれるイスラエルはハイテク産業が発達しており、特にチップ産業や半導体技術...
[[414048]]この記事では、面接の質問と面接のシナリオを使用して、再帰アルゴリズムの時間計算量...
1. メタバースとは何ですか? Metaverse は、ブロックチェーンと AI (人工知能)、V...
近年、モバイルインターネット、OTTビデオ、VRなどのビジネスアプリケーションの急速な成長に伴い、通...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
2023年杭州雲奇大会において、アリババクラウド最高技術責任者の周景仁氏は、数千億のパラメータを持つ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
スマート オフィスの概念は新しいものではありませんが、企業のオーナーや管理者が自動化の生産性の価値を...
懐疑論者は、完全な自動運転の実現は業界が考えているよりもずっと先のことかもしれないと述べている。 [...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
最近、大規模言語モデル (LLM) はさまざまなタスクで優れたパフォーマンスを示しています。しかし、...
6月16日のニュースによると、テスラのCEO、イーロン・マスク氏は木曜日にイタリアのメローニ首相と会...
シリコンバレーの大企業の中でも、グーグルの従業員はテクノロジー業界で最も高給を得ている社員の一部であ...