機械学習向けにデータ機能を最適化する機能エンジニアリングのスキルは、データサイエンスそのものと同じくらい古いものです。しかし、このスキルがますます無視されるようになっていることに気づきました。機械学習の需要の高まりにより、ツールやアルゴリズムの専門知識はあるものの、特徴エンジニアリングに必要な経験や業界固有のドメイン知識が不足しているデータ サイエンティストが多数誕生しました。彼らは、より優れたツールとアルゴリズムでこれを補おうとしています。しかし、アルゴリズムは現在では商品化されており、企業の知的財産を生み出すものではありません。
汎用データはコモディティ化が進んでおり、Amazon ML や Google AutoML などのクラウドベースの機械学習サービス (MLaaS) により、経験のないチームでもデータモデルを実行して数分で予測を取得できるようになりました。その結果、特徴エンジニアリングによって独自のデータを収集または作成する組織能力を開発する企業が優位になりつつあります。単純なデータ収集とモデル構築だけではもはや十分ではありません。 エンタープライズ チームは、KDD Cup や Legacy Provider CyberHealth Award などのモデリング コンテストで優勝したチームから多くのことを学ぶことができます。優勝したチームは、機能エンジニアリングを成功の重要な要素として挙げています。 1. 特徴エンジニアリング技術 特徴エンジニアリングをサポートするために、データ サイエンティストはさまざまな手法を開発してきました。大まかに次のように考えることができます。 1. コンテキスト変換 一連のアプローチの 1 つは、元のセットからの個々の機能を、各特定のモデルにとってより文脈的に意味のある情報に変換することです。 たとえば、カテゴリ特性を扱う場合、「不明」は特定の状況のコンテキストで特別な情報を伝達する場合があります。ただし、モデルでは、それは単なる別のカテゴリ値として表示されます。この場合、チームは「不明」を他のすべてのオプションから分離するために、「has_value」という新しいバイナリ関数を導入する必要があるかもしれません。たとえば、「color」関数では、不明な色のコンテンツに対して「has_color」という入力が許可されます。 もう 1 つのアプローチは、ワンホット エンコーディングを使用してカテゴリ特徴を変数のセットに変換することです。上記の例では、「色」カテゴリを 3 つの特徴(「赤」、「緑」、「青」がそれぞれ 1 つずつ)に変換すると、モデルの目標に応じて、より優れた学習プロセスが可能になります。 機械学習チームは、より優れた洞察を得るために、単一の特徴を複数の特徴に変換する方法としてビニングを使用することもよくあります。たとえば、「年齢」の特徴は、40 歳未満の「若い」、40 ~ 60 歳の「中年」、60 歳以上の「古い」に分割されます。 その他の変換の例は次のとおりです。 変数(例:年齢)の最小値と最大値の間の値を範囲[0,1]にスケーリングします。 各タイプのレストランへの訪問回数を料理の「関心」指標で割る 2. 多機能演算 特徴エンジニアリングのもう 1 つのアプローチは、既存のデータ ポイントのセットに算術式を適用することです。数式では、特性、比率、その他の関係間の相互作用に基づいて導関数を作成できます。 このタイプの機能エンジニアリングは高い価値を提供できますが、モデルの主題と目的を十分に理解している必要があります。 例として、次の式を使用します。 「学校評価」と「犯罪率」の組み合わせから「地域の質」を計算します 訪問者の「実際の支出」と「予想支出」を比較して「カジノの運要素」を決定します 「利用率」はクレジットカードの「残高」を「限度額」で割ることで算出されます。 特定の期間内の最近の取引、取引頻度、および支出額の組み合わせから RFM スコア (最新性、頻度、金額) を取得し、顧客をセグメント化します。 3. 先進技術 チームは、より高度なアルゴリズムアプローチを選択して既存のデータを分析することで、新しい機能を作成する機会を見つけることもできます。 主成分分析(PCA)と独立成分分析(ICA)は、既存のデータを別の特徴空間にマッピングします。 ディープフィーチャーシンセシス(DFS)は、ニューラルネットワークの中間層から中間学習を転送することを可能にする。 2. 成功の枠組みを設定する チームは、より効率的な機能とモデルを常に探す必要があります。ただし、成功するには、この作業を体系的かつ繰り返し可能なフレームワーク内で実行する必要があります。機能エンジニアリングの取り組みには、次の 6 つの重要なステップがあります。 1. モデルの使用方法を明確にする。まず、モデルの主な目標と使用例を明確にします。チーム全体が同期し、単一の目的を持って作業する必要があります。そうしないと、努力が無駄になり、リソースが無駄になってしまいます。 2. 基準を設定する。高性能モデルを構築するプロセスでは、利用可能なデータの慎重な調査と分析が必要です。しかし、作業計画は現実世界の障害にも適応する必要があります。特性評価プロセスでは、コスト、アクセス可能性、計算上の制限、ストレージの制約、その他の要件などの要因が考慮されます。チームは早い段階でこれらの好みや制限に適応する必要があります。 3. 新しい機能を考案する。問題をより適切に説明し解決するために、新しいデータを作成する方法について幅広く考えます。この時点で、ドメイン知識と主題専門家の関与により、機能エンジニアリングの結果が価値を付加することが保証されます。 4. 入力として要素を構築します。新しい機能コンセプトが特定されたら、利用可能なデータからそれらを構築するための最も効果的な手法を選択します。適切なテクノロジーを選択することが、新機能の有用性を保証する鍵となります。 5. 研究のインパクト。新しい機能がモデルのパフォーマンスに与える影響を評価します。新しい機能の付加価値に関する結論は、モデルのパワーがどのように測定されるかに直接依存します。 モデルのパフォーマンス測定は、意味を持つためにはビジネス測定と関連付けられている必要があります。今日、チームには、精度、再現率、F1 スコア、受信者動作特性 (ROC) 曲線など、正確性をはるかに超えるさまざまな測定オプションがあります。 6. 機能を最適化します。機能エンジニアリングは、新しい機能のテスト、調整、改善を伴う反復的なプロセスです。このプロセスの最適化ループでは、最も影響の大きい機能が特定されるまで、パフォーマンスの低い機能が削除されたり、近いバリアントに置き換えられたりすることがあります。 要約する 機能エンジニアリングは現代社会における新たな錬金術であり、成功したチームは一般的なデータを組織にとって付加価値のある知的財産に変換します。 これを成功させるには、いくつかの重要な原則が役立ちます。
|
<<: AI STUDIO - AI機能を実現するためのハードルゼロ
アメリカは再び中国に対して行動を起こしたが、今回はAIソフトウェアに関してだ。月曜日に発効する新しい...
人工知能(AI)については多くの誇大宣伝がなされていますが、それは人類のこれまでの発明と同じくらい画...
少し前に絶賛されたGPT-3を覚えていますか?招待されたユーザーのみがテスト・使用できるもので、史上...
優れた AI システムは、企業に大きな競争上の優位性をもたらすことができます。理論的には、AI と機...
レイチェル・レイコック約 2 か月前、私は Thoughtworks の CTO になりました。それ...
[[271684]]ビル・ゲイツは、世界を変えるトレンドを予見し、それを活用することで、史上最も成功...
在庫がなければ大晦日もありません。 2020年に日本のAI・ロボティクス分野で起こった出来事をいくつ...
適応性は常に成功する組織の基礎となる原則です。過去 2 年間、世界は不確実性に直面してきましたが、こ...
人工知能は未来をリードする戦略的技術であり、産業変革の中核的な原動力であり、経済発展の新たな原動力で...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
この記事では、ビッグデータ アルゴリズムを理解するプロセスをまとめます。本文は、アルゴリズムに関する...
多くの IT 企業では、アルゴリズムは面接で非常に重要な部分を占めていますが、実際の仕事でアルゴリズ...