機械学習チームにはより優れた特徴エンジニアリング技術が必要

機械学習向けにデータ機能を最適化する機能エンジニアリングのスキルは、データサイエンスそのものと同じくらい古いものです。しかし、このスキルがますます無視されるようになっていることに気づきました。機械学習の需要の高まりにより、ツールやアルゴリズムの専門知識はあるものの、特徴エンジニアリングに必要な経験や業界固有のドメイン知識が不足しているデータサイエンティストが多数誕生しました。彼らは、より優れたツールとアルゴリズムでこれを補おうとしています。しかし、アルゴリズムは現在では商品化されており、企業の知的財産を生み出すものではありません。

[[237583]]

汎用データはコモディティ化が進んでおり、Amazon ML や Google AutoML などのクラウドベースの機械学習サービス (MLaaS) により、経験のないチームでもデータモデルを実行して数分で予測を取得できるようになりました。その結果、特徴エンジニアリングによって独自のデータを収集または作成する組織能力を開発する企業が優位になりつつあります。単純なデータ収集とモデル構築だけではもはや十分ではありません。

エンタープライズチームは、KDD Cup や Legacy Provider CyberHealth Award などのモデリングコンテストで優勝したチームから多くのことを学ぶことができます。優勝したチームは、機能エンジニアリングを成功の重要な要素として挙げています。

1. 特徴エンジニアリング技術

特徴エンジニアリングをサポートするために、データサイエンティストはさまざまな手法を開発してきました。大まかに次のように考えることができます。

1. コンテキスト変換

一連のアプローチの 1 つは、元のセットからの個々の機能を、各特定のモデルにとってより文脈的に意味のある情報に変換することです。

たとえば、カテゴリ特性を扱う場合、「不明」は特定の状況のコンテキストで特別な情報を伝達する場合があります。ただし、モデルでは、それは単なる別のカテゴリ値として表示されます。この場合、チームは「不明」を他のすべてのオプションから分離するために、「has_value」という新しいバイナリ関数を導入する必要があるかもしれません。たとえば、「color」関数では、不明な色のコンテンツに対して「has_color」という入力が許可されます。

もう 1 つのアプローチは、ワンホットエンコーディングを使用してカテゴリ特徴を変数のセットに変換することです。上記の例では、「色」カテゴリを 3 つの特徴（「赤」、「緑」、「青」がそれぞれ 1 つずつ）に変換すると、モデルの目標に応じて、より優れた学習プロセスが可能になります。

機械学習チームは、より優れた洞察を得るために、単一の特徴を複数の特徴に変換する方法としてビニングを使用することもよくあります。たとえば、「年齢」の特徴は、40 歳未満の「若い」、40 ～ 60 歳の「中年」、60 歳以上の「古い」に分割されます。

その他の変換の例は次のとおりです。

変数（例：年齢）の最小値と最大値の間の値を範囲[0,1]にスケーリングします。

各タイプのレストランへの訪問回数を料理の「関心」指標で割る

2. 多機能演算

特徴エンジニアリングのもう 1 つのアプローチは、既存のデータポイントのセットに算術式を適用することです。数式では、特性、比率、その他の関係間の相互作用に基づいて導関数を作成できます。

このタイプの機能エンジニアリングは高い価値を提供できますが、モデルの主題と目的を十分に理解している必要があります。

例として、次の式を使用します。

「学校評価」と「犯罪率」の組み合わせから「地域の質」を計算します

訪問者の「実際の支出」と「予想支出」を比較して「カジノの運要素」を決定します

「利用率」はクレジットカードの「残高」を「限度額」で割ることで算出されます。

特定の期間内の最近の取引、取引頻度、および支出額の組み合わせから RFM スコア (最新性、頻度、金額) を取得し、顧客をセグメント化します。

3. 先進技術

チームは、より高度なアルゴリズムアプローチを選択して既存のデータを分析することで、新しい機能を作成する機会を見つけることもできます。

主成分分析（PCA）と独立成分分析（ICA）は、既存のデータを別の特徴空間にマッピングします。

ディープフィーチャーシンセシス（DFS）は、ニューラルネットワークの中間層から中間学習を転送することを可能にする。

2. 成功の枠組みを設定する

チームは、より効率的な機能とモデルを常に探す必要があります。ただし、成功するには、この作業を体系的かつ繰り返し可能なフレームワーク内で実行する必要があります。機能エンジニアリングの取り組みには、次の 6 つの重要なステップがあります。

1. モデルの使用方法を明確にする。まず、モデルの主な目標と使用例を明確にします。チーム全体が同期し、単一の目的を持って作業する必要があります。そうしないと、努力が無駄になり、リソースが無駄になってしまいます。

2. 基準を設定する。高性能モデルを構築するプロセスでは、利用可能なデータの慎重な調査と分析が必要です。しかし、作業計画は現実世界の障害にも適応する必要があります。特性評価プロセスでは、コスト、アクセス可能性、計算上の制限、ストレージの制約、その他の要件などの要因が考慮されます。チームは早い段階でこれらの好みや制限に適応する必要があります。

3. 新しい機能を考案する。問題をより適切に説明し解決するために、新しいデータを作成する方法について幅広く考えます。この時点で、ドメイン知識と主題専門家の関与により、機能エンジニアリングの結果が価値を付加することが保証されます。

4. 入力として要素を構築します。新しい機能コンセプトが特定されたら、利用可能なデータからそれらを構築するための最も効果的な手法を選択します。適切なテクノロジーを選択することが、新機能の有用性を保証する鍵となります。

5. 研究のインパクト。新しい機能がモデルのパフォーマンスに与える影響を評価します。新しい機能の付加価値に関する結論は、モデルのパワーがどのように測定されるかに直接依存します。

モデルのパフォーマンス測定は、意味を持つためにはビジネス測定と関連付けられている必要があります。今日、チームには、精度、再現率、F1 スコア、受信者動作特性 (ROC) 曲線など、正確性をはるかに超えるさまざまな測定オプションがあります。

6. 機能を最適化します。機能エンジニアリングは、新しい機能のテスト、調整、改善を伴う反復的なプロセスです。このプロセスの最適化ループでは、最も影響の大きい機能が特定されるまで、パフォーマンスの低い機能が削除されたり、近いバリアントに置き換えられたりすることがあります。

要約する

機能エンジニアリングは現代社会における新たな錬金術であり、成功したチームは一般的なデータを組織にとって付加価値のある知的財産に変換します。

これを成功させるには、いくつかの重要な原則が役立ちます。

プログラムの出発点がビジネス目標とモデルの有効性の関連尺度を明確に理解した上で始まるように、主題に関する専門知識を含める
反復的かつ体系的なプロセスを通じて
利用可能な多くの機能オプションを検討する
特徴選択がモデルのパフォーマンスにどのように影響するかを理解し、監視する
データを意味のあるモデルを実現する独自の機能に変換するこの機能により、大きな価値が生まれ、組織の競争上の優位性が確保されます。

<<: AI STUDIO - AI機能を実現するためのハードルゼロ

>>: AIによって殺された最初の人々を見てみましょう

OpenAIはGPT-3.5 Turbo、DALL-E、Whisper APIを完全に公開しました

機械学習チームにはより優れた特徴エンジニアリング技術が必要

OpenAIはGPT-3.5 Turbo、DALL-E、Whisper APIを完全に公開しました

50歳の男性がAIの博士号を取得するためにケンブリッジに戻り、AIを使ってレタスを収穫するロボットを開発した。

これらの 8 冊の本を読んでいないのに、コンピュータービジョンの分野で働いていると言える勇気がありますか?

マイクロソフトはBing Chatを今後も無料のままにすると約束

3 つの AIOps プラクティス: 可視化、自動化からインテリジェンスまで

自律型 AI エージェント: 未来の生産性エンジン

Java プログラミングスキル - データ構造とアルゴリズム「再帰」

Baidu World 2018 の開会式で最初の切り札が切られました。Baidu AI City が新しい世界への機関車としてスタートしました!

ソラの13人のメンバーを解読：北京大学卒業生を含む中国人3人、博士号を取得したばかりの1人、そして21歳の天才

推薦する

Google、25周年おめでとうございます！ジェフ・ディーンが自身の青春時代と人工知能の未来について長文の記事を執筆

1 つの記事で機械学習を理解する: 基本概念、5 つの主要な流派、9 つの一般的なアルゴリズム

ハイテク大手の新たな戦場：ロボットの時代が始まる

人工知能人材の需要は倍増し、アルゴリズム人材の不足は170万人に達した

畳み込みニューラルネットワークの「修理工」のための「マニュアル」

業界初のAIリアルタイムステルス技術、ステルスの超能力を手に入れるために快手へ

ロボットとIoTがサプライチェーンに与える影響

AIと行動科学がワクチン接種への躊躇にどう対処できるか

TikTokの背後にあるAIの仕組み

2022年にテクノロジー業界を変えるAIユニコーン企業トップ10

人工知能とビッグデータの完璧な組み合わせ

人工知能の応用は何ですか?

ハーバード大学の新しい研究がサイエンス誌の表紙を飾る：この機械式外骨格は「軽量」なショートパンツだ

AIの最高峰：自然言語処理

AI革命はネットゼロデータセンターに終止符を打つのでしょうか？