AIに置き換えられる最後のグループも失業するだろう

AIに置き換えられる最後のグループも失業するだろう

[[262639]]

これまで、データラベラーは常に「AI に置き換えられる最初のグループ」と呼ばれてきました。

機械学習アプリケーションの開発における最大のボトルネックの 1 つは、最新の機械学習モデルをトレーニングするために大規模なラベル付きデータセットが必要になることです。大手 AI スタートアップにとっても、最も重要なリンクは依然としてデータ ラベラーから始まります。現在、手動でラベル付けされたトレーニング セットは高価で時間がかかり、データの組み立て、クリーニング、デバッグが機械学習モデルの正常な構築の源となっています。

最近、スタンフォード大学とブラウン大学は、「Snorkel Drybell: 産業規模での弱い監督の導入に関するケーススタディ」で協力し、組織内の既存の知識を、ノイズの多い高レベルの監督 (弱い監督) として使用して、大規模なトレーニング データ セットに迅速にラベルを付ける方法を検討しました。この研究では、実験的な内部システムである Snorkel Drybell を使用して、オープンソースの Snorkel フレームワークを使用して、内部モデル、オントロジー、レガシー ルール、ナレッジ グラフなどのさまざまな組織的知識リソースを使用し、フルドメインの機械学習モデルのトレーニング データを生成しました。このアプローチは、何万ものデータ ポイントを手動でラベル付けするのと同等のパフォーマンスを発揮し、実際に最新の機械学習モデルのトレーニング データセットを作成する方法についての重要な教訓を明らかにします。

Snorkel DryBell は、トレーニング データに手動でラベルを付けるのではなく、ラベル付け関数をプログラムで記述してトレーニング データにラベルを付けます。このプロセスでは、これらのラベル機能がどのようにエンジニアの知識を捕捉し、既存のリソースをヒューリスティックな弱い監視として使用するかを検討します。たとえば、有名人に関連するコンテンツを特定することが目標であるとします。既存の固有表現認識 (NER) モデルを活用して、有名人を含まないコンテンツを有名人とは関係のないコンテンツとしてラベル付けすることで、このタスクを達成できます。

これは、既存の知識リソースを単純なプログラミング ロジックと組み合わせて、新しいモデルのトレーニング データにラベルを付ける方法を示しています。さらに重要なのは、このラベル付け関数は多くの場合 None を返す (ラベル付けを行わない) ため、データのごく一部にのみラベルが付けられることです。私たちの全体的な目標は、これらのラベルを使用して、新しいデータに一般化できる最新の機械学習モデルをトレーニングすることです。

ラベル付け関数の例では、データポイント(1)を手動でラベル付けするのではなく、既存の知識リソース(この場合はNERモデル(2))と、コード(3)で表される単純なロジックを活用して、データにヒューリスティックにラベルを付けます。

トレーニング データに注釈を付けるこのプログラム インターフェイスは、個々のデータ ポイントに手動で注釈を付けるよりもはるかに高速で柔軟性に優れていますが、生成されるラベルの品質は手動で割り当てられたラベルの品質よりも大幅に低くなります。これらのラベリング関数によって生成されるラベルは、ラベリング関数の精度が不明であるだけでなく、任意の方法で関連付けられる可能性もあるため (たとえば、共通のデータ ソースやヒューリスティックを共有するなど)、重複したり矛盾したりすることがよくあります。

ノイズの多い相関ラベルの問題に対処するために、Snorkel DryBell は生成モデリング技術を使用して、ラベル付け関数の精度と関連性を自動的に推定し (グラウンド トゥルースのトレーニング ラベルは使用しません)、これを使用して出力を再重み付けして、各データ ポイントの単一の確率ラベルにマージします。

大まかに言えば、ラベル付け関数間の観測された一貫性と不一致 (共分散行列) に依存し、新しい行列補完スタイルの方法を使用して、この観測された出力を最もよく説明するラベル付け関数の精度と相関パラメータを学習します。結果のラベルは、任意のモデル (TensorFlow など) のトレーニングに使用できます。

1. 多様な知識資源を弱い監督として活用する

Snorkel Drybell の有効性を調査するために、Web コンテンツ内のトピックの分類、特定の製品の識別、特定のリアルタイム イベントの検出を目標として、3 つの制作タスクと対応するデータセットを使用しました。 Snorkel DryBell を使用すると、次のようなさまざまな既存またはすぐに指定できる情報ソースを活用できます。

  • ヒューリスティックとルール: 例: 対象ドメイン内の既存の手書きルール。
  • トピック モデル、ラベル、分類子: 対象ドメインまたは関連ドメインに関する機械学習モデルなど。
  • 集計データ: 対象エリア内の追跡指標など。
  • 知識またはエンティティ グラフ: 対象ドメインに関する事実のデータベースなど。

Snorkel DryBell の目標は、Web データ上でコンテンツやイベントの分類などの機械学習モデル (C) をトレーニングすることです。

Snorkel DryBell では、ユーザーはトレーニング データを手動でラベル付けするのではなく、さまざまな組織の知識リソース (A) を表すラベル付け関数を記述し、その後、自動的に再重み付けされて結合されます (B)。

私たちはこれらの組織的知識リソースを使用して、MapReduce テンプレートベースのアプローチでラベル付け関数を記述します。各ラベリング関数はデータ ポイントを受け取り、それを削除するか出力します。結果として、手順的に生成されたトレーニング ラベルの大規模なセットが生成されます。ただし、これらのラベルの多くはノイズが多く、互いに矛盾していたり​​ (ヒューリスティックなど)、タスクに対して粒度が粗すぎたり (トピック モデルなど) するため、Snorkel DryBell が自動的にラベルをクリーンアップして最終的なトレーニング セットに統合する必要があります。

2. 既存のリソースを組み合わせて再利用し、正確にモデル化する

これらのノイズの多いラベルを処理するために、次のステージである Snorkel DryBell は、ラベル付け関数の出力を、各データ ポイントに対して単一の信頼度加重トレーニング ラベルに結合します。技術的な課題は、これをグラウンドトゥルースラベルなしで実行する必要があることです。生成モデリング技術を使用して、ラベルなしデータのみを使用して各ラベル付き関数の精度を学習します。この手法は、ラベル付け関数の出力間の一致行列と不一致行列を観察し、それらの間の既知の(または統計的に推定された)相関構造を考慮して学習します。 Snorkel DryBell では、Web 規模のデータを処理するために、TensorFlow のこのモデリング アプローチのより高速でサンプリング不要のバージョンも使用しています。

このプログラムの注釈機能の出力を Snorkel DryBell に組み合わせることで、高品質のトレーニング ラベルを生成できます。実際、比較のために手作業でラベル付けされたトレーニング データが利用可能な 2 つのアプリケーションでは、ラベルでトレーニングされた Snorkel DryBell と同等の予測精度を達成しました。これは、手作業でラベル付けされた 12,000 および 80,000 のトレーニング データ ポイントでの予測精度と一致しています。

3. 役に立たない知識を役に立つモデルに変換する

多くの設定では、本番環境で使用できる配信可能な機能と配信不可能な機能との間にも重要な区別があります。これらの利用できない機能には非常に豊富なシグナルが含まれている可能性がありますが、それらを使用して、本番環境に展開できるモデルをトレーニングまたは提供するためにどのように使用するかがよくある質問です。

多くの設定では、ユーザーが記述したラベル付け関数は、組織内の、本番環境では提供できない知識リソース (a) (たとえば、本番環境では使用するには遅すぎるか高価すぎる集計統計、内部モデル、または知識グラフ) を活用して、安価なリアルタイムの Web サイト信号など、本番環境に対応したサービス機能 (b) 上でのみ定義されたモデルをトレーニングします。

Snorkel DryBell では、ユーザーはラベル付け関数を記述して、提供されていない機能セットを通じて組織の知識を表現し、Snorkel DryBell によって出力されたトレーニング ラベルを使用して、別の提供された機能セットで定義済みモデルをトレーニングできることがわかりました。

私たちが作成したベンチマーク データセットでは、このクロスフィーチャ変換によりパフォーマンスが平均 52% 向上しました。もっと広い意味では、これは、遅すぎるリソース (高価なモデルや集計統計など)、プライベートなリソース (エンティティ グラフやナレッジ グラフなど)、またはデプロイメントに適さないリソースを使用して、安価なリアルタイム機能を使用してサービス可能なモデルをトレーニングする、シンプルでありながら強力なアプローチを表しています。このアプローチは、異なるデータセット間でモデルを転送するのではなく、ドメイン知識を異なる機能セット間で転送する新しいタイプの転送学習と見なすことができます。このアプローチは、業界だけでなく、医療やその他の分野でも潜在的な使用例があります。

<<:  パリのノートルダム大聖堂の火災後、文化遺産の修復に AI 技術をどのように応用できるでしょうか?

>>:  カリフォルニア州の自動運転路上試験規則が変更され、軽輸送車両も許可範囲に含まれる可能性がある

ブログ    

推薦する

ChatGPT は最近、Microsoft によって内部的に無効化されました。 GPT の新しいバグ: たった 2 つのプロンプトでデータが盗まれる可能性があります

知らせ! GPT を作成するときにアップロードしたデータは、誰でも簡単にダウンロードできます...た...

...

過去 2 週間で AI の進路を変える可能性が最も高い 6 つのリリース!

編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog)過去 2 ...

...

スマートホームは私たちを監視しているのでしょうか?

スマートテクノロジーをどのように活用するのでしょうか?ほとんどのテクノロジー製品は、特にワイヤレス接...

...

...

やがて世界は人工知能に支配されるようになる。ホーキング博士の死後、人工知能の発展に冷水を浴びせるのは誰だろうか?

ホーキング博士は人類に対し、人工知能に対して慎重になるよう警告し続けている。人工知能が発達すると、制...

ワンクリックで 2D GAN を「3D」化、CUHK が教師なし 3D 再構築の新しい方法を提案

CUHK の MMLab チームによるこの研究は、2 次元 GAN がオブジェクトの 3 次元構造を...

人工知能の可能性を解き放つ3つのステップ

ガートナーのデータによると、2020 年までに人工知能は CIO の 30% 以上にとって最優先事項...

AIとIoTの完璧な組み合わせ

AI と IoT が広く使用されるようになるにつれて、これら 2 つのテクノロジーがどのように連携し...

より良いAIでより良い社会を築く

人工知能 (AI) には、従来のエンジニアリング システムからヘルスケア、芸術やエンターテイメントの...

...

リアルタイムの高忠実度レンダリング、PlenOctrees に基づく NeRF レンダリング速度が 3000 倍に向上

[[393143]]まばらな静止画像から任意の 3D オブジェクトとシーンの新しいビューを合成するこ...