AIに置き換えられる最後のグループも失業するだろう

AIに置き換えられる最後のグループも失業するだろう

[[262639]]

これまで、データラベラーは常に「AI に置き換えられる最初のグループ」と呼ばれてきました。

機械学習アプリケーションの開発における最大のボトルネックの 1 つは、最新の機械学習モデルをトレーニングするために大規模なラベル付きデータセットが必要になることです。大手 AI スタートアップにとっても、最も重要なリンクは依然としてデータ ラベラーから始まります。現在、手動でラベル付けされたトレーニング セットは高価で時間がかかり、データの組み立て、クリーニング、デバッグが機械学習モデルの正常な構築の源となっています。

最近、スタンフォード大学とブラウン大学は、「Snorkel Drybell: 産業規模での弱い監督の導入に関するケーススタディ」で協力し、組織内の既存の知識を、ノイズの多い高レベルの監督 (弱い監督) として使用して、大規模なトレーニング データ セットに迅速にラベルを付ける方法を検討しました。この研究では、実験的な内部システムである Snorkel Drybell を使用して、オープンソースの Snorkel フレームワークを使用して、内部モデル、オントロジー、レガシー ルール、ナレッジ グラフなどのさまざまな組織的知識リソースを使用し、フルドメインの機械学習モデルのトレーニング データを生成しました。このアプローチは、何万ものデータ ポイントを手動でラベル付けするのと同等のパフォーマンスを発揮し、実際に最新の機械学習モデルのトレーニング データセットを作成する方法についての重要な教訓を明らかにします。

Snorkel DryBell は、トレーニング データに手動でラベルを付けるのではなく、ラベル付け関数をプログラムで記述してトレーニング データにラベルを付けます。このプロセスでは、これらのラベル機能がどのようにエンジニアの知識を捕捉し、既存のリソースをヒューリスティックな弱い監視として使用するかを検討します。たとえば、有名人に関連するコンテンツを特定することが目標であるとします。既存の固有表現認識 (NER) モデルを活用して、有名人を含まないコンテンツを有名人とは関係のないコンテンツとしてラベル付けすることで、このタスクを達成できます。

これは、既存の知識リソースを単純なプログラミング ロジックと組み合わせて、新しいモデルのトレーニング データにラベルを付ける方法を示しています。さらに重要なのは、このラベル付け関数は多くの場合 None を返す (ラベル付けを行わない) ため、データのごく一部にのみラベルが付けられることです。私たちの全体的な目標は、これらのラベルを使用して、新しいデータに一般化できる最新の機械学習モデルをトレーニングすることです。

ラベル付け関数の例では、データポイント(1)を手動でラベル付けするのではなく、既存の知識リソース(この場合はNERモデル(2))と、コード(3)で表される単純なロジックを活用して、データにヒューリスティックにラベルを付けます。

トレーニング データに注釈を付けるこのプログラム インターフェイスは、個々のデータ ポイントに手動で注釈を付けるよりもはるかに高速で柔軟性に優れていますが、生成されるラベルの品質は手動で割り当てられたラベルの品質よりも大幅に低くなります。これらのラベリング関数によって生成されるラベルは、ラベリング関数の精度が不明であるだけでなく、任意の方法で関連付けられる可能性もあるため (たとえば、共通のデータ ソースやヒューリスティックを共有するなど)、重複したり矛盾したりすることがよくあります。

ノイズの多い相関ラベルの問題に対処するために、Snorkel DryBell は生成モデリング技術を使用して、ラベル付け関数の精度と関連性を自動的に推定し (グラウンド トゥルースのトレーニング ラベルは使用しません)、これを使用して出力を再重み付けして、各データ ポイントの単一の確率ラベルにマージします。

大まかに言えば、ラベル付け関数間の観測された一貫性と不一致 (共分散行列) に依存し、新しい行列補完スタイルの方法を使用して、この観測された出力を最もよく説明するラベル付け関数の精度と相関パラメータを学習します。結果のラベルは、任意のモデル (TensorFlow など) のトレーニングに使用できます。

1. 多様な知識資源を弱い監督として活用する

Snorkel Drybell の有効性を調査するために、Web コンテンツ内のトピックの分類、特定の製品の識別、特定のリアルタイム イベントの検出を目標として、3 つの制作タスクと対応するデータセットを使用しました。 Snorkel DryBell を使用すると、次のようなさまざまな既存またはすぐに指定できる情報ソースを活用できます。

  • ヒューリスティックとルール: 例: 対象ドメイン内の既存の手書きルール。
  • トピック モデル、ラベル、分類子: 対象ドメインまたは関連ドメインに関する機械学習モデルなど。
  • 集計データ: 対象エリア内の追跡指標など。
  • 知識またはエンティティ グラフ: 対象ドメインに関する事実のデータベースなど。

Snorkel DryBell の目標は、Web データ上でコンテンツやイベントの分類などの機械学習モデル (C) をトレーニングすることです。

Snorkel DryBell では、ユーザーはトレーニング データを手動でラベル付けするのではなく、さまざまな組織の知識リソース (A) を表すラベル付け関数を記述し、その後、自動的に再重み付けされて結合されます (B)。

私たちはこれらの組織的知識リソースを使用して、MapReduce テンプレートベースのアプローチでラベル付け関数を記述します。各ラベリング関数はデータ ポイントを受け取り、それを削除するか出力します。結果として、手順的に生成されたトレーニング ラベルの大規模なセットが生成されます。ただし、これらのラベルの多くはノイズが多く、互いに矛盾していたり​​ (ヒューリスティックなど)、タスクに対して粒度が粗すぎたり (トピック モデルなど) するため、Snorkel DryBell が自動的にラベルをクリーンアップして最終的なトレーニング セットに統合する必要があります。

2. 既存のリソースを組み合わせて再利用し、正確にモデル化する

これらのノイズの多いラベルを処理するために、次のステージである Snorkel DryBell は、ラベル付け関数の出力を、各データ ポイントに対して単一の信頼度加重トレーニング ラベルに結合します。技術的な課題は、これをグラウンドトゥルースラベルなしで実行する必要があることです。生成モデリング技術を使用して、ラベルなしデータのみを使用して各ラベル付き関数の精度を学習します。この手法は、ラベル付け関数の出力間の一致行列と不一致行列を観察し、それらの間の既知の(または統計的に推定された)相関構造を考慮して学習します。 Snorkel DryBell では、Web 規模のデータを処理するために、TensorFlow のこのモデリング アプローチのより高速でサンプリング不要のバージョンも使用しています。

このプログラムの注釈機能の出力を Snorkel DryBell に組み合わせることで、高品質のトレーニング ラベルを生成できます。実際、比較のために手作業でラベル付けされたトレーニング データが利用可能な 2 つのアプリケーションでは、ラベルでトレーニングされた Snorkel DryBell と同等の予測精度を達成しました。これは、手作業でラベル付けされた 12,000 および 80,000 のトレーニング データ ポイントでの予測精度と一致しています。

3. 役に立たない知識を役に立つモデルに変換する

多くの設定では、本番環境で使用できる配信可能な機能と配信不可能な機能との間にも重要な区別があります。これらの利用できない機能には非常に豊富なシグナルが含まれている可能性がありますが、それらを使用して、本番環境に展開できるモデルをトレーニングまたは提供するためにどのように使用するかがよくある質問です。

多くの設定では、ユーザーが記述したラベル付け関数は、組織内の、本番環境では提供できない知識リソース (a) (たとえば、本番環境では使用するには遅すぎるか高価すぎる集計統計、内部モデル、または知識グラフ) を活用して、安価なリアルタイムの Web サイト信号など、本番環境に対応したサービス機能 (b) 上でのみ定義されたモデルをトレーニングします。

Snorkel DryBell では、ユーザーはラベル付け関数を記述して、提供されていない機能セットを通じて組織の知識を表現し、Snorkel DryBell によって出力されたトレーニング ラベルを使用して、別の提供された機能セットで定義済みモデルをトレーニングできることがわかりました。

私たちが作成したベンチマーク データセットでは、このクロスフィーチャ変換によりパフォーマンスが平均 52% 向上しました。もっと広い意味では、これは、遅すぎるリソース (高価なモデルや集計統計など)、プライベートなリソース (エンティティ グラフやナレッジ グラフなど)、またはデプロイメントに適さないリソースを使用して、安価なリアルタイム機能を使用してサービス可能なモデルをトレーニングする、シンプルでありながら強力なアプローチを表しています。このアプローチは、異なるデータセット間でモデルを転送するのではなく、ドメイン知識を異なる機能セット間で転送する新しいタイプの転送学習と見なすことができます。このアプローチは、業界だけでなく、医療やその他の分野でも潜在的な使用例があります。

<<:  パリのノートルダム大聖堂の火災後、文化遺産の修復に AI 技術をどのように応用できるでしょうか?

>>:  カリフォルニア州の自動運転路上試験規則が変更され、軽輸送車両も許可範囲に含まれる可能性がある

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能がビデオ業界に力を与え、新しいエンターテインメント時代の変化が訪れる

[[264843]]人工知能の基本的な技術アプリケーションとして、コンピューター ビジョンは、その幅...

AIバブルが崩壊したら

今日の午後、友人とチャットをしていて、人工知能バブルの問題について話しました。この問題に関する私の意...

磁気リンクがAIサークルを席巻、87GBシードが直接オープンソースの8x7B MoEモデル

「ハイエンド」オープンソースでは、最も単純なリリース方法が採用されることが多いです。昨日、Mistr...

オープン語彙検出オープンワールド物体検出コンペティション2023優勝チームソリューション共有

OVDテクノロジーの紹介物体検出は、コンピューター ビジョンの分野における中核的なタスクです。その主...

[ディープラーニングシリーズ] PaddlePaddleとTensorflowによる画像分類

先月は、ディープラーニングにおける「Hello World」であるMNIST画像認識を中心に、畳み込...

...

問題点を突き止める - Weiang 入札および評価ビデオインテリジェントアーカイブシステム

財務省令第87号では、購入者または購入代理店は入札および入札評価プロセス全体を録画および記録しなけれ...

2020年のIoTイベントトップ10を振り返る。アプリケーションの加速

今日では、それはもはや高尚な概念ではありません。スマートカーやスマートホームから、企業の資産管理機器...

OpenAIは、AIモデルが人間の価値観と一致していることを確認するために世論を集める新しいチームを結成しました

米国現地時間1月17日火曜日、人工知能分野のリーダーであるOpenAIは、自社のブログで「Colle...

C# のデータ構造とアルゴリズムにおけるツリーの役割を紹介します

C# データ構造とアルゴリズムツリーまず、Windows でコマンド ラインに「tree」と入力しま...

Baidu AI開発者会議が進行中、重要なニュースが次々と発表されている

百度AI開発者会議は予定通り7月4日から5日まで北京国家会議センターで開催されました。百度の創業者、...

...

機械学習ニューラルネットワークとPython実装

ニューラル ネットワークは、機械学習のあらゆる側面に及ぶ幅広い用途に使用されます。この記事では、主に...

アプリケーション管理における AI/ML のユースケース

[[320826]]概要人工知能ベースの運用 (AIOps) は、人工知能と従来の AM/IM 運用...