この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 知っていましたか? ImageNet でも、おそらく少なくとも 100,000 のラベル問題があります。 大規模なデータセット内のラベルエラーを記述または検出すること自体が非常に困難な作業であり、多くのヒーローがそれに悩まされてきました。 最近、MIT と Google の研究者は、与えられたラベルと未知のラベル間の結合分布を直接推定できる一般化信頼学習 (CL)法を提案しました。 この一般化された CL は、オープンソースの Clean Lab Python パッケージとしても利用可能であり、ImageNet および CIFAR で他の最先端の方法よりも 30% 優れたパフォーマンスを発揮します。 この方法はどれほど強力でしょうか?例えば。 上の図は、2012 ILSVRC ImageNet トレーニング セットで自信のある学習を使用して検出されたラベル エラーの例です。研究者たちは、CL によって発見された問題を 3 つのカテゴリーに分類しました。 1. 青: 画像内に複数のラベルがあります。 自信のある学習により、適切なモデルを使用して任意のデータセット内のラベル付けエラーを見つけることができます。次の図は、他の 3 つの一般的なデータセットの例です。 △自信のある学習を使用してさまざまなデータ パターンとモデルを識別する Amazon レビュー、MNIST、Quickdraw データセットに現在存在する誤ったラベル付けの例。 とても良い方法なので、すぐに試してみてはいかがでしょうか? Confident Learning とは何ですか? 信頼学習は、教師あり学習のサブフィールドとして登場しました。 上の図から、CL には 2 つの入力が必要であることが容易にわかります。 1. サンプル外予測確率 弱い監督の場合、CL は次の 3 つのステップで構成されます。 1. クラス条件付きラベルノイズを完全に記述できるように、与えられたノイズラベルと潜在的な(未知の)破損していないラベルの結合分布を推定します。 では、CLはどのように機能するのでしょうか? 犬、キツネ、牛の画像を含むデータセットがあると仮定しましょう。 CL の動作原理は、ノイズ ラベルと真のラベルの結合分布 (下の図の右側の Q 行列) を推定することです。 △左: 確信度の高いカウントの例。右: 3 種類のデータセットのノイズ ラベルと真のラベルの結合分布の例。 次に、CL は、上図の左側の C マトリックスに示すように、「犬」クラスである可能性が高い「犬」というラベルの付いた画像を 100 枚カウントしました。 CL はまた、犬としてラベル付けされた画像のうちキツネである可能性が高いものを 56 枚、犬としてラベル付けされた画像のうち牛である可能性が高いものを 32 枚数えました。 中心的な考え方は、サンプルの予測確率が各クラスのしきい値より大きい場合、サンプルがこのしきい値のクラスに属していると確信できるということです。 さらに、各クラスのしきい値は、そのクラスのサンプルの平均予測確率です。 使いやすいクリーンラボ 前述したように、この記事で言及されている一般化された CL は、実際には Clean Lab Python パッケージです。クリーンラボと呼ばれる理由は、ラベルを「クリーン」にできるからです。 Clean Lab には次のような利点があります。 高速: シングルショット、非反復、並列アルゴリズム (例: ImageNet でラベル エラーを見つけるのに 1 秒未満)。 たった 1 行のコードでタグ エラーを見つけます。 3 行のコードでノイズの多いラベルを学習しましょう。 次に、MNIST における Clean Lab のパフォーマンスを見てみましょう。このデータセットでは 50 個のラベル エラーを自動的に識別できます。 元の MNIST トレーニング データセット内のラベル エラーは、ランクプルーニング アルゴリズムを使用して識別されます。最も信頼性の低い 24 個のラベルを左から右に並べ、上から下に向かって信頼性 (特定のラベルに属する確率) が高くなるにつれて、青緑色で conf として示します。予測確率が最も高いラベルは緑色になります。明らかなエラーは赤で表示されます。 ポータル プロジェクトアドレス: 自信を持って学ぶブログ: |
<<: Uberの自動運転車による死亡事故の捜査に新たな進展:横断歩道の外を歩く歩行者を識別できない
2022年7月12日、九張雲済DataCanvas社は、もう一つの画期的なオープンソース技術成果であ...
オンライン マイクロクレジットの一般的なリスク管理シナリオは、融資前、融資中、融資後の段階に分けられ...
Docker ネットワーク管理は、コンテナをホストに接続し、Docker コンテナ環境での通信とネッ...
もちろん、主な参照アルゴリズム ドキュメントは「http://www.vckbase.com/doc...
最近、ChatGPT/GPT-4シリーズの製品は世界的な注目と議論を集めており、それらに代表される大...
膨大な数の演算回路を搭載した NVIDIA GPU により、AI、高性能コンピューティング、コンピュ...
2021年4月30日、SAEはJ3016「運転自動化分類」の第4版をリリースしました。これは、201...
[51CTO.com クイック翻訳] マシンビジョンは、機械学習と商用グレードのハードウェアを組み合...
今日、私は突然、食べたり飲んだり休んだりすることなく、1時間で200個のレンガを積むことができるレン...
[[411034]] AI 研究者は、新しい機械学習モデルを構築し、パラダイムをトレーニングする際に...
GPT-3などの超大規模モデルの登場により、コンテキスト内学習も普及してきました。インコンテキスト...
先日開催されたCES 2024カンファレンスでは、AI PC(人工知能コンピュータ)のコンセプトや製...
COVID-19のパンデミックにより、私たちはテクノロジー、オンライン活動、人工知能への依存をさら...