CV の未来はこの 68 枚の写真にかかっているのでしょうか? Google BrainがImageNetを深く掘り下げる:トップモデルはすべて予測に失敗する

CV の未来はこの 68 枚の写真にかかっているのでしょうか? Google BrainがImageNetを深く掘り下げる:トップモデルはすべて予測に失敗する

過去10年間、ImageNetは基本的にコンピュータービジョン分野の「バロメーター」となってきました。精度率が向上したかどうかを見ることで、新しい技術が登場したかどうかを知ることができます。

「ランキング操作」は常にモデルの革新の原動力であり、モデルのトップ 1 精度を 90% 以上まで押し上げ、これは人間の精度を上回っています。

しかし、ImageNet データセットは本当に私たちが考えているほど有用なのでしょうか?

多くの論文では、データの範囲、バイアスの問題、ラベルが完全かどうかなど、ImageNet に関する疑問が提起されています。

最も重要な質問は、モデルの 90% の精度は本当に正確であるかということです。

最近、Google Brain チームとカリフォルニア大学バークレー校の研究者がいくつかの SOTA モデルの予測結果を再検討したところ、モデルの真の精度が過小評価されている可能性があることを発見しました。

論文リンク: https://arxiv.org/pdf/2205.04596.pdf

研究者らは、ベンチマーク データセットのロングテール エラーに関する洞察を得るために、トップ モデルの一部が犯したすべての間違いを手動で確認し、分類しました。

主な焦点は ImageNet のマルチラベル サブセット評価にあり、最良のモデルは 97% の Top-1 精度を達成できます。


この研究の分析結果によると、いわゆる予測エラーの約半分はまったくエラーではなく、画像に新しいマルチラベルが見つかりました。つまり、予測結果が手動でレビューされていない場合、これらのモデルのパフォーマンスは「過小評価」される可能性があります。

熟練していないクラウドソーシング データ ラベラーは、データに誤ったラベルを付けることが多く、モデルの精度の信頼性に大きな影響を与えます。

ImageNet データセットを調整し、将来の健全な進歩を促進するために、研究者は記事で更新されたマルチラベル評価セットを提供し、sota モデルの予測に明らかなエラーがある 68 の例を新しいデータセット ImageNet-Major に統合して、将来の CV 研究者がこれらの悪いケースを克服できるようにしています。

技術的負債の返済

記事のタイトル「生地はいつベーグルになるのか?」から、著者は主に、歴史的な問題でもある ImageNet のラベル付け問題に関心を持っていることがわかります。

下の図はラベルの曖昧さの典型的な例です。図のラベルは「生地」ですが、モデルの予測結果は「ベーグル」です。これは間違っていますか?

理論的には、このモデルには予測誤差はありません。生地は焼かれており、すぐにベーグルになるため、生地であると同時にベーグルでもあるからです。

モデルは実際に生地がベーグル「になる」ことを予測できたことがわかりますが、正確さの点数は獲得できませんでした。

実際、標準的な ImageNet データセットの分類タスクを評価基準として使用すると、マルチラベルの欠如、ラベルノイズ、カテゴリの未指定などの問題が避けられません。

このようなオブジェクトの識別を担当するクラウドソーシングの注釈者の観点から見ると、これはマルチラベリングによってのみ解決できる意味論的かつ哲学的な問題であるため、ImageNet の派生データセットの主な改善点はラベリングの問題です。

ImageNet が設立されてから 16 年が経ちました。当時のラベル作成者やモデル開発者は、今日ほどデータに対する理解が深かったわけではありません。ImageNet は初期の大容量で、比較的ラベル付けが行き届いたデータセットであったため、CV ランキングの標準として自然に定着しました。

しかし、データのラベル付けにかかる予算はモデルの開発にかかる予算ほど多くないことは明らかであり、ラベル付けの問題の改善も一種の技術的負債となっています。

ImageNet に残っているエラーを見つけるために、研究者らは、30 億のパラメータ (89.5% の精度を達成可能) を持つ標準の ViT-3B モデルと、事前トレーニング済みモデルとして ImageNet-1K で微調整された JFT-3B を使用しました。

ViT-3B は、ImageNet2012_multilabel データセットをテスト セットとして使用し、当初 96.3% の精度を達成しました。そのうち、モデルは 676 枚の画像を明らかに誤って予測したため、これらの例について詳細な調査を実施しました。

データを再ラベル付けする際、著者らはクラウドソーシングを選択せず​​、代わりに 5 人の専門家レビュー担当者のチームを結成してラベル付けを行った。これは、このようなラベル付けのエラーは専門家以外の人が特定するのが難しいためである。

たとえば、図 (a) では、一般的な注釈者は単に「テーブル」と書くかもしれませんが、実際には、画面、モニター、マグカップなど、画像には他にも多くのオブジェクトがあります。

図 (b) の主題は 2 人ですが、ラベルはピケット フェンスであり、明らかに不完全です。他の可能性のあるラベルとしては、蝶ネクタイ、制服などがあります。

図(c)も明らかな例です。「アフリカゾウ」とだけ記しておけば、象牙は見落とされてしまう可能性があります。

図(d)は湖岸と表示されていますが、実際には海岸と表示しても問題ありません。

研究者らは、注釈付けの効率を高めるために、モデルの予測カテゴリ、予測スコア、ラベル、画像を同時に表示できる専用ツールも開発しました。

場合によっては、専門家グループ内でラベルをめぐって論争が起こることもあります。このとき、ラベル付けを支援するために、画像は Google 検索にかけられます。

たとえば、ある例では、モデルの予測にはタクシーが含まれていましたが、画像には「少し黄色」以外にタクシーの標識はありませんでした。

この画像は主にGoogle画像検索を通じて注釈が付けられ、画像の背景には象徴的な橋があることが判明した。研究者らはその後、画像が位置する都市を特定し、その都市のタクシーの画像を取得し、画像には普通の車ではなくタクシーが含まれていることを確認した。また、ナンバープレートのデザインを比較することで、モデルの予測が正しいことも検証されています。

研究のいくつかの段階で発見されたエラーを最初に検討した後、著者らはまず、エラーの重大度に基づいてエラーを 2 つのカテゴリに分類しました。

1. 重大なエラー: 人間はラベルの意味を理解できますが、モデルの予測はラベルとはまったく関係がありません。

2. 軽微なエラー: ラベルが間違っているか不完全で、予測エラーが発生する可能性があります。データをレビューして修正するには専門家が必要です。

ViT-3B モデルによって発生した 155 の主要なエラーについては、研究者らは予測結果の多様性を向上させるために、他の 3 つのモデルに共同予測を行うよう依頼しました。

4 つのモデルすべてが予測できなかった重大なエラーは 68 件ありました。次に、これらの例についてすべてのモデルの予測を分析し、いずれも正しい新しいマルチラベルではない、つまり各モデルの予測が重大なエラーであったことを確認しました。

これら 68 の例には、いくつかの共通の特徴があります。1 つ目は、さまざまな方法でトレーニングされた Sota モデルがすべてこのサブセットで間違いを犯し、専門家のレビューでも予測結果が正確性とはまったく関係がないと判断されたことです。

68 枚の画像のデータセットは、後続の研究者による手動評価を容易にするのに十分なほど小さいです。将来、これらの 68 の例が克服されれば、CV モデルは新たなブレークスルーを達成する可能性があります。

研究者たちはデータを分析して、予測誤差を次の 4 つのタイプに分類しました。

1. 予測されたクラスは実際のラベルに似ているが、まったく同じではない、きめ細かいエラー。

2. 語彙外(OOV)を含む細粒度。モデルは正しいカテゴリを識別しますが、オブジェクトは ImageNet に存在しません。

3. 予測ラベルが画像のコンテキストから読み取られる誤った相関関係。

4. 非プロトタイプ。ラベル内のオブジェクトは予測されたラベルに似ていますが、まったく同じではありません。

研究者らは、元の 676 件の誤りを検討した結果、そのうち 298 件は正しいはずであり、そうでなければ元のラベルが間違っていたか問題があったと判断できることを発見しました。

一般的に、この記事の研究結果からは 4 つの結論を導き出すことができます。

1. 大規模で高精度なモデルが他のモデルにはない新しい予測を行った場合、そのうちの約 50% が正しい新しいマルチラベルです。

2. より高精度のモデルでは、カテゴリとエラーの重大度の間に有意な相関関係は見られませんでした。

3. 今日の SOTA モデルは、人間による評価のマルチラベル サブセットにおいて、最高の専門家のパフォーマンスとほぼ同等か、それを上回ります。

4. ノイズの多いトレーニング データと未指定のクラスは、画像分類の改善を効果的に測定する能力を制限する要因となる可能性があります。

おそらく、画像のラベル付け問題は、自然言語処理技術によって解決されるまで待たなければならないのでしょうか?

<<:  人工知能時代のアルゴリズムガバナンスの核心と道筋

>>:  10年後には自動運転車が普及するでしょうか?

推薦する

紆余曲折の続く教育+AI。舞台裏へのシフトは、巨大企業の拡大に向けた「新たな春」となるのか?

現在、人工知能技術は多くの産業に大きな影響を与えています。その中で、近年最もホットな産業である教育は...

...

...

人工知能によって破壊される可能性のある7つの業界

[[417720]]人工知能は最先端の技術から人々の日常生活に組み込まれる技術へと急速に進化していま...

...

ディスカッション | 人工知能は同時通訳に取って代わることができるか?

[[254687]]少し前に同時通訳者がiFlytekを「AI同時通訳詐欺」と非難し、ネット上で騒...

...

Kubernetes にディープラーニング モデルをデプロイする方法

Kubermatic Kubernetes プラットフォームを使用して、画像認識予測用のディープラー...

人工知能はブロックチェーンにどのような影響を与えるのでしょうか?

人工知能 (AI) の開発には、機械による継続的な学習が伴います。コンピュータが「スマート」になるた...

...

スマートテクノロジーは高齢化問題の解決に役立つでしょうか?

世界保健機関によれば、2050年までに世界中で約20億人が60歳以上になると予想されています。これら...

人工知能の分野は大きな需要があり、金融​​人材の将来性は有望である

[[408300]]重慶ビジネスデイリー・商油新聞記者が本について語る大学入試願書を記入中です。専攻...

人工知能の台頭によりプログラマーは消滅するのでしょうか?

ローコードおよびノー​​コード プラットフォームの爆発的な成長により、個人でも組織でも、従来はコード...

今後5年間であなたの人生はどのように変わるでしょうか?人工知能は水力発電のようなさまざまな産業に参入する可能性がある

中国は最近、第14次5カ年計画の草案と2035年までの長期目標を発表し、各界から激しい議論を巻き起こ...

ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニング データを漏洩する制御不能状態、OpenAI が修正、まだ機能している

ChatGPTの最新の脆弱性が明らかになり、たった1つの文でトレーニングデータがそのまま漏洩してしま...