CV の未来はこの 68 枚の写真にかかっているのでしょうか? Google BrainがImageNetを深く掘り下げる：トップモデルはすべて予測に失敗する

過去10年間、ImageNetは基本的にコンピュータービジョン分野の「バロメーター」となってきました。精度率が向上したかどうかを見ることで、新しい技術が登場したかどうかを知ることができます。

「ランキング操作」は常にモデルの革新の原動力であり、モデルのトップ 1 精度を 90% 以上まで押し上げ、これは人間の精度を上回っています。

しかし、ImageNet データセットは本当に私たちが考えているほど有用なのでしょうか?

多くの論文では、データの範囲、バイアスの問題、ラベルが完全かどうかなど、ImageNet に関する疑問が提起されています。

最も重要な質問は、モデルの 90% の精度は本当に正確であるかということです。

最近、Google Brain チームとカリフォルニア大学バークレー校の研究者がいくつかの SOTA モデルの予測結果を再検討したところ、モデルの真の精度が過小評価されている可能性があることを発見しました。

論文リンク: https://arxiv.org/pdf/2205.04596.pdf

研究者らは、ベンチマークデータセットのロングテールエラーに関する洞察を得るために、トップモデルの一部が犯したすべての間違いを手動で確認し、分類しました。

主な焦点は ImageNet のマルチラベルサブセット評価にあり、最良のモデルは 97% の Top-1 精度を達成できます。

この研究の分析結果によると、いわゆる予測エラーの約半分はまったくエラーではなく、画像に新しいマルチラベルが見つかりました。つまり、予測結果が手動でレビューされていない場合、これらのモデルのパフォーマンスは「過小評価」される可能性があります。

熟練していないクラウドソーシングデータラベラーは、データに誤ったラベルを付けることが多く、モデルの精度の信頼性に大きな影響を与えます。

ImageNet データセットを調整し、将来の健全な進歩を促進するために、研究者は記事で更新されたマルチラベル評価セットを提供し、sota モデルの予測に明らかなエラーがある 68 の例を新しいデータセット ImageNet-Major に統合して、将来の CV 研究者がこれらの悪いケースを克服できるようにしています。

技術的負債の返済

記事のタイトル「生地はいつベーグルになるのか？」から、著者は主に、歴史的な問題でもある ImageNet のラベル付け問題に関心を持っていることがわかります。

下の図はラベルの曖昧さの典型的な例です。図のラベルは「生地」ですが、モデルの予測結果は「ベーグル」です。これは間違っていますか?

理論的には、このモデルには予測誤差はありません。生地は焼かれており、すぐにベーグルになるため、生地であると同時にベーグルでもあるからです。

モデルは実際に生地がベーグル「になる」ことを予測できたことがわかりますが、正確さの点数は獲得できませんでした。

実際、標準的な ImageNet データセットの分類タスクを評価基準として使用すると、マルチラベルの欠如、ラベルノイズ、カテゴリの未指定などの問題が避けられません。

このようなオブジェクトの識別を担当するクラウドソーシングの注釈者の観点から見ると、これはマルチラベリングによってのみ解決できる意味論的かつ哲学的な問題であるため、ImageNet の派生データセットの主な改善点はラベリングの問題です。

ImageNet が設立されてから 16 年が経ちました。当時のラベル作成者やモデル開発者は、今日ほどデータに対する理解が深かったわけではありません。ImageNet は初期の大容量で、比較的ラベル付けが行き届いたデータセットであったため、CV ランキングの標準として自然に定着しました。

しかし、データのラベル付けにかかる予算はモデルの開発にかかる予算ほど多くないことは明らかであり、ラベル付けの問題の改善も一種の技術的負債となっています。

ImageNet に残っているエラーを見つけるために、研究者らは、30 億のパラメータ (89.5% の精度を達成可能) を持つ標準の ViT-3B モデルと、事前トレーニング済みモデルとして ImageNet-1K で微調整された JFT-3B を使用しました。

ViT-3B は、ImageNet2012_multilabel データセットをテストセットとして使用し、当初 96.3% の精度を達成しました。そのうち、モデルは 676 枚の画像を明らかに誤って予測したため、これらの例について詳細な調査を実施しました。

データを再ラベル付けする際、著者らはクラウドソーシングを選択せず、代わりに 5 人の専門家レビュー担当者のチームを結成してラベル付けを行った。これは、このようなラベル付けのエラーは専門家以外の人が特定するのが難しいためである。

たとえば、図 (a) では、一般的な注釈者は単に「テーブル」と書くかもしれませんが、実際には、画面、モニター、マグカップなど、画像には他にも多くのオブジェクトがあります。

図 (b) の主題は 2 人ですが、ラベルはピケットフェンスであり、明らかに不完全です。他の可能性のあるラベルとしては、蝶ネクタイ、制服などがあります。

図(c)も明らかな例です。「アフリカゾウ」とだけ記しておけば、象牙は見落とされてしまう可能性があります。

図(d)は湖岸と表示されていますが、実際には海岸と表示しても問題ありません。

研究者らは、注釈付けの効率を高めるために、モデルの予測カテゴリ、予測スコア、ラベル、画像を同時に表示できる専用ツールも開発しました。

場合によっては、専門家グループ内でラベルをめぐって論争が起こることもあります。このとき、ラベル付けを支援するために、画像は Google 検索にかけられます。

たとえば、ある例では、モデルの予測にはタクシーが含まれていましたが、画像には「少し黄色」以外にタクシーの標識はありませんでした。

この画像は主にGoogle画像検索を通じて注釈が付けられ、画像の背景には象徴的な橋があることが判明した。研究者らはその後、画像が位置する都市を特定し、その都市のタクシーの画像を取得し、画像には普通の車ではなくタクシーが含まれていることを確認した。また、ナンバープレートのデザインを比較することで、モデルの予測が正しいことも検証されています。

研究のいくつかの段階で発見されたエラーを最初に検討した後、著者らはまず、エラーの重大度に基づいてエラーを 2 つのカテゴリに分類しました。

1. 重大なエラー: 人間はラベルの意味を理解できますが、モデルの予測はラベルとはまったく関係がありません。

2. 軽微なエラー: ラベルが間違っているか不完全で、予測エラーが発生する可能性があります。データをレビューして修正するには専門家が必要です。

ViT-3B モデルによって発生した 155 の主要なエラーについては、研究者らは予測結果の多様性を向上させるために、他の 3 つのモデルに共同予測を行うよう依頼しました。

4 つのモデルすべてが予測できなかった重大なエラーは 68 件ありました。次に、これらの例についてすべてのモデルの予測を分析し、いずれも正しい新しいマルチラベルではない、つまり各モデルの予測が重大なエラーであったことを確認しました。

これら 68 の例には、いくつかの共通の特徴があります。1 つ目は、さまざまな方法でトレーニングされた Sota モデルがすべてこのサブセットで間違いを犯し、専門家のレビューでも予測結果が正確性とはまったく関係がないと判断されたことです。

68 枚の画像のデータセットは、後続の研究者による手動評価を容易にするのに十分なほど小さいです。将来、これらの 68 の例が克服されれば、CV モデルは新たなブレークスルーを達成する可能性があります。

研究者たちはデータを分析して、予測誤差を次の 4 つのタイプに分類しました。

1. 予測されたクラスは実際のラベルに似ているが、まったく同じではない、きめ細かいエラー。

2. 語彙外（OOV）を含む細粒度。モデルは正しいカテゴリを識別しますが、オブジェクトは ImageNet に存在しません。

3. 予測ラベルが画像のコンテキストから読み取られる誤った相関関係。

4. 非プロトタイプ。ラベル内のオブジェクトは予測されたラベルに似ていますが、まったく同じではありません。

研究者らは、元の 676 件の誤りを検討した結果、そのうち 298 件は正しいはずであり、そうでなければ元のラベルが間違っていたか問題があったと判断できることを発見しました。

一般的に、この記事の研究結果からは 4 つの結論を導き出すことができます。

1. 大規模で高精度なモデルが他のモデルにはない新しい予測を行った場合、そのうちの約 50% が正しい新しいマルチラベルです。

2. より高精度のモデルでは、カテゴリとエラーの重大度の間に有意な相関関係は見られませんでした。

3. 今日の SOTA モデルは、人間による評価のマルチラベルサブセットにおいて、最高の専門家のパフォーマンスとほぼ同等か、それを上回ります。

4. ノイズの多いトレーニングデータと未指定のクラスは、画像分類の改善を効果的に測定する能力を制限する要因となる可能性があります。

おそらく、画像のラベル付け問題は、自然言語処理技術によって解決されるまで待たなければならないのでしょうか?

<<: 人工知能時代のアルゴリズムガバナンスの核心と道筋

>>: 10年後には自動運転車が普及するでしょうか？

Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティングインフラストラクチャ

CV の未来はこの 68 枚の写真にかかっているのでしょうか? Google BrainがImageNetを深く掘り下げる：トップモデルはすべて予測に失敗する

Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティングインフラストラクチャ

クラウドコンピューティングのディープラーニングプラットフォームを構築し実践する唯一の方法

張北院士：人工知能の一般理論が形成されつつあり、AI革命の発展は止められない

掃除ロボットが話し始めた。人工知能アシスタントは、家庭の6つの主要分野で努力している。

「黄金の3月と銀の4月」が到来し、AIはすでに人材採用の分野に浸透しています。あなたにはどのような影響があるでしょうか？

海外のJavaエンジニアがGPT-4が論理パズルを解くことはできないが推論能力はあることを証明

AIが医薬品開発において適切な医薬品成分の特定にどのように役立つか

100,000 台以上の Vision Transformer を一度にトレーニングするにはどうすればよいでしょうか?

推薦する

機械翻訳から読心術まで、AIは人類のバベルの塔を再建できるのか？

Testin Cloud Testing: テクノロジーを活用して企業の飛躍を支援

大規模言語モデルの脆弱性緩和ガイド

海外メディア：人間はますます余暇を持ち、AIは資本主義を排除する

強化学習はアプリケーションにおける戦略の「最適解」を見つける

Swift モバイルゲーム開発に適用される幅優先探索アルゴリズム

ブロックチェーンと人工知能は、どうすればお互いの「ゴールデンパートナー」になれるのでしょうか?

HipHop アルゴリズム: マイクロブログの相互作用関係を使用してソーシャルサークルをマイニングする

360 が顔認識分野に参入。「セキュリティ」の壁をどう克服するか?