▲ テーブルの上にいるのはマンホールの蓋でしょうか、それともトンボでしょうか?(写真提供:ダン・ヘンドリックス) ▲ 写真はグリーンイグアナでしょうか、それともリスでしょうか?(写真提供:ダン・ヘンドリックス) ▲これは一輪車でしょうか、それとも道路を横断するワニでしょうか?(写真提供:ダン・ヘンドリックス) 人間にとって、答えは明白です。しかし、世界最強の画像認識人工知能でも、上記の問題は解決できません。 これは、各写真が慎重に選択され、画像認識技術を「騙す」ように特別に設計されているためです。これらの写真は、カリフォルニア大学バークレー校、ワシントン大学、シカゴ大学の研究者らが収集した7,000枚の写真の専門データセットから集められたものである。 「現在の(機械学習)モデルは完璧ではない」と、カリフォルニア大学バークレー校のコンピューターサイエンスの博士課程の学生で、論文の著者でもあるダン・ヘンドリックス氏は言う。「人工データを使ってモデルを改善しようとする研究は数多くあるが、こうしたモデルは、(実際の写真から得た)特定の実データに直面すると、深刻かつ一貫して非常に大きな誤りを犯すことが多いことがわかった。」 この問題の重要性を説明するために、まず画像認識技術の発展を振り返ってみましょう。 画像認識ツールはここ数年で性能が向上し、高速化しました。これは主に、スタンフォード大学によって作成され、規模が拡大し続けているオープン データセットである ImageNet のおかげです。現在、データセットには 1,400 万枚以上の写真が含まれており、それぞれに「木」や「空」などのタグが付けられています。この巨大なデータベースは、人工知能のトレーニング教材の重要なコレクションとなっており、新しい AI システムが画像認識システムをトレーニングするための参照ベンチマークとしても使用できます。例えるなら、幼児が新しい言葉を学ぶための絵本のようなものです。現在、ImageNetを使用してトレーニングされた人工知能は、物体認識精度が最大95%と非常に高い精度を誇り、画像の内容の判別においては人間よりも優れています。 しかし、この最後の 5% の精度ギャップに対処することは大きな課題です。 2017年以降、コンピューターは画像を正確に認識することが比較的苦手になっています。そのため、研究者たちは、コンピューターが特定の画像を解釈できない理由を理解しようとしています。 研究者らは、新しい画像コレクションを使用して、ヤフーが所有する写真共有サイトFlickrでAIソフトウェアを混乱させる可能性のある写真を手動で検索した。次に、ImageNet データセットでトレーニングされた AI モデルでテストを行い、モデルが写真の内容を認識できなかった場合は、ImageNet-A (明らかに、名前は Anti-ImageNet の略) と呼ばれる新しいデータセットに追加されました。これら 7,000 枚の写真を識別する際、AI の精度は急速に 90% から 2% に低下しました。はい、お読みの通り、世界で最も先進的な視覚 AI モデルは、これらの写真の 98% を正しく識別できませんでした。 AI システムがこれらの画像を理解できない理由については、かなり複雑な問題です。 現在の AI トレーニングでは、基本的に大量のデータを「ブラックボックス」に投入します。つまり、最終結果に基づいてのみ精度を判断できます。たとえば、「ブラック ボックス」が木のさまざまな画像を十分に確認すると、新しい写真内の木のオブジェクトを認識し始め、トレーニングが成功したとみなされます (このタイプの反復タスクは機械学習と呼ばれます)。しかし問題は、AIが木を識別するためにどのような指標に頼っているのかが分からないことです。形でしょうか?色でしょうか?背景でしょうか?質感でしょうか?それとも、木には人間が気付いたことのない統一された核となる幾何学的パターンがあるのでしょうか?科学者は今のところこの疑問に答えることができません。 つまり、AI の能力の判断は、推論プロセスではなく結果によって行われます。これは、AI に予期せぬ偏りが発見される可能性があり、それが自動運転車や刑事司法などの分野における AI システムの実用化に影響を及ぼす可能性があることを意味します。とりわけ、これは画像認識システムが真にインテリジェントなものではなく、むしろ強力なマッチング ツールであることを意味します。 ImageNet-A データセットは、まさに AI を「騙す」ために構築され、これらの画像がシステムが正しい答えを見つけるのを妨げる理由を結論付けています。たとえば、AI がリスの写真をアシカと間違えると、AI の深い知性と推論能力の欠如が直接露呈します。システムは、識別のために、物体の相対的な大きさや形状ではなく、動物の質感のみに依存する場合があります。 「物体の形状の正しい判断を必要とする写真は、AIモデルを騙す可能性が最も高いようです」とヘンドリックス氏は語った。 研究者たちは、ImageNet-A を使用して、視覚 AI における 7,000 個の盲点を発見することに成功しました。しかし、これは、これらの画像を使用して、AI モデルのこの大きな問題を修正するための新しいトレーニング セットを構築できることを意味するのでしょうか。答えはおそらく「いいえ」です。 「現実世界には膨大な多様性と複雑さがあるため、これらの画像でトレーニングしても、モデルが視覚入力情報の全範囲を本当に確実に管理する方法を学習できない可能性があります」とヘンドリックス氏は言います。「たとえば、1兆枚の画像を収集してラベル付けすれば、モデルの盲点の一部に対処するのに十分かもしれませんが、新しいシーンが現れたり、環境が変化したりすると、以前は修正されていた盲点が再び露呈する可能性があります。」 言い換えれば、機械学習データセットに写真を追加するだけでは、AI モデルのロジックの根本的な欠陥は解決されません。結局のところ、コンピューターがこれまで見たことのない画像が必ず存在するのです。では、研究者はこの最後の 5% の精度ギャップにどのように対処するのでしょうか。ヘンドリックス氏は、より洗練された AI システムを作成するには、現代の機械学習の範囲外で新しい方法を開発する必要があると説明しています。そして、この目標を達成するまで、人間はまだ小さな優越感を保つことができます。現時点では、AI はまだいくつかの面で人間に匹敵することができません。 |
<<: Face-api.jsフレームワークに基づいて、顔認識はフロントエンドで完了します
>>: Github で 12000 以上のスターを獲得した機械学習のチュートリアル。理論、コード、デモが含まれています。
[[330335]]画像出典: Panoramic Vision 「小型化」は生活をより便利にする...
海外メディアの報道によると、1月26日、GoogleはLumiereと呼ばれる人工知能ビデオジェネレ...
世の中に不思議なことは何もありません。 「ボリューム」という言葉が最も重要視されるこの時代に、これま...
生成型 AI の台頭は、インターネットの誕生と同様の影響を及ぼしています。新しいテクノロジーが私たち...
私たちは職場における技術革命の真っ只中にいます。 1か月ちょっと前に世界の人口の3分の1が隔離された...
[[190380]]昨年から、AIの普及に関わる仕事がたくさん必要になりました。私は長い間、ディー...
生成 AI は、特にビジネスの世界でますます人気が高まっています。ウォルマートはつい最近、店舗外の従...
[[407844]]約 100 年前の白黒画像にカラーを施すと、歴史的な意味がさらに増すのでしょうか...
[51CTO.com クイック翻訳] 顧客がビジネスの運命を決定する中心であることは間違いありません...
Google の AI が囲碁の名人に勝利したことは、人工知能の突然かつ急速な進歩を測る手段であり、...
AutoGPT に続いて、もう一つのスター プロジェクトが誕生しました。 GPT-Engineer ...
ディープニューラルネットワークのトレーニングは困難な作業です。 長年にわたり、研究者たちは学習プロセ...
AIGC の魔法の世界では、画像を「ドラッグ」することで、必要な画像を変更したり合成したりできます...
マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの中国人研究者7名に...
[51CTO.com]地理的制約と教師の制約により、中国では質の高い教育資源が常に極めて不足してい...