ImageNetに匹敵するこのデータセットは、MITによって腹立たしい理由で緊急に削除されました。

ImageNetに匹敵するこのデータセットは、MITによって腹立たしい理由で緊急に削除されました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

今週、MIT は Tiny Images データセットを緊急に削除しました。

理由は簡単です。一部の学者は、多数の検索エンジンを通じて統合されたこのデータセットには、児童虐待、性的ほのめかし、人種差別など、多くの不快なラベルが実際に含まれていると指摘しています。

これらの画像のラベル (b***h、w**re) は非常に偏っていて非人道的です。

△統計によると、このようなタグを含む写真は数万枚ある

このようなラベルや画像を含むデータセットが AI のトレーニングに使用された場合、結果は悲惨なものとなるでしょう。

しかし、状況は不可逆的であるように思われます。このデータセットは主に小さな画像で構成されており、写真の数が膨大であるため、コンピューターのハードウェアがまだ開発されていなかった時代に AI トレーニングで広く使用され、arXiv で頻繁に引用されている論文となっています。

この件に関してRedditでは相反する意見が出ています。

一部のネットユーザーは、この件は少々誇張されていると考えている。結局のところ、インターネットを通じて収集されたこれらの画像やテキスト情報も現実世界の一部です。


私にとって、これはちょっとした「道徳的パニック」です。 GPT-3 のトレーニングに使用される約 1 TB のオープン Web テキスト情報に不快なコンテンツが含まれていないと考える人はいますか?


しかし、拍手喝采する支持的なネットユーザーもいた。


よくやった、MIT!


こうした感情的な見解に加えて、多くの人々がこのデータセットの形成理由について合理的に考え始めています。

これはデータセットを作成した著者がそれを確認する時間がなかったためでしょうか?


これらの機械学習研究者は、画像を処理する際に検索フィルターを設定しないのでしょうか?私の経験では、品質の低いデータセットが、チェックする時間もなくリリースされることがあります。


すぐに一部のネットユーザーは、Tiny Images はこのカテゴリに該当しないとして、この見解を否定しました。


私は原作者を知っていますが、状況はあなたが考えているものとは違います。作者たちは、現代の私たちほどそのことについて考えていなかっただけだと思います。検索エンジンを使って画像を統合したとき、タグ リストをフィルタリングすることについては考えていなかったかもしれません。


ネットユーザーがどのような意見を持っているかに関係なく、このデータセットが削除されたことは議論の余地のない事実です。

この研究では、Tiny Images よりも影響力のあるデータセットである ImageNet にも不快な画像が含まれていることが指摘されましたが、Tiny Images ほど多くはありませんでした。

一部の学者は、ImageNet には多くの管理者がいて画像分類が明確であるのに対し、Tiny Images はほとんど綿密に調査されたことがないと指摘しました。

Tiny Images データセットが長年にわたって手動でチェックされることがほとんどなかった理由は何ですか?

この質問は、Tiny Images 自体の特性から始める必要があるかもしれません。

Tiny Imagesデータセットの特徴

2006 年の開始以来、Tiny Images データセットには WordNet の 50,000 を超えるさまざまなタグが含まれています。

データセット内の画像は、タグを検索し、見つかった画像を自動的にダウンロードする検索エンジンから取得されます。

ソートされた画像の数は8,000 万に達し、それぞれが非常に低い解像度 (32×32) でデータセットに保存され、Tiny Images データセットの特徴である、膨大な数と小さな画像を形成しています。

しかし、画像の数が多いために、これらの不快な画像は深く隠されており、解像度が低いため、これらの画像を視覚的に識別することが困難になっています。

アプリが販売中止になったとき、MITは公式な説明を行った。

Tiny Images から不快な画像をすべて完全に削除できるとは保証できないため、Tiny Images をオフラインにしました。

同時に、Tiny Images データセットの既存のコピーがオンラインで流通されなくなることを願っています。

Tiny Images を削除する最も重要な理由は、非常に偏った不快なラベルが付けられたこれらの画像が、コンピューター ビジョン業界が達成しようとしている包括的かつ公平な価値観に反するからです。

それだけでなく、これらのラベルを使用してトレーニングされた AI モデルは、画像分類やターゲット検出中のターゲット認識にこれらの暗黙的な非人道的なラベルを使用する可能性があります。

AIが偏向する理由

今回は、Tiny Images と ImageNet の両方が WordNet と呼ばれる語彙集のせいで失敗しました。

語彙は、単語の意味の強い関連性で知られています。さまざまな単語は、さまざまな単語の意味に応じてさまざまなセットにグループ化され、最終的に語彙ネットワークを形成します。

たとえば、WordNet は「ビキニ」、「ポルノ」、「売春婦」(蔑称)などの単語を関連付けており、検索エンジンで画像検索を実行すると、表示される画像は非常に偏ったものになります。

△「売春婦」タグの下の画像はビキニ姿の女性かもしれない

必然的に、WordNet には軽蔑的または偏見のあるラベルが付いた画像が多数含まれます。これらの画像をトレーニングに使用するときにラベルがフィルタリングされていない場合、トレーニングされた AI はこれらのラベルを使用して「色眼鏡」をかけた人物を識別する可能性があります。

ImageNet は、その人気と優れた画像分類のおかげで、幸いにも適切に管理されています。対照的に、Tiny Images の軽蔑的なラベルが付いた画像の多くは、解像度が低いため認識が困難です。

これにより緊急停止に至りました。

しかし、一部のネットユーザーが述べているように、いずれにせよ、偏りのないデータセットを作成すること自体が、優れた AI トレーニングに不可欠な部分です。

現在、最新のデータ セットの多くも、さまざまな方法でこの「偏りのない」目標に近づくよう絶えず取り組んでいます。

Tiny Images著者紹介

[[332095]]

△ 著者 アントニオ・トラルバ

Antonio Torralba は MIT の准教授です。彼の主な研究分野はコンピューター ビジョンと機械学習です。Tiny Images は、彼と他の 2 人の著者が 8 か月かけてまとめたマイクロ画像のデータセットです。

​​

<<:  モデルもオンライン授業を受講できますか? !サービス指向の蒸留トレーニング プログラムを 1 つの記事で理解する

>>:  AIは人間ではないため、米国特許庁はAIの発明の全てを認めない

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIとクラウドコンピューティングの深い統合は何をもたらすのでしょうか?

「AIは多くのリソースを消費し、強力なコンピューティング能力を必要とし、規模の経済性を反映する技術...

需要が高まる最高AI責任者

出版社ファウンドリーの新しい調査によると、企業は生産性とイノベーションを高めるために人工知能に注目し...

AIを使って人の心を理解する?感情科学の専門家:表情から感情を識別するのは信頼できない

AIは人間の感情を認識できるでしょうか?原理的には、AIは音声認識、視覚認識、テキスト認識、表情認識...

生成AIビッグモデルが人類の進化に与える影響

日々の仕事は ChatGPT などの言語生成モデルと切り離せないものだと思いますか? Midjour...

...

将来の医療における人工知能の重要な役割

今日の製薬業界が直面している最大の課題の 1 つは、新薬の開発と市場投入にかかるコストの高さです。こ...

強力な提携:ソーシャルロボット企業Furhatがロボット企業Misty Roboticsを買収

ミスティはとんでもない乗り心地を体験した。 FoundryとVenrockから1,150万ドルを調達...

...

顔認識技術の法的ギャップを埋める必要がある

顔認識などの新興技術が普及し、何百万人もの人々の生活に入り込むにつれて、技術の使用をめぐる論争がます...

とても怖い!最初のAIはすでに詐欺行為を行っている

​​ [[250441]]​​この記事はGeek View (ID: geekview) の許可を得...

エキサイティング!自動運転におけるGPT-4Vの予備研究

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

一般化の危機! LeCunは質問を公開しました: テストセットとトレーニングセットは決して関連していません

[[431567]]長い間、テスト セットで優れたパフォーマンスを発揮するモデルは、一般化のパフォー...

COVID-19 最新情報: COVID-19 との戦いに役立つトップ 10 のイノベーション

[[320870]]迅速な感染検査から3Dプリントソリューションまで、世界中のテクノロジー企業が協力...

オブジェクト ストレージが AI と機械学習に適している 3 つの理由!

[[329860]] 【51CTO.com クイック翻訳】あらゆる種類の企業が AI や機械学習プ...

5G時代には人工知能が人を殺し始めるのでしょうか?

映画やテレビ作品では、人工知能による殺人はごく普通のことのように思えますが、結局のところ、それは人間...