Facebook の科学者: アルゴリズム モデルにジャンク データを入力するのはやめてください...

Facebook の科学者: アルゴリズム モデルにジャンク データを入力するのはやめてください...

「人は食べたものでできている。私たちはモデルにジャンクフードを与えている」とフェイスブックのAI研究科学者ムスタファ・シセ氏は最近の会話の中で語った。

[[231256]]
(インターネットからの写真)

食べ物に何が含まれているか分からないと、正しく食べるのは難しいです。同様に、トレーニング データがどのように機能するかを理解していないと、バイアスの少ないモデルをトレーニングすることはできません。

だからこそ、最近の論文「データセット用のデータブックの作成」https://arxiv.org/abs/1803.09010 は非常に興味深いのです。論文では、Microsoft Research の Timnit Gebru 氏と同僚が、他の学術研究機関の共著者とともに、データセットに食品の栄養成分表示に相当するものを提案しました。

多くの機械学習およびディープラーニング モデルは、ImageNet や COCO などの公開データセット、または非公開で作成されたデータセットを使用する傾向があります。これらのデータセットでは、トレーニング データセットの内容、バイアス、その他の関連資料を関心のあるユーザーに伝達できることが非常に重要です。

「データブック」論文では、標準化されたデータブックを使用して、データセット、商用 API、および事前構築されたモデルのユーザーにこの情報を伝達するためのオプションについて説明します。著者らは、このようなデータマニュアルは、ユーザーがデータの偏りを伝えるのに役立つだけでなく、情報の透明性を高め、データの信頼性を保証できるとも指摘している。

潜在的な倫理的問題に加えて、サードパーティのデータを使用してトレーニングされたモデルがさまざまなコンテキストに適切に一般化できない場合、隠れたデータのバイアスによって、展開されたシステムの予測不可能性や障害が発生する可能性があります。もちろん、最善の選択肢は、サードパーティのデータを収集し、その分野の専門知識と深い洞察力を持つ専門家によって構築およびトレーニングされたモデルを使用することです。

広く利用可能な公開データセット、使いやすい機械学習ツール、簡単にアクセスできる AI API、および事前に構築されたモデルにより、AI が民主化され、ますます多くの開発者が AI テクノロジーをアプリケーションに組み込むことができるようになりました。著者らは、AIデータセットとツールのデータシートを作成することで、その分野の専門知識を持たないエンジニアに基本的な情報を提供でき、データセットの誤用によって引き起こされる問題を軽減できる可能性があると示唆している。

情報セキュリティ企業 Terbium Labs の CTO である Clare Gollnick 氏も、科学と AI における再現性の危機について私たちと話し合った際に同様の指摘をしました。彼女は、開発者はより深く複雑なモデルを使って問題を解決することに重点を置く傾向があり、それが本番環境で使用されると一般化の問題に悩まされることが多いことを懸念しています。むしろ、研究者が AI の問題に取り組むためにその分野の既存の専門知識と洞察力を活用すると、より堅牢な結果が得られることを発見しました。

ゲブル氏と共著者らは論文の中で、自動車、製薬、電気などの新興産業の成長に伴って進化してきた安全規制によってAIがまだテストされていないと指摘している。記事では次のように述べられています。

アメリカで初めて自動車が登場したとき、速度制限、一時停止標識、信号、運転者教育、シートベルトや飲酒運転に関する規制はありませんでした。その結果、1900 年代初頭には衝突、スピード違反、無謀運転により多くの死傷者が出ました。

[[231257]]

自動車業界をはじめとする業界では、何十年にもわたり、公共の利益を守るために制定された規制を継続的に見直し、改善してきましたが、業界自身の技術革新も停滞していません。この論文は、特に医療や公共部門などの高リスクの業務で AI が使用され始めていることから、AI に関する法律や規制の策定について検討を始める時期が来ていると主張しています。欧州の今後の一般データ保護規則(GDPR)はこれらの問題に対処する予定です。

この論文で提案されている「データシート」は、電気部品に関連した概念から生まれたものです。販売されるすべての電子部品には、部品の機能、特徴、動作電圧、物理的詳細などを記載した対応する「データシート」が付属しています。これらのデータ シートは、購入前に部品の性能や誤用時の考えられる反応を理解する必要があるユーザーに、必要なサポートを提供します。


(サンプル写真はインターネットより)

著者らは、データセットまたは API のプロバイダーがさまざまな標準化の問題に対処するために「データブック」を含めることを提案しています。この「データブック」には、次のトピックを含める必要があります。

  • データセット作成の動機
  • データセットの構成
  • データ収集プロセス
  • データ前処理
  • データの配布
  • データメンテナンス
  • 法的および倫理的考慮

上記のトピックの詳細な説明については、論文を参照してください。この論文には、さまざまな補足情報も含まれており、UMAS Labeled Faces in the Wild データセットの「データブック」の例も提供されています。これは包括的で使いやすく、効果のあるモデルです。

このような「データブック」により、ユーザーは使用するデータの長所と限界を理解し、バイアスや過剰適合などの問題を防ぐことができます。同時に、「データブック」は、データセットの作成者とユーザーがデータソースをさまざまな角度から考え、データが「事実」として存在するものではなく、慎重に扱い、維持する必要がある重要なリソースであることを理解するように総合的に促すこともできます。

私は電気技師ではありませんが、この興味深いアイデアには本当に感謝しています。

<<:  AIが皮膚がんの診断で17カ国の皮膚科医58人に勝利

>>:  北京で人工知能アイスクリームマシンがデビュー、IBMは「AI + ブロックチェーン」でダイヤモンドを識別

ブログ    
ブログ    

推薦する

大規模言語モデルとベクトルデータベースに基づくニュース推奨システムの開発

翻訳者|朱 仙中レビュー | Chonglou近年、 ChatGPTやBardなどの生成AIツールの...

CV の世界における 3D ビジョンの究極の実現: コンピューターがこの 3 次元の世界を「見る」方法

携帯電話を開くと顔がロック解除されます。VR と AR 技術は、このような仮想でありながら現実のシー...

ビッグデータとクラウドコンピューティングの融合がロボット工学の未来

史上初のロボットのデザインはレオナルド・ダ・ヴィンチにまで遡ることができます。 16 世紀の変わり目...

Llama 2 の中国語版はオープンソースであり、言語モデルとマルチモーダルモデルの両方を備えているため、完全に商用利用可能です。

7月19日、Metaはついに無料の商用版Llama 2をリリースし、オープンソースの大規模モデルの...

LLM評価にArthur Benchを使用する方法を学ぶ

こんにちは、皆さん。私は Luga です。今日は、人工知能 (AI) エコシステムに関連するテクノロ...

...

コードのスキャン、顔認識、人工知能、「インターネット+」...デジタル中国はあなたと私の人生を変えます!

[[264426]]第1回デジタル中国建設サミットのテーマは「情報化で近代化を推進し、デジタル中国...

完全自動サポートにより、ドローンは真の「無人」になります。

ドローンについては皆さんもよくご存知だと思います。近年、無人運用の需要が継続的に高まり、さまざまな最...

...

企業における機械学習の導入を妨げる4つの障害

[51CTO.com クイック翻訳] 機械学習には多くの利点があるのに、なぜ誰もが導入しないのでしょ...

人工知能で最も人気のあるアルゴリズムトップ10をわかりやすく解説

機械学習は業界にとって革新的で重要な分野です。機械学習プログラムに選択するアルゴリズムの種類は、達成...

2018 年の 15 大テクノロジー トレンド、テクノロジーに関して正しい方向に進んでいますか?

[[216696]]一般的に言えば、未来そのものを予測することは難しいため、技術動向を明確に予測す...

ChatGPTをよりスムーズに使用するためのツール「Pandora」

背景ChatGPTを日常的に使用する際に、ネットワーク制限、アカウント制限、公式フロー制限など、次の...

ビッグデータは経済生活に影響を与え、AIの基礎となる

[[204536]] AIと企業にとってビッグデータの重要性とは何でしょうか?ビッグデータマイニング...

ビッグデータアルゴリズムとアプリケーションシナリオパート1: 統計と分布

アルゴリズムはビッグデータの最も価値のある部分です。ビッグデータマイニングとは、大量、不完全、ノイズ...