Facebook の科学者: アルゴリズム モデルにジャンク データを入力するのはやめてください...

Facebook の科学者: アルゴリズム モデルにジャンク データを入力するのはやめてください...

「人は食べたものでできている。私たちはモデルにジャンクフードを与えている」とフェイスブックのAI研究科学者ムスタファ・シセ氏は最近の会話の中で語った。

[[231256]]
(インターネットからの写真)

食べ物に何が含まれているか分からないと、正しく食べるのは難しいです。同様に、トレーニング データがどのように機能するかを理解していないと、バイアスの少ないモデルをトレーニングすることはできません。

だからこそ、最近の論文「データセット用のデータブックの作成」https://arxiv.org/abs/1803.09010 は非常に興味深いのです。論文では、Microsoft Research の Timnit Gebru 氏と同僚が、他の学術研究機関の共著者とともに、データセットに食品の栄養成分表示に相当するものを提案しました。

多くの機械学習およびディープラーニング モデルは、ImageNet や COCO などの公開データセット、または非公開で作成されたデータセットを使用する傾向があります。これらのデータセットでは、トレーニング データセットの内容、バイアス、その他の関連資料を関心のあるユーザーに伝達できることが非常に重要です。

「データブック」論文では、標準化されたデータブックを使用して、データセット、商用 API、および事前構築されたモデルのユーザーにこの情報を伝達するためのオプションについて説明します。著者らは、このようなデータマニュアルは、ユーザーがデータの偏りを伝えるのに役立つだけでなく、情報の透明性を高め、データの信頼性を保証できるとも指摘している。

潜在的な倫理的問題に加えて、サードパーティのデータを使用してトレーニングされたモデルがさまざまなコンテキストに適切に一般化できない場合、隠れたデータのバイアスによって、展開されたシステムの予測不可能性や障害が発生する可能性があります。もちろん、最善の選択肢は、サードパーティのデータを収集し、その分野の専門知識と深い洞察力を持つ専門家によって構築およびトレーニングされたモデルを使用することです。

広く利用可能な公開データセット、使いやすい機械学習ツール、簡単にアクセスできる AI API、および事前に構築されたモデルにより、AI が民主化され、ますます多くの開発者が AI テクノロジーをアプリケーションに組み込むことができるようになりました。著者らは、AIデータセットとツールのデータシートを作成することで、その分野の専門知識を持たないエンジニアに基本的な情報を提供でき、データセットの誤用によって引き起こされる問題を軽減できる可能性があると示唆している。

情報セキュリティ企業 Terbium Labs の CTO である Clare Gollnick 氏も、科学と AI における再現性の危機について私たちと話し合った際に同様の指摘をしました。彼女は、開発者はより深く複雑なモデルを使って問題を解決することに重点を置く傾向があり、それが本番環境で使用されると一般化の問題に悩まされることが多いことを懸念しています。むしろ、研究者が AI の問題に取り組むためにその分野の既存の専門知識と洞察力を活用すると、より堅牢な結果が得られることを発見しました。

ゲブル氏と共著者らは論文の中で、自動車、製薬、電気などの新興産業の成長に伴って進化してきた安全規制によってAIがまだテストされていないと指摘している。記事では次のように述べられています。

アメリカで初めて自動車が登場したとき、速度制限、一時停止標識、信号、運転者教育、シートベルトや飲酒運転に関する規制はありませんでした。その結果、1900 年代初頭には衝突、スピード違反、無謀運転により多くの死傷者が出ました。

[[231257]]

自動車業界をはじめとする業界では、何十年にもわたり、公共の利益を守るために制定された規制を継続的に見直し、改善してきましたが、業界自身の技術革新も停滞していません。この論文は、特に医療や公共部門などの高リスクの業務で AI が使用され始めていることから、AI に関する法律や規制の策定について検討を始める時期が来ていると主張しています。欧州の今後の一般データ保護規則(GDPR)はこれらの問題に対処する予定です。

この論文で提案されている「データシート」は、電気部品に関連した概念から生まれたものです。販売されるすべての電子部品には、部品の機能、特徴、動作電圧、物理的詳細などを記載した対応する「データシート」が付属しています。これらのデータ シートは、購入前に部品の性能や誤用時の考えられる反応を理解する必要があるユーザーに、必要なサポートを提供します。


(サンプル写真はインターネットより)

著者らは、データセットまたは API のプロバイダーがさまざまな標準化の問題に対処するために「データブック」を含めることを提案しています。この「データブック」には、次のトピックを含める必要があります。

  • データセット作成の動機
  • データセットの構成
  • データ収集プロセス
  • データ前処理
  • データの配布
  • データメンテナンス
  • 法的および倫理的考慮

上記のトピックの詳細な説明については、論文を参照してください。この論文には、さまざまな補足情報も含まれており、UMAS Labeled Faces in the Wild データセットの「データブック」の例も提供されています。これは包括的で使いやすく、効果のあるモデルです。

このような「データブック」により、ユーザーは使用するデータの長所と限界を理解し、バイアスや過剰適合などの問題を防ぐことができます。同時に、「データブック」は、データセットの作成者とユーザーがデータソースをさまざまな角度から考え、データが「事実」として存在するものではなく、慎重に扱い、維持する必要がある重要なリソースであることを理解するように総合的に促すこともできます。

私は電気技師ではありませんが、この興味深いアイデアには本当に感謝しています。

<<:  AIが皮膚がんの診断で17カ国の皮膚科医58人に勝利

>>:  北京で人工知能アイスクリームマシンがデビュー、IBMは「AI + ブロックチェーン」でダイヤモンドを識別

ブログ    
ブログ    

推薦する

CCTV 3.15は顔認識の悪用を暴露し、多くの教育企業が同様のカメラを使用する可能性がある

CCTV スクリーンショット街面の李婷が報告顔認識の応用シナリオはますます多様化しており、その背後...

微積分の最終試験に希望があります! AIが方程式を解くのを手伝います

最近、Facebook AI は、記号推論を使用して高度な数式を解き、その精度が Mathemati...

AIのボトルネックの突破口は物理的な人工知能にある

人間の生活様式はここ数十年で大きく変化し、リモートおよび自動化されたプロセスの必要性が浮き彫りになり...

スマートホーム技術における感情AIの役割

スマートホーム テクノロジーの登場により、私たちが生活空間と関わる方法は大きく変わりました。音声制御...

「人工知能のゴッドファーザー」ジェフリー・ヒントン氏は再び警告した。AIが人間に取って代わるかもしれない

10月10日、「人工知能のゴッドファーザー」として知られるジェフリー・ヒントン氏は、人工知能は危険で...

アルゴリズム実践者が知っておくべき TensorFlow のヒント 10 選

導入これらを習得することで、モデルをより効率的にして開発効率を向上させることができます。 [[343...

人工知能の分野では、すでに世界中で 10 個の画期的な技術が存在します。

[[238191]]人工知能はハイテクで、多岐にわたり、多次元的で、学際的な統合装置であり、ビッグ...

人工知能のように製品にユーザーを理解させるにはどうすればよいでしょうか?これらの方法をまとめてみました!

ほとんどの人は、ロボットやアプリケーション ツールについて話すときにインテリジェンスについて言及しま...

...

...

変数からカプセル化まで: この記事は機械学習のための強固なPythonの基礎を築くのに役立ちます

[[206375]]まず、Python とは何でしょうか? Python の作成者である Guido...

CMU PhD により、インテリジェント エージェントが現実世界で競争できるようになります。 GPT-4が勝利したが成功率はわずか10%

私たちは長い間、人工知能の進歩によって推進される自律的なインテリジェントエージェントを作成するという...

データ センターは生成 AI に対応できる準備ができていますか?

プロンプトに応じてテキスト、画像、その他のコンテンツを生成できる生成型人工知能 (AI) の企業導...

機械学習におけるアルゴリズムとモデルの違い

[[333414]]機械学習における「アルゴリズム」とは何ですか?機械学習における「アルゴリズム」と...