Facebook の科学者: アルゴリズムモデルにジャンクデータを入力するのはやめてください...

「人は食べたものでできている。私たちはモデルにジャンクフードを与えている」とフェイスブックのAI研究科学者ムスタファ・シセ氏は最近の会話の中で語った。

（インターネットからの写真）

食べ物に何が含まれているか分からないと、正しく食べるのは難しいです。同様に、トレーニングデータがどのように機能するかを理解していないと、バイアスの少ないモデルをトレーニングすることはできません。

だからこそ、最近の論文「データセット用のデータブックの作成」https://arxiv.org/abs/1803.09010 は非常に興味深いのです。論文では、Microsoft Research の Timnit Gebru 氏と同僚が、他の学術研究機関の共著者とともに、データセットに食品の栄養成分表示に相当するものを提案しました。

多くの機械学習およびディープラーニングモデルは、ImageNet や COCO などの公開データセット、または非公開で作成されたデータセットを使用する傾向があります。これらのデータセットでは、トレーニングデータセットの内容、バイアス、その他の関連資料を関心のあるユーザーに伝達できることが非常に重要です。

「データブック」論文では、標準化されたデータブックを使用して、データセット、商用 API、および事前構築されたモデルのユーザーにこの情報を伝達するためのオプションについて説明します。著者らは、このようなデータマニュアルは、ユーザーがデータの偏りを伝えるのに役立つだけでなく、情報の透明性を高め、データの信頼性を保証できるとも指摘している。

潜在的な倫理的問題に加えて、サードパーティのデータを使用してトレーニングされたモデルがさまざまなコンテキストに適切に一般化できない場合、隠れたデータのバイアスによって、展開されたシステムの予測不可能性や障害が発生する可能性があります。もちろん、最善の選択肢は、サードパーティのデータを収集し、その分野の専門知識と深い洞察力を持つ専門家によって構築およびトレーニングされたモデルを使用することです。

広く利用可能な公開データセット、使いやすい機械学習ツール、簡単にアクセスできる AI API、および事前に構築されたモデルにより、AI が民主化され、ますます多くの開発者が AI テクノロジーをアプリケーションに組み込むことができるようになりました。著者らは、AIデータセットとツールのデータシートを作成することで、その分野の専門知識を持たないエンジニアに基本的な情報を提供でき、データセットの誤用によって引き起こされる問題を軽減できる可能性があると示唆している。

情報セキュリティ企業 Terbium Labs の CTO である Clare Gollnick 氏も、科学と AI における再現性の危機について私たちと話し合った際に同様の指摘をしました。彼女は、開発者はより深く複雑なモデルを使って問題を解決することに重点を置く傾向があり、それが本番環境で使用されると一般化の問題に悩まされることが多いことを懸念しています。むしろ、研究者が AI の問題に取り組むためにその分野の既存の専門知識と洞察力を活用すると、より堅牢な結果が得られることを発見しました。

ゲブル氏と共著者らは論文の中で、自動車、製薬、電気などの新興産業の成長に伴って進化してきた安全規制によってAIがまだテストされていないと指摘している。記事では次のように述べられています。

アメリカで初めて自動車が登場したとき、速度制限、一時停止標識、信号、運転者教育、シートベルトや飲酒運転に関する規制はありませんでした。その結果、1900 年代初頭には衝突、スピード違反、無謀運転により多くの死傷者が出ました。

自動車業界をはじめとする業界では、何十年にもわたり、公共の利益を守るために制定された規制を継続的に見直し、改善してきましたが、業界自身の技術革新も停滞していません。この論文は、特に医療や公共部門などの高リスクの業務で AI が使用され始めていることから、AI に関する法律や規制の策定について検討を始める時期が来ていると主張しています。欧州の今後の一般データ保護規則（GDPR）はこれらの問題に対処する予定です。

この論文で提案されている「データシート」は、電気部品に関連した概念から生まれたものです。販売されるすべての電子部品には、部品の機能、特徴、動作電圧、物理的詳細などを記載した対応する「データシート」が付属しています。これらのデータシートは、購入前に部品の性能や誤用時の考えられる反応を理解する必要があるユーザーに、必要なサポートを提供します。

（サンプル写真はインターネットより）

著者らは、データセットまたは API のプロバイダーがさまざまな標準化の問題に対処するために「データブック」を含めることを提案しています。この「データブック」には、次のトピックを含める必要があります。

データセット作成の動機
データセットの構成
データ収集プロセス
データ前処理
データの配布
データメンテナンス
法的および倫理的考慮

上記のトピックの詳細な説明については、論文を参照してください。この論文には、さまざまな補足情報も含まれており、UMAS Labeled Faces in the Wild データセットの「データブック」の例も提供されています。これは包括的で使いやすく、効果のあるモデルです。

このような「データブック」により、ユーザーは使用するデータの長所と限界を理解し、バイアスや過剰適合などの問題を防ぐことができます。同時に、「データブック」は、データセットの作成者とユーザーがデータソースをさまざまな角度から考え、データが「事実」として存在するものではなく、慎重に扱い、維持する必要がある重要なリソースであることを理解するように総合的に促すこともできます。

私は電気技師ではありませんが、この興味深いアイデアには本当に感謝しています。

<<: AIが皮膚がんの診断で17カ国の皮膚科医58人に勝利

>>: 北京で人工知能アイスクリームマシンがデビュー、IBMは「AI + ブロックチェーン」でダイヤモンドを識別