どこにでも「ゴミ」がある: 人工知能には高品質のデータが不足しています!

この記事は、公開アカウント「Reading the Core」（ID: AI_Discovery）から転載したものです。

ある意味、人工知能はこれまで私たちの想像をはるかに超えてきました。しかし、現実には、Siri は今日の天気をユーザーに伝えることすらできません。

問題は何でしょうか? モデルをトレーニングして測定するための高品質のデータセットを作成することは、依然として非常に困難です。 Reddit 分類器をトレーニングするために 1 日で 20,000 個のラベルを収集できるはずでしたが、代わりに 3 か月待って、スパムだらけのトレーニングセットを入手しました。

[[355008]]

4年前、AlphaGoが世界の囲碁の達人を破り、大手テクノロジー企業が機械学習の新興企業を次々と買収し、ニューヨークタイムズ紙は「機械学習はコンピューター技術に革命を起こすだろう」と宣言した。

[[355009]]

2016年、DeepMindはStarCraft 2をプレイするためのAIの構築を開始し、2019年末までに「AlphaStar」と呼ばれるAIプログラムがマスターレベルの成果を達成しました。

わずか数年のうちに、Alexa が私たちの家庭を占領し、Netflix が私たちの友人よりも優れた映画推薦をするようになるようです。

その後何が起こりましたか？

より高速な GPU により、ニューラルネットワークのトレーニングのオーバーヘッドが削減され、より大規模なモデルのトレーニングが可能になります。新しいツールによりインフラストラクチャの作業が容易になります。

より主観的なタスクを実行することを学習できる新しいニューラルネットワークアーキテクチャも開発されています。たとえば、ブログ記事を書いたり、Hacker News の見出しを飾ったりできる言語ジェネレーターである OpenAi の GPT-3 モデルを考えてみましょう。

GPT-3 が生産性について書いたブログ投稿が Hacker News で話題になりました。

それで、改革はどこで行われたのでしょうか?

では、なぜ AI は世界を席巻していないのでしょうか? なぜ人々は GPT-3 を使用してブログ投稿を生成できるのに、ソーシャルメディア企業はフィードから炎上コンテンツを削除するのに苦労しているのでしょうか? なぜ e コマース企業は、超人的な StarCraft アルゴリズムを持っているにもかかわらず、トースターをもう 1 つ購入するよう勧め続けるのでしょうか? なぜモデルはリアルな画像 (および映画) を合成できるのに、顔認識はできないのでしょうか?

モデルは改善していますが、データは停滞しています。モデルは、依然としてエラーを含むデータセットでトレーニングされており、作成者が実際に意図したものと一致することはほとんどありません。

今のデータの何が問題なのか？入ってくるデータもゴミだし、出て行くデータもゴミだ

場合によっては、リンクやユーザー契約などのカテゴリに基づいてエージェントでデータがトレーニングされます。

たとえば、ソーシャルメディアのツイートは、ユーザーに最高のエクスペリエンスを提供するようにトレーニングされているわけではなく、データを取得する最も簡単な方法であるリンクとプロトコルを活用するようにトレーニングされているだけです。

しかし、「いいね」の数と量には何の関係もありません。衝撃的な陰謀論は非常に目を引きますが、自分のツイートでそれを見たいでしょうか? この不一致は、クリックベイトの急増、政治的な虚偽情報の広範な拡散、悪意のある扇動的なコンテンツの広範な存在など、多くの意図しない副作用を引き起こしています。

また、モデルは、ネイティブスピーカーではない人や、低品質の結果が検出されないことを知っている作業者によって作成されたデータセットでトレーニングされることもあります。次のツイートを例に挙げましょう。

典型的なタグ付け者は、「ビッチ」「クソ」「くそ」という言葉を認識し、たとえその悪口が前向きで前向きな態度に基づいていたとしても、そのツイートを有害だとマークするだろう。この状況はトレーニングセットで無数に発生します。データがモデルを定義します。データが誤って分類されたゴミである場合、機械学習の専門家であってもモデルが同様に役に立たなくなるのを防ぐことはできません。

どのような進歩が必要なのでしょうか?

データセットの問題は、さまざまな疑問を引き起こします。

パフォーマンスの低いモデルに直面したエンジニアは、製品の機能や新しいアルゴリズムをいじくり回すのに何ヶ月も費やしましたが、問題がデータにあることに気づきませんでした。家族や友人を結びつけるはずだったアルゴリズムは、代わりに激しい感情と怒りのコメントを生み出しました。これらの問題をどのように解決すればよいでしょうか?

（１）あなたが解決しようとしている問題を理解している熟練した高品質のトークナイザー

AI システムがますます高度化するにつれて、そのパフォーマンスを指導し測定するための高度で独創的な人間によるラベリングシステムが必要になります。誤解を招く情報を選別できるほど世界について十分な知識を持つモデルや、クリック数ではなく時間を増やすアルゴリズムについて考えてみましょう。

この複雑さのレベルは、低技能労働者を増やすことで増大することはありません。私たちの機械がヘイトスピーチを理解し、アルゴリズムの偏りを識別するためには、これらの問題を自ら理解する高品質のラベリング力が必要です。

（２）機械学習チームと認識者にコミュニケーションの場を与える

機械学習モデルは常に変化しています。今日スパムと認識されたものが明日はそうではない可能性があり、パスワードのタグ付けの微妙な違いをすべて理解することは決してできません。

製品の構築がユーザーとエンジニア間のフィードバック主導のプロセスであるのと同様に、データセットの作成も同様にフィードバック主導のプロセスである必要があります。画像内の顔を数えるとき、漫画のキャラクターも数えますか? ヘイトスピーチにタグを付ける場合、引用符はどこに付けますか? タグ作成者は何千もの例を調べて曖昧さや洞察を発見しますが、データの品質を最大限に高めるには、双方がコミュニケーションを取る必要があります。

（３）目標関数は人間の価値観と一致している

モデルは、実際のターゲットの近似値に過ぎないデータセットでトレーニングされることが多く、意図しない相違が生じます。

たとえば、AIの安全性に関する議論では、機械が世界を脅かすほどの知能を発達させる可能性があると懸念する人もいます。これは遠い将来に起こる問題だと反論する人もいるが、今日のテクノロジープラットフォームが直面している最大の問題を見ると、すでに起こっているのではないだろうか。

たとえば、Facebook の使命は「いいね！」を獲得することではなく、私たちを友人や家族と結びつけることです。しかし、いいねやインタラクションを増やすようにモデルをトレーニングすることで、非常に魅力的ではあるが有害で誤解を招くようなコンテンツを広めることも学んでしまった。

Facebook がトレーニング目標に人間の価値観を注入できたらどうなるでしょうか? これは空想ではありません。Google 検索はすでに実験プロセスで人間による評価を使用しており、私たちが構築している AI システムも同様に行うことを約束しています。

データ駆動型AIの未来

本質的に、機械学習とは、コンピューターに良い例を示すことで、私たちが望むように動作するようにコンピューターに教えることです。では、機械学習エンジニアが高品質のモデルを構築するために習得する必要がある最も重要なスキルは、高品質のデータセットを構築し、それらが目の前の問題に適合していることを確認することではないでしょうか?

最終的に私たちが気にするのは、AI が人間の基準を超えているかどうかではなく、AI が人間のニーズを解決できるかどうかです。

コンテンツモデレーションに取り組んでいる場合、データセットはヘイトスピーチを検出しますか、それとも肯定的で前向きな虐待も捕捉しますか?

次世代の検索および推奨システムを構築している場合、データセットはモデルの関連性と品質を設定していますか? それとも、魅力的に誤解を招き、クリックベイトになっていますか?

データセットの作成は学校で教えられるものではなく、アルゴリズムの開発に何年も取り組んできたエンジニアにとって、arXiv の最も洗練されたモデルに集中するのは簡単です。しかし、人工知能に私たちの真のニーズを解決してもらいたいのであれば、モデルを定義し、それに人間味を与えるデータセットについて深く考える必要があります。

<<: 建設業界におけるドローン

>>: AIが中国の山水画を生成！プリンストン大学の女子学生が卒業制作で描いた線と筆致は、人間の観察者の半数を騙した。