アンドリュー・ン：AIはビッグデータから「スモールデータ」に移行する時が来た

AI界の巨匠アンドリュー・ン氏が最近、新型コロナウイルスの検査で陽性反応を示し、多くのネットユーザーが彼の早期回復を願う声を上げた。

現在、彼は自身の会社である Landing AI に注力しています。

製造業のデジタル変革に特化したスタートアップ企業です。製造業が人工知能システムをより迅速かつ容易に構築、導入できるよう支援することを目標としています。

従来の企業にとって、事前トレーニング済みのモデルは公開データに基づいており、実際には役に立ちません。

しかし、結局のところ、それは伝統的な企業です。トレーニングをサポートするために大量の特定のデータをどこで収集できるのでしょうか?

それで、Landing AI はこの困難をどのように克服したのでしょうか?

最近、IEEE Spectrumとの独占インタビューで、アンドリュー・ン氏は今後10年間の人工知能分野の方向性について議論し、「ビッグデータからスモールデータと高品質データに移行する時期が来ている」との見解を表明した。

おそらくここからこの質問の答えが見つかるかもしれません。

以下は、若干の削除を加えた元のインタビューの要約です。

IEEE Spectrum: ディープラーニングは、モデルとデータセットの大規模化により、過去 10 年間で驚異的な進歩を遂げました。これを持続不可能な軌道だと考える人もいる。同意しますか？

ウー：これは確かに考える価値のある質問です。 NLP 分野はすでに基礎モデルが存在し、規模拡大を続けています。コンピュータビジョンの分野にも基本的なモデルを構築する可能性がありますが、コンピューティング帯域幅（コンピューティング能力）と処理コストの制限により、ビデオ分野ではまだ開発されていません。ディープラーニングアルゴリズムをスケーリングするためのエンジンは約 15 年間稼働していますが、依然として勢いを増しています。ただし、これは特定の問題にのみ機能し、小規模なデータソリューションを必要とするシナリオが多数あります。

注: ベースモデルは、Percy Liang とスタンフォード大学の Wu の友人数名によって造られた用語で、GPT-3 などの特定のアプリケーションに合わせて調整できる非常に大規模なデータセットでトレーニングされた巨大なモデルを指します。

過去 10 年間で、消費者向け企業は、大規模なユーザーベース (場合によっては数十億人) のおかげで、ディープラーニング用の非常に大規模なデータセットにアクセスできるようになりました。これは彼らに多大な経済的価値をもたらしますが、この法則は他の産業には当てはまらないと思います。

IEEE Spectrum: このような会社で働いていたというのは興味深いですね。

ウー：そうです。しかし、10年以上前に私がGoogle Brainプロジェクトを立ち上げ、Googleのコンピューティングインフラストラクチャを使用して大規模なネットワークを構築することを提案したとき、それは論争を巻き起こしました。かなり年上の人が私を呼び出して、これは私のキャリアにとって良くないことだと警告しました。彼が言いたかったのは、プロジェクトは規模の拡大だけでなく、建築の革新にも焦点を当てるべきだということだと思います。

私の学生と私がディープラーニングに CUDA を使用することを提唱する最初の論文を発表したとき、別の AI のベテランが私の隣に座って、「CUDA プログラミングは非常に複雑です。プログラミングパラダイムとして、これを行うには作業量が多すぎます」と言ったのを覚えています。

IEEE Spectrum: 全員が納得したと思います。

ウー：はい。

今、データ中心の AI の動きについてお話しするとき、私は 15 年前にディープラーニングについてお話ししたときのことを思い出します。今年は、「間違った方向に向かっている」「両者の間には何も新しいことはないようだ」と多くの人から言われました。

IEEE Spectrum: データ中心の AI をどのように定義しますか? また、なぜそれをムーブメントとして考えるのですか?

Wu:データ中心の AI は、成功する AI システムに必要なデータを構築するための体系的な分野です。 AI システムを機能させるには、コード内に何らかのアルゴリズムを実装し、データセットでトレーニングする必要があります。過去 10 年間、主なアプリケーションパラダイムは、コードの改善に重点を置きながらデータセットをダウンロードすることでした。このモデルはディープラーニングネットワークに大きな改善をもたらしましたが、そのアーキテクチャは基本的に解決済みの問題を表しています。したがって、多くの実用的なアプリケーションでは、ニューラルネットワークアーキテクチャを修正し、データを使用してそれを改善する方法を見つけることがより効果的になっています。

私がこの点を指摘すると、実践者の中には「私たちはこれを 20 年間やってきた」と言う人もいます。私が言いたいのは、少数の人々が直感的に行っているこのことを体系的なものに変える時が来たということです。

IEEE Spectrum: 先ほど、一部の企業や機関では扱うデータの量が少ないとおっしゃっていました。データ中心の AI はどのように役立つのでしょうか?

Wu:多くの視覚モデルは、何百万もの画像を使用して構築されます。私はかつて、顔認識システムを構築するために 3 億 5000 万枚の画像を使用しました。しかし、このモデルは 50 枚の画像しかないデータセットでは機能しません。しかし、本当に優れたデータポイントが 50 個あれば、欠陥検出システムのような価値あるものも作成できることがわかりました。巨大なデータセットが存在しない多くの業界では、重点をビッグデータから良質なデータに移す必要があると思います。よく考えられた例を 50 個用意すれば、ニューラルネットワークに学習させたい内容を説明するのに十分です。

IEEE Spectrum: 50 枚の画像でモデルをトレーニングするということは、より大きなデータセットでトレーニングされた既存のモデルを微調整することを意味しますか? それとも、この小さなデータセットから学習されるまったく新しいモデルですか?

Wu: Landing AI が何をするのか説明しましょう。メーカー向けに欠陥検査サービスを提供する際、弊社ではRetinaNetを独自のスタイルで利用することが一般的です。事前トレーニング済みのモデルです。そうは言っても、事前トレーニングはパズルのほんの一部に過ぎません。より大きな課題は、メーカーが適切な画像セット（微調整用）を選択し、そのセットに一貫した方法でラベルを付けることができるツールを提供することです。大規模なデータセットを含むアプリケーションに直面したとき、私たちは通常、データにノイズがあっても問題ではなく、すべてのデータを取得してアルゴリズムで平均化するだろうと考えます。しかし、データの不一致を警告するツールを開発し、データ品質を改善するための非常に的を絞ったアプローチをメーカーに提供できれば、高性能システムを実現するためのより効果的な方法となるでしょう。

たとえば、現在 10,000 枚の画像があり、そのうち 30 枚が 1 つのカテゴリに属していますが、これら 30 枚の画像のラベルが一貫していません。私たちがやりたいことの 1 つは、この特別なデータのサブセットに注目を集めるツールを構築し、すばやくラベルを変更してモデルのパフォーマンスを向上できるようにすることです。

IEEE Spectrum: このような高品質のデータセットを生成すると、データの偏りを排除するのに役立ちますか?

ウー：とても役に立ちました。偏ったデータは、最終モデルに偏りをもたらす可能性のある多くの要因の 1 つです。 NeurIPS カンファレンスでの Mary Gray 氏の講演では、データ中心の AI がこの問題の解決策の 1 つ (ただしすべてではない) であるという点について説明しました。

データ中心の AI がもたらす強力な機能の 1 つは、データサブセットを設計する機能です。機械学習モデルをトレーニングし、データセットの大部分のパフォーマンスは良好だったが、サブセットのみで逸脱していたと想像してください。このサブセットのパフォーマンスを向上させるためだけに、ニューラルネットワークアーキテクチャ全体を変更するのは非常に困難です。

しかし、このサブセットに適切なデータを設計できれば、ソリューションはより的を絞ったものになります。

IEEE Spectrum: データをエンジニアリングするとは、具体的にはどういう意味ですか?

ウー氏： AIの分野ではデータのクリーニングは非常に重要ですが、現在は非常に機械的な方法で行われています。非常に大きなデータセットに直面した場合、このツールを使用すると、データのノイズの多いサブセットにすぐに注意を向け、そのサブセットに収集を集中させることができます。

かつて、音声認識システムのパフォーマンスが非常に悪く、主に背景の車の騒音のせいで困っていたことがあります。これを知っていれば、すべてに対して行動を起こすのではなく、このノイズの多い背景でより多くのデータを収集でき、お金と時間を節約できます。

IEEE Spectrum: 合成データの使用についてはどうでしょうか? これもよいアプローチでしょうか?

Wu:合成データは、データ中心の AI ツールセットにおいても重要なツールです。 NeurIPS ワークショップでは、Anima Anandkumar が合成データに関する素晴らしい講演を行いました。これは、モデルにデータを追加するための単なる前処理手順だと思います。開発者が機械学習モデルを反復するためのクローズドループの一部として合成データを生成することを期待しています。

IEEE Spectrum: 合成データを使用すると、より多様なデータセットでモデルを試すことができるということですか?

ウー：それ以上です。スマートフォンのケースの傷、へこみ、素材の変色などの欠陥を検出したいとします。トレーニング済みのモデルがこの検出タスクで全体的に優れたパフォーマンスを発揮するが、へこみの識別に苦労している場合は、合成データを使用して、よりターゲットを絞ったデータを生成し、問題に対処することができます。

IEEE Spectrum: たとえば、企業が Landing AI に目視検査を依頼する場合、どのようなサポートを提供するのか詳しく教えていただけますか?

Wu:お客様にデータを当社のプラットフォームにアップロードしていただき、データ中心の AI 手法を使用して提案を行い、データのラベル付けを支援します。

Landing AI の重点は、メーカーが機械学習の作業を自ら行えるようにすることであり、私たちの仕事の多くは、ソフトウェアが高速で使いやすいものであることを確認することです。機械学習の反復プロセスにおいて、プラットフォーム上でモデルをトレーニングする方法や、モデルのパフォーマンスを向上させるためにデータのラベル付けをいつどのように改善するかなどのアドバイスをお客様に提供します。

IEEE Spectrum: 製品や照明条件などが変わった場合、このモデルは対応できるでしょうか?

Wu:だからこそ、製造業の顧客が自らデータを修正し、モデルを再トレーニングして更新できるようにすることが非常に重要なのです。

消費者向けインターネットでは、10億人のユーザーにサービスを提供するために、いくつかの機械学習モデルをトレーニングするだけで済みます。製造業では、10,000 社のメーカーが 10,000 種類のカスタムモデルを構築する必要があります。課題は、機械学習の専門家を 10,000 人雇わずにこれをどうやって実現するかということです。

この問題は医療などの他の業界でも存在します。

このジレンマから抜け出す唯一の方法は、顧客が独自のデータを設計し、ドメイン知識を表現し、独自のモデルを構築できるツールを開発することです。これは、Landing AI がコンピュータービジョンの分野で行っていることでもあります。

IEEE Spectrum: 最後に何か一言お願いします。

ウー氏：過去 10 年間の AI における最大の変化は、ディープラーニングへの移行です。この 10 年間で最も大きな変化は、データ中心の AI への移行になるだろうと思います。今日のニューラルネットワークアーキテクチャが成熟するにつれて、多くの実用的なアプリケーションでは、モデルのパフォーマンスを向上させるために必要なデータをいかに効率的に取得できるかがボトルネックになると思います。

データ中心の AI 運動はコミュニティ全体に多大なエネルギーと勢いを与えています。もっと多くの研究者や開発者が参加して取り組んでくれることを願っています。

<<: ヘルスケアにおける機械学習の悪影響

>>: 人工知能の「指紋採取」が検出困難な癌と闘う