ビッグデータがなくてもディープラーニングは可能でしょうか?中小企業のトレーニングのための新しいソリューション、大規模モデル

ビッグデータがなくてもディープラーニングは可能でしょうか?中小企業のトレーニングのための新しいソリューション、大規模モデル

海外メディアの報道によると、AI専門家のアンドリュー・ン氏はIEEEに対し、ディープラーニングの今後の発展の道筋は、ビッグデータによるモデルのトレーニングから高品質データによるモデルのトレーニングへと移行し、大規模なデータセットを入手できない業界にディープラーニングモデルを適用する機会を提供するべきだと語った。アンドリュー・ン氏はスタンフォード大学人工知能研究所の所長であり、以前はグーグルのグーグル・ブレイン・プロジェクトを率いていた。

Andrew Ng 氏は、ディープラーニングモデルのトレーニングはコードの調整からデータの調整に移行すべきだと考えています。トレーニング結果に影響を与えるノイズデータ (意味のないデータ) を調整することで、少量の高品質データセットだけでモデルの更新を完了できます。コードを調整したり、大量のデータを直接提供したりする場合と比べて、この方法はより的を絞ったものになります。

2017 年に Andrew Ng 氏によって設立された Landing AI は、現在、製造製品検査用のコンピューター ビジョン ツールを提供しています。このツールは、ノイズの多いデータにすばやくラベルを付けることができるため、顧客はモデル自体を調整することなく、データ ラベルを変更することでモデルを独自に更新できます。

1. ディープラーニングには大きな可能性があり、ビッグデータトレーニングが主流になりつつある

人工知能の目標は、機械が人間のように「考え」行動できるようにすることです。機械学習はこのビジョンを実現するための重要な方法であり、ディープラーニングは機械学習の重要な分野です。ヒントン教授が2012年に機械学習手法によるImageNet画像認識コンテストで優勝したことで、ディープラーニングは徐々に幅広い注目を集め、多くの分野で従来の機械学習手法に取って代わり、人工知能の注目の研究分野になりました。

過去10年間で、ディープラーニングは急速な発展を遂げ、ディープラーニングモデルはますます大規模な方向に発展してきました。OpenAIの自然言語処理モデルGPTシリーズを例にとると、2018年にGPT-1のパラメータ規模は1億を超えました。2020年にGPT-3が登場した頃には、パラメータ規模は100億を超えました。超大規模モデルの継続的な出現は、ディープラーニングの発展の可能性を示しています。

しかし、アンドリュー・ン氏は、ディープラーニングの手法は現在多くの消費者向け企業で広く使用されているものの、これらの企業は多くの場合、大規模なユーザーベースを持ち、モデルのトレーニング用に大規模なデータセットを入手できると考えています。しかし、大規模なデータセットを入手できない多くの業界では、大量のデータの提供から高品質のデータの提供に重点を移す必要があります。

2. コードからデータへ、少量のデータで高品質なモデルをトレーニング

過去 10 年間、ディープラーニング モデルのトレーニングの主流のアプローチは、データセットをダウンロードしてからコードの改善に重点を置くことでした。ただし、機械学習モデルがほとんどのデータセットに対して正常であっても、そのうちの 1 つのデータセットだけは正常から逸脱している場合、このデータセットに適応するためにモデル アーキテクチャ全体を変更するのは非効率的です。

もう 1 つのアプローチは、データから始めることです。このタイプのアプローチは、「データ中心の AI」と呼ばれます。一般的なアプローチは、より多くのデータを追加することでモデルの精度を向上させることです。この点について、アンドリュー・ン氏は、あらゆる状況でより多くのデータを収集しようとすると作業量が膨大になるため、ノイズデータ(意味のないデータ)にラベルを付けるツールの開発や、モデルトレーニング用の少量だが高品質なデータを提供するための的を絞った方法の提供に取り組んでいると述べました。

Andrew Ng 氏は、一般的に使用している方法は、データの強化またはデータ ラベルの一貫性の向上であると述べています。たとえば、10,000 枚の写真を含むデータ セットで、同じ種類の写真 30 枚に異なるデータ ラベルが付けられている場合、一貫性のないラベルを持つ写真を識別するツールを構築して、研究者がモデル トレーニング用に大量のデータを収集する代わりに、それらの写真にすばやくラベルを付け直せるようにしたいと考えています。

3. Landing AIはデータラベル付けツールを提供し、ユーザーが独自にモデルを更新できるようにします。

2017年、Andrew Ng氏は、製造会社に製品検査用のコンピュータービジョンツールを提供し、メーカー製品の目視検査を行うLanding AIを設立しました。アンドリュー・ン氏は同社のホームページで、人間の目で回路基板の傷を検出するのは人間の観察能力の限界を超えているが、AIを使った識別の精度ははるかに高いと述べた。

Landing AI は、異常が発生したときにデータにタグを付けることができるツールを提供することで、顧客が独自の機械学習モデルをトレーニングできるようにすることに重点を置いており、企業はモデルを自分で迅速に更新できます。

Andrew Ng氏は、これは製造業だけの問題ではないと述べた。医療・健康分野を例に挙げてみよう。各病院の電子カルテには独自のフォーマットがあり、各病院のプログラマーに異なるモデルを開発させるのは非現実的だ。唯一の方法は、顧客に適応型モデルを構築できるツールを提供することだ。Landing AIは現在、コンピュータービジョンの分野でそのようなツールを推進しており、他のAI分野でもそのような作業を行う必要がある。

結論: ディープラーニングの手法は、より多くのデータではなく、より正確なデータに移行する可能性がある

長い間、ディープラーニング モデルの更新と最適化は、主にモデルを調整するか、直接データを追加してモデルを繰り返しトレーニングし、モデルの精度を向上させることに依存してきました。 Andrew Ng 氏は、よりターゲットを絞ったモデルの最適化を実現するために、ノイズの多い少量のデータをラベル付けして更新することを推奨しています。

以前、Andrew Ng氏はTwitterで「データ中心のAI」コンテストを立ち上げ、データを通じてモデルを最適化する方法に多くの実務家の注目を集めました。ますます多くの研究者がデータ拡張や合成データなどの方法を使用して、より効率的なモデルトレーニングを実現しています。将来、データ最適化がモデルの反復を実現するための主流の方法になるかどうかはまだわかりません。

<<:  3Dの名の下、「インテリジェント製造」の包囲はAIビジョンユニコーンの新たな戦場です

>>:  デジタル技術が自動車産業をどう変えるのか

ブログ    
ブログ    
ブログ    

推薦する

...

...

...

1ペニーに30,000円入るんですか?コーネル大学、人体に埋め込める「ゾウリムシ」センサーを開発

[[323586]]神学者たちは長い間、非常に退屈な問題について議論してきました。それは、「ピンの先...

「機械学習」CNNを徹底理解

[[212238]]前世紀、科学者は視覚神経のいくつかの特性を発見しました。視神経には局所的な知覚が...

多関節ロボットの主な分類、利点、欠点は何ですか?

多関節ロボットは、多関節アームロボットまたは多関節ロボットアームとも呼ばれ、今日の産業分野で最も一般...

Facebookは、さまざまな機械学習の問題に適用できる、勾配フリー最適化のためのオープンソースツール「Nevergrad」をリリースしました。

自然言語処理や画像分類から翻訳など、ほとんどの機械学習タスクは、モデル内のパラメータやハイパーパラメ...

人工知能を活用した診断・治療の現状と戦略に関する研究

1. はじめにわが国では毎年、さまざまな医療機関における診察や治療の総回数が70億回を超えており、医...

2021年に最も役立つ顔認識ソフトウェア9選をチェック

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

AI人材の確保をめぐる秘密の戦い:中国が勝利する可能性は?

[[251811]]画像ソース @Visual China人工知能の概念は、提唱されてから60年以...

本当に良いものです!機械学習技術と市場の最強評価ガイド

【51CTO.comオリジナル記事】機械学習の特許は、2013 年から 2017 年の間に 34% ...

...

データ分布の正規性を判断するための11の基本的方法

データ サイエンスと機械学習の分野では、多くのモデルはデータが正規分布していると想定しているか、デー...

フォレスター:生成型AIと会話型AIが2023年のトップ10新興テクノロジーを独占

分析会社フォレスターは7月24日、2023年のトップ10新興テクノロジーレポートを発表しました。生成...

2018 年最も革新的な機械学習企業トップ 10

機械学習はエンタープライズ情報技術市場に旋風を巻き起こしており、人工知能アルゴリズムは膨大な量のデー...