AI 転移学習はどのように機能しますか? AI モデルとトレーニング プロセスでどのような役割を果たすのでしょうか?

AI 転移学習はどのように機能しますか? AI モデルとトレーニング プロセスでどのような役割を果たすのでしょうか?

今日、AI プログラムは、写真やビデオ内の顔や物体を認識し、音声をリアルタイムで書き起こし、X 線スキャンで何年も前に癌を検出し、最も複雑なゲームのいくつかで人間と競争することができます。

[[334758]]

数年前まで、これらの課題はすべて克服不可能で何十年も先のことと考えられていたか、あるいは最適とは言えない結果で対処されていました。しかし、ここ数年で非常に人気が高まった人工知能の一分野であるニューラルネットワークとディープラーニングの進歩により、コンピューターはこれらの問題や他の多くの複雑な問題を解決できるようになりました。

残念ながら、ディープラーニング モデルをゼロから作成する場合、大量のデータとコンピューティング リソースにアクセスする必要があります。これは多くの人が買えない贅沢品です。さらに、タスクを実行するためのディープラーニング モデルのトレーニングには長い時間がかかるため、時間的予算が限られているユースケースには適していません。幸いなことに、あるトレーニング済みの AI モデルから得られた知識を別の AI モデルに適用する転移学習は、これらの問題の解決に役立ちます。

ディープラーニングモデルのトレーニングコスト

ディープラーニングは、トレーニング例を通じて AI を開発する科学である機械学習のサブセットです。しかし近年まで、その非効率性ゆえに AI コミュニティからはほとんど無視されてきました。過去数年間、大量のデータとコンピューティング リソースが利用できるようになったことで、ニューラル ネットワークが注目を集め、現実世界の問題を解決できるディープラーニング アルゴリズムの開発が可能になりました。

ディープラーニング モデルをトレーニングするには、基本的に、ニューラル ネットワークに大量の注釈付きサンプルを提供する必要があります。これらの例としては、ラベルの付いたオブジェクトを含む画像や、患者のマンモグラムスキャンとその最終結果などが挙げられます。ニューラル ネットワークは、画像を慎重に分析および比較し、類似したカテゴリの画像間の繰り返しパターンを表す数学モデルを開発します。

ImageNet (22,000 のカテゴリに分類された 1,400 万を超える画像のデータベース) や MNIST (60,000 の手書き数字のデータセット) など、すでにいくつかの大規模なオープンソース データセットが存在します。 AI エンジニアはこれらのリソースを使用してディープラーニング モデルをトレーニングできます。

ただし、ディープラーニング モデルのトレーニングには、非常に強力なコンピューティング リソースへのアクセスも必要です。開発者は通常、CPU、GPU クラスター、または Google の Tensor Processing Unit (TPU) などの特殊なハードウェアを使用して、ニューラル ネットワークを効率的にトレーニングします。このようなリソースを購入またはレンタルするコストは、単独の開発者または小規模な組織の予算を超える可能性があります。さらに、多くの問題では、強力な AI モデルをトレーニングするのに十分な例がありません。

転移学習により、ディープラーニングのトレーニングの負担が大幅に軽減される

AI エンジニアが特定の問題を解決するために画像分類ニューラル ネットワークを作成したいとします。エンジニアは、何千枚もの画像を収集する代わりに、ImageNet などの公開データセットを使用し、ドメイン固有の写真でそれらを強化することができます。

しかし、AIエンジニアは、ニューラルネットワークを通じて何百万もの画像を実行するために必要なコンピューティングリソースを借りるために依然として高額な料金を支払わなければなりません。ここで転移学習が役立ちます。転移学習とは、以前にトレーニングされたニューラル ネットワークを微調整して新しい AI モデルを作成するプロセスです。

開発者は、ニューラル ネットワークを最初からトレーニングする代わりに、事前にトレーニングされたオープン ソースのディープラーニング モデルをダウンロードし、独自の目的に合わせて微調整することができます。事前にトレーニングされたベースモデルが多数用意されており、その中から選択できます。一般的な例としては、AlexNet、Google の Inception-v3、Microsoft の ResNet-50 などがあります。これらのニューラル ネットワークは、ImageNet データセットでトレーニングされています。 AI エンジニアは、独自のドメイン固有の例を使用して AI をさらにトレーニングすることで AI を強化するだけで済みます。

転移学習には大規模なコンピューティング リソースは必要ありません。ほとんどの場合、デスクトップ コンピューターまたはラップトップ コンピューターでは、事前トレーニング済みのニューラル ネットワークを数時間以内で微調整できます。

転移学習の仕組み

興味深いことに、ニューラル ネットワークは階層的に動作を展開します。各ニューラル ネットワークは複数のレイヤーで構成されています。トレーニング後、各レイヤーは入力データ内の特定の特徴を検出するように調整されます。

たとえば、画像分類器の畳み込みネットワークでは、最初の数層でエッジ、コーナー、円、色の塊などの一般的な特徴を検出します。ネットワークの奥深くに進むにつれて、レイヤーは目、顔、完全なオブジェクトなど、より具体的なものを検出し始めます。

ニューラル ネットワークの最上層は一般的な特徴を検出します。より深い層では実際のオブジェクトを検出します (出典: arxiv.org)

転移学習を実行する際、AI エンジニアは事前トレーニング済みのニューラル ネットワークの最初のレイヤーを固定します。これらは、すべてのドメインに共通する一般的な機能を検出するレイヤーです。次に、独自の例を使用してより深いレイヤーを微調整し、新しいレイヤーを追加して、トレーニング データセットに含まれる新しいカテゴリを分類します。

事前トレーニング済みおよび微調整済みの AI モデルは、それぞれ「教師」モデルと「生徒」モデルとも呼ばれます。

固定および微調整されたレイヤーの数は、ソース AI モデルとターゲット AI モデル間の類似性によって異なります。生徒の AI モデルが教師のモデルに非常に近い問題を解く場合、事前トレーニング済みモデルの個々のレイヤーを微調整する必要はありません。開発者は、ネットワークの最後に新しいレイヤーを追加し、新しいカテゴリの AI をトレーニングするだけです。これを「ディープ特徴抽出」と呼びます。ターゲットドメインのトレーニングデータが不足している場合にも、ディープ特徴抽出が適しています。

ソースと宛先の間に大きな相違がある場合、またはトレーニング例が多数ある場合、開発者は事前トレーニング済みの AI モデル内のいくつかのレイヤーを固定します。次に、新しい分類レイヤーを追加し、新しい例を使用して凍結解除レイヤーを微調整します。これは「中間レベルの特徴抽出」と呼ばれます。

ソース AI モデルとターゲット AI モデルの間に大きな違いがある場合、開発者はニューラル ネットワーク全体を解凍して再トレーニングします。 「フルモデル微調整」と呼ばれるこのタイプの転移学習にも、大量のトレーニング例が必要です。

画像提供: シカゴ大学

事前にトレーニングされたモデルを取得して、そのすべてのレイヤーを再トレーニングするのはばかげているように思えます。しかし、実際には、時間とコンピューティング リソースを節約できます。トレーニングの前に、ニューラル ネットワーク内の変数は乱数で初期化され、トレーニング データが処理されるにつれてその値が調整されます。事前トレーニング済みのニューラル ネットワークの変数値は、何百万ものトレーニング例に合わせて調整されています。したがって、ソース AI モデルに少しでも類似した新しい例のセットでトレーニングする新しい AI モデルにとっては、より良い出発点となります。

転移学習は万能薬ではない

転移学習は、AI モデルのトレーニングに関する多くの問題を効率的かつ手頃な方法で解決します。ただし、トレードオフも伴います。事前トレーニング済みのニューラル ネットワークにセキュリティ上の脆弱性がある場合、AI モデルはそれを転移学習の基礎として使用し、それらの脆弱性を継承します。

たとえば、ベースモデルは、敵対的攻撃や、AI の動作を不規則に変更させるように巧妙に作成された入力例の影響を受けない可能性があります。悪意のある攻撃者がベースモデルに対する敵対的サンプルを開発できた場合、その攻撃はそこから派生したほとんどの AI モデルに対して有効になります。シカゴ大学、カリフォルニア大学サンタクララ校、バージニア工科大学の研究者らは、昨年のUsenixセキュリティシンポジウムで発表した論文でこれについて説明した。

さらに、AIにゲームのプレイ方法を教えるといった一部の分野では、転移学習の使用は非常に限られています。これらの AI モデルは、計算集約的で多くの試行錯誤を必要とする AI の分野である強化学習を使用してトレーニングされました。強化学習では、ほとんどの新しい問題は固有のものであり、独自の解決が必要です。

しかし、要約すると、ほとんどのディープラーニング アプリケーション (画像分類や自然言語処理など) では、巧妙な転移学習をうまく活用できる可能性が高くなります。

<<:  Microsoft Megvii の顔認識は 100% 動作不能! 写真の「見えないマント」で写真のプライバシー データを保護

>>:  自然言語処理はビジネスに革命をもたらす

ブログ    
ブログ    

推薦する

AIが「軍事顧問」に?まずはRedditユーザーを獲得しよう

[[322491]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

OpenAI の組み込み検索は本当に便利ですか?定量的な評価により、より深い理解が得られます。

ベクターデータベースの強力なライバルが登場するか?トラック関連のスタートアップ企業がまたもや倒産しそ...

顔認証決済の登場:「決済戦争」の次なる激戦点となるか?

[[280749]]最近、支払いをするために携帯電話を取り出すと、「顔支払い」を選択すると割引があ...

人工知能は将来の戦争を防ぐことができるのか?

ロヒット・タルワール[[430155]]米陸軍兵士が発射後、管制室から全長14フィートのシャドウ監視...

...

データ サイエンティストが 95% の時間使用する 11 の基本分布

前回のレビュー「データ サイエンティストが 95% の時間に使用する 11 個の基本チャート」に続き...

視覚化: 画像のテーマカラーを抽出するアルゴリズムは高度すぎませんか?

この論文は浙江大学CAD&CG国家重点実験室の視覚化と視覚分析グループが特別にまとめたもので...

...

2020年に注目を集めるグラフ機械学習の研究動向とは?

[[314165]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

Baidu が DeepVoice の最終バージョンをリリース: 10,000 人の声を真似て 30 分でアクセントを習得

今年初め、検索大手の百度は、人気のディープラーニング技術を使用してテキスト読み上げ(TTS)変換を実...

...

研究者は、現在のAIトレーニングの効率が低すぎると不満を述べている

海外メディアによると、グーグルの研究者は以前、グーグルが現在検索やその他のテキスト分析製品に使用して...

PaddlePaddleディープラーニングオープンソースプラットフォーム:中国のAI船が皆の漕ぎを待っている

[51CTO.com オリジナル記事]序文: ちょっとした歴史10年前、私が学校で上司と一緒に画像認...

自動運転車におけるサイバーセキュリティの役割

自動車業界は、安全性、持続可能性、接続性、全体的なユーザーエクスペリエンスを向上させるソフトウェアの...

自然言語処理の概要

自然言語処理 (NLP) は、人間の言語または人間のような書き言葉、話し言葉、組織化された言語の形式...