AI 転移学習はどのように機能しますか? AI モデルとトレーニング プロセスでどのような役割を果たすのでしょうか?

AI 転移学習はどのように機能しますか? AI モデルとトレーニング プロセスでどのような役割を果たすのでしょうか?

今日、AI プログラムは、写真やビデオ内の顔や物体を認識し、音声をリアルタイムで書き起こし、X 線スキャンで何年も前に癌を検出し、最も複雑なゲームのいくつかで人間と競争することができます。

[[334607]]

数年前まで、これらの課題はすべて克服不可能で何十年も先のことと考えられていたか、あるいは最適とは言えない結果で対処されていました。しかし、ここ数年で非常に人気が高まった人工知能の一分野であるニューラルネットワークとディープラーニングの進歩により、コンピューターはこれらの問題や他の多くの複雑な問題を解決できるようになりました。

残念ながら、ディープラーニング モデルをゼロから作成する場合、大量のデータとコンピューティング リソースにアクセスする必要があります。これは多くの人が買えない贅沢品です。さらに、タスクを実行するためのディープラーニング モデルのトレーニングには長い時間がかかるため、時間的予算が限られているユースケースには適していません。幸いなことに、あるトレーニング済みの AI モデルから得られた知識を別の AI モデルに適用する転移学習は、これらの問題の解決に役立ちます。

ディープラーニングモデルのトレーニングコスト

ディープラーニングは、トレーニング例を通じて AI を開発する科学である機械学習のサブセットです。しかし近年まで、その非効率性ゆえに AI コミュニティからはほとんど無視されてきました。過去数年間、大量のデータとコンピューティング リソースが利用できるようになったことで、ニューラル ネットワークが注目を集め、現実世界の問題を解決できるディープラーニング アルゴリズムの開発が可能になりました。

ディープラーニング モデルをトレーニングするには、基本的に、ニューラル ネットワークに大量の注釈付きサンプルを提供する必要があります。これらの例としては、ラベルの付いたオブジェクトを含む画像や、患者のマンモグラムスキャンとその最終結果などが挙げられます。ニューラル ネットワークは、画像を慎重に分析および比較し、類似したカテゴリの画像間の繰り返しパターンを表す数学モデルを開発します。

ImageNet (22,000 のカテゴリに分類された 1,400 万を超える画像のデータベース) や MNIST (60,000 の手書き数字のデータセット) など、すでにいくつかの大規模なオープンソース データセットが存在します。 AI エンジニアはこれらのリソースを使用してディープラーニング モデルをトレーニングできます。

ただし、ディープラーニング モデルのトレーニングには、非常に強力なコンピューティング リソースへのアクセスも必要です。開発者は通常、CPU、GPU クラスター、または Google の Tensor Processing Unit (TPU) などの特殊なハードウェアを使用して、ニューラル ネットワークを効率的にトレーニングします。このようなリソースを購入またはレンタルするコストは、単独の開発者または小規模な組織の予算を超える可能性があります。さらに、多くの問題では、強力な AI モデルをトレーニングするのに十分な例がありません。

転移学習により、ディープラーニングのトレーニングの負担が大幅に軽減される

AI エンジニアが特定の問題を解決するために画像分類ニューラル ネットワークを作成したいとします。エンジニアは、何千枚もの画像を収集する代わりに、ImageNet などの公開データセットを使用し、ドメイン固有の写真でそれらを強化することができます。

しかし、AIエンジニアは、ニューラルネットワークを通じて何百万もの画像を実行するために必要なコンピューティングリソースを借りるために依然として高額な料金を支払わなければなりません。ここで転移学習が役立ちます。転移学習とは、以前にトレーニングされたニューラル ネットワークを微調整して新しい AI モデルを作成するプロセスです。

開発者は、ニューラル ネットワークを最初からトレーニングする代わりに、事前にトレーニングされたオープン ソースのディープラーニング モデルをダウンロードし、独自の目的に合わせて微調整することができます。事前にトレーニングされたベースモデルが多数用意されており、その中から選択できます。一般的な例としては、AlexNet、Google の Inception-v3、Microsoft の ResNet-50 などがあります。これらのニューラル ネットワークは、ImageNet データセットでトレーニングされています。 AI エンジニアは、独自のドメイン固有の例を使用して AI をさらにトレーニングすることで AI を強化するだけで済みます。

転移学習には大規模なコンピューティング リソースは必要ありません。ほとんどの場合、デスクトップ コンピューターまたはラップトップ コンピューターでは、事前トレーニング済みのニューラル ネットワークを数時間以内で微調整できます。

転移学習の仕組み

興味深いことに、ニューラル ネットワークは階層的に動作を展開します。各ニューラル ネットワークは複数のレイヤーで構成されています。トレーニング後、各レイヤーは入力データ内の特定の特徴を検出するように調整されます。

たとえば、画像分類器の畳み込みネットワークでは、最初の数層でエッジ、コーナー、円、色の塊などの一般的な特徴を検出します。ネットワークの奥深くに進むにつれて、レイヤーは目、顔、完全なオブジェクトなど、より具体的なものを検出し始めます。

ニューラル ネットワークの最上層は一般的な特徴を検出します。より深い層では実際のオブジェクトを検出します (出典: arxiv.org)

転移学習を実行する際、AI エンジニアは事前トレーニング済みのニューラル ネットワークの最初のレイヤーを固定します。これらは、すべてのドメインに共通する一般的な機能を検出するレイヤーです。次に、独自の例を使用してより深いレイヤーを微調整し、新しいレイヤーを追加して、トレーニング データセットに含まれる新しいカテゴリを分類します。

事前トレーニング済みおよび微調整済みの AI モデルは、それぞれ「教師」モデルと「生徒」モデルとも呼ばれます。

固定および微調整されたレイヤーの数は、ソース AI モデルとターゲット AI モデル間の類似性によって異なります。生徒の AI モデルが教師のモデルに非常に近い問題を解く場合、事前トレーニング済みモデルの個々のレイヤーを微調整する必要はありません。開発者は、ネットワークの最後に新しいレイヤーを追加し、新しいカテゴリの AI をトレーニングするだけです。これを「ディープ特徴抽出」と呼びます。ターゲットドメインのトレーニングデータが不足している場合にも、ディープ特徴抽出が適しています。

ソースと宛先の間に大きな相違がある場合、またはトレーニング例が多数ある場合、開発者は事前トレーニング済みの AI モデル内のいくつかのレイヤーを固定します。次に、新しい分類レイヤーを追加し、新しい例を使用して凍結解除レイヤーを微調整します。これは「中間レベルの特徴抽出」と呼ばれます。

ソース AI モデルとターゲット AI モデルの間に大きな違いがある場合、開発者はニューラル ネットワーク全体を解凍して再トレーニングします。 「フルモデル微調整」と呼ばれるこのタイプの転移学習にも、大量のトレーニング例が必要です。

画像提供: シカゴ大学

事前にトレーニングされたモデルを取得して、そのすべてのレイヤーを再トレーニングするのはばかげているように思えます。しかし、実際には、時間とコンピューティング リソースを節約できます。トレーニングの前に、ニューラル ネットワーク内の変数は乱数で初期化され、トレーニング データが処理されるにつれてその値が調整されます。事前トレーニング済みのニューラル ネットワークの変数値は、何百万ものトレーニング例に合わせて調整されています。したがって、ソース AI モデルに少しでも類似した新しい例のセットでトレーニングする新しい AI モデルにとっては、より良い出発点となります。

転移学習は万能薬ではない

転移学習は、AI モデルのトレーニングに関する多くの問題を効率的かつ手頃な方法で解決します。ただし、トレードオフも伴います。事前トレーニング済みのニューラル ネットワークにセキュリティ上の脆弱性がある場合、AI モデルはそれを転移学習の基礎として使用し、それらの脆弱性を継承します。

たとえば、ベースモデルは、敵対的攻撃や、AI の動作を不規則に変更させるように巧妙に作成された入力例の影響を受けない可能性があります。悪意のある攻撃者がベースモデルに対する敵対的サンプルを開発できた場合、その攻撃はそこから派生したほとんどの AI モデルに対して有効になります。シカゴ大学、カリフォルニア大学サンタクララ校、バージニア工科大学の研究者らは、昨年のUsenixセキュリティシンポジウムで発表した論文でこれについて説明した。

さらに、AIにゲームのプレイ方法を教えるといった一部の分野では、転移学習の使用は非常に限られています。これらの AI モデルは、計算集約的で多くの試行錯誤を必要とする AI の分野である強化学習を使用してトレーニングされました。強化学習では、ほとんどの新しい問題は固有のものであり、独自の解決が必要です。

しかし、要約すると、ほとんどのディープラーニング アプリケーション (画像分類や自然言語処理など) では、巧妙な転移学習をうまく活用できる可能性が高くなります。

<<:  役に立たない、それとも翻訳ツール?日本が「会話」できるスマートマスクを発明

>>:  2020 年のデータサイエンスのトレンド

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIを活用して企業に利益をもたらすにはどうすればいいでしょうか?答えはすべてあなたのためにあります

人工知能 (AI) と機械学習 (ML) は成長サイクルのピークにあるかもしれませんが、だからといっ...

ガートナー: 人工知能に関するよくある誤解5つ

[[259329]] 2018年上半期現在、中国には922社の人工知能企業があり、そのうち97%は今...

Baiduの新しい論文はGram-CTCを提案:単一システムの音声転写が最高レベルに到達

[[188128]]最近、百度シリコンバレーAI研究所の劉海栄氏、李翔剛氏らは、音声認識の速度と精度...

...

Google が 11 の言語をカバーする TyDi QA コーパスをリリース

[[315942]]多言語の質問応答技術の研究を促進するために、Google は 11 種類の言語を...

音声認識とアプリケーションシナリオの組み合わせが未来への新たな章を開く

過去 20 年間で、音声認識技術は大きな進歩を遂げ、研究室から市場へと移行し始めました。今後10年間...

清華大学の孫茂松教授は、新しい微調整フレームワークCPTを提案し、精度を17.3%向上させた。

[[428133]]事前トレーニング済みモデルは、コンピューター ビジョンと言語の両方で顕著な結果...

AI は金融業界がランサムウェアに効果的に対抗するのに役立つでしょうか?

[[430265]]ランサムウェアの脅威は目新しいものではありませんが、依然としてニュースの見出し...

...

...

200 の優れた機械学習チュートリアルの要約「史上最も完全」

この記事には、これまでで最も優れたチュートリアル コンテンツであると一般に考えられている内容が含まれ...

胡勇 | 人工知能の時代を生き抜き、成長する

[[374681]]機械との競争から第二次機械革命へ人工知能革命は第四次産業革命と呼ばれています。第...

国連チーフAIアドバイザーとの独占インタビュー:AIは完璧だと期待しているが、決して完璧ではない

[[384962]]ビッグデータダイジェスト制作出典: informationweek編纂者:張大毓...

...