AI 転移学習はどのように機能しますか? AI モデルとトレーニングプロセスでどのような役割を果たすのでしょうか?

今日、AI プログラムは、写真やビデオ内の顔や物体を認識し、音声をリアルタイムで書き起こし、X 線スキャンで何年も前に癌を検出し、最も複雑なゲームのいくつかで人間と競争することができます。

[[334758]]

数年前まで、これらの課題はすべて克服不可能で何十年も先のことと考えられていたか、あるいは最適とは言えない結果で対処されていました。しかし、ここ数年で非常に人気が高まった人工知能の一分野であるニューラルネットワークとディープラーニングの進歩により、コンピューターはこれらの問題や他の多くの複雑な問題を解決できるようになりました。

残念ながら、ディープラーニングモデルをゼロから作成する場合、大量のデータとコンピューティングリソースにアクセスする必要があります。これは多くの人が買えない贅沢品です。さらに、タスクを実行するためのディープラーニングモデルのトレーニングには長い時間がかかるため、時間的予算が限られているユースケースには適していません。幸いなことに、あるトレーニング済みの AI モデルから得られた知識を別の AI モデルに適用する転移学習は、これらの問題の解決に役立ちます。

ディープラーニングモデルのトレーニングコスト

ディープラーニングは、トレーニング例を通じて AI を開発する科学である機械学習のサブセットです。しかし近年まで、その非効率性ゆえに AI コミュニティからはほとんど無視されてきました。過去数年間、大量のデータとコンピューティングリソースが利用できるようになったことで、ニューラルネットワークが注目を集め、現実世界の問題を解決できるディープラーニングアルゴリズムの開発が可能になりました。

ディープラーニングモデルをトレーニングするには、基本的に、ニューラルネットワークに大量の注釈付きサンプルを提供する必要があります。これらの例としては、ラベルの付いたオブジェクトを含む画像や、患者のマンモグラムスキャンとその最終結果などが挙げられます。ニューラルネットワークは、画像を慎重に分析および比較し、類似したカテゴリの画像間の繰り返しパターンを表す数学モデルを開発します。

ImageNet (22,000 のカテゴリに分類された 1,400 万を超える画像のデータベース) や MNIST (60,000 の手書き数字のデータセット) など、すでにいくつかの大規模なオープンソースデータセットが存在します。 AI エンジニアはこれらのリソースを使用してディープラーニングモデルをトレーニングできます。

ただし、ディープラーニングモデルのトレーニングには、非常に強力なコンピューティングリソースへのアクセスも必要です。開発者は通常、CPU、GPU クラスター、または Google の Tensor Processing Unit (TPU) などの特殊なハードウェアを使用して、ニューラルネットワークを効率的にトレーニングします。このようなリソースを購入またはレンタルするコストは、単独の開発者または小規模な組織の予算を超える可能性があります。さらに、多くの問題では、強力な AI モデルをトレーニングするのに十分な例がありません。

転移学習により、ディープラーニングのトレーニングの負担が大幅に軽減される

AI エンジニアが特定の問題を解決するために画像分類ニューラルネットワークを作成したいとします。エンジニアは、何千枚もの画像を収集する代わりに、ImageNet などの公開データセットを使用し、ドメイン固有の写真でそれらを強化することができます。

しかし、AIエンジニアは、ニューラルネットワークを通じて何百万もの画像を実行するために必要なコンピューティングリソースを借りるために依然として高額な料金を支払わなければなりません。ここで転移学習が役立ちます。転移学習とは、以前にトレーニングされたニューラルネットワークを微調整して新しい AI モデルを作成するプロセスです。

開発者は、ニューラルネットワークを最初からトレーニングする代わりに、事前にトレーニングされたオープンソースのディープラーニングモデルをダウンロードし、独自の目的に合わせて微調整することができます。事前にトレーニングされたベースモデルが多数用意されており、その中から選択できます。一般的な例としては、AlexNet、Google の Inception-v3、Microsoft の ResNet-50 などがあります。これらのニューラルネットワークは、ImageNet データセットでトレーニングされています。 AI エンジニアは、独自のドメイン固有の例を使用して AI をさらにトレーニングすることで AI を強化するだけで済みます。

転移学習には大規模なコンピューティングリソースは必要ありません。ほとんどの場合、デスクトップコンピューターまたはラップトップコンピューターでは、事前トレーニング済みのニューラルネットワークを数時間以内で微調整できます。

転移学習の仕組み

興味深いことに、ニューラルネットワークは階層的に動作を展開します。各ニューラルネットワークは複数のレイヤーで構成されています。トレーニング後、各レイヤーは入力データ内の特定の特徴を検出するように調整されます。

たとえば、画像分類器の畳み込みネットワークでは、最初の数層でエッジ、コーナー、円、色の塊などの一般的な特徴を検出します。ネットワークの奥深くに進むにつれて、レイヤーは目、顔、完全なオブジェクトなど、より具体的なものを検出し始めます。

ニューラルネットワークの最上層は一般的な特徴を検出します。より深い層では実際のオブジェクトを検出します (出典: arxiv.org)

転移学習を実行する際、AI エンジニアは事前トレーニング済みのニューラルネットワークの最初のレイヤーを固定します。これらは、すべてのドメインに共通する一般的な機能を検出するレイヤーです。次に、独自の例を使用してより深いレイヤーを微調整し、新しいレイヤーを追加して、トレーニングデータセットに含まれる新しいカテゴリを分類します。

事前トレーニング済みおよび微調整済みの AI モデルは、それぞれ「教師」モデルと「生徒」モデルとも呼ばれます。

固定および微調整されたレイヤーの数は、ソース AI モデルとターゲット AI モデル間の類似性によって異なります。生徒の AI モデルが教師のモデルに非常に近い問題を解く場合、事前トレーニング済みモデルの個々のレイヤーを微調整する必要はありません。開発者は、ネットワークの最後に新しいレイヤーを追加し、新しいカテゴリの AI をトレーニングするだけです。これを「ディープ特徴抽出」と呼びます。ターゲットドメインのトレーニングデータが不足している場合にも、ディープ特徴抽出が適しています。

ソースと宛先の間に大きな相違がある場合、またはトレーニング例が多数ある場合、開発者は事前トレーニング済みの AI モデル内のいくつかのレイヤーを固定します。次に、新しい分類レイヤーを追加し、新しい例を使用して凍結解除レイヤーを微調整します。これは「中間レベルの特徴抽出」と呼ばれます。

ソース AI モデルとターゲット AI モデルの間に大きな違いがある場合、開発者はニューラルネットワーク全体を解凍して再トレーニングします。「フルモデル微調整」と呼ばれるこのタイプの転移学習にも、大量のトレーニング例が必要です。

画像提供: シカゴ大学

事前にトレーニングされたモデルを取得して、そのすべてのレイヤーを再トレーニングするのはばかげているように思えます。しかし、実際には、時間とコンピューティングリソースを節約できます。トレーニングの前に、ニューラルネットワーク内の変数は乱数で初期化され、トレーニングデータが処理されるにつれてその値が調整されます。事前トレーニング済みのニューラルネットワークの変数値は、何百万ものトレーニング例に合わせて調整されています。したがって、ソース AI モデルに少しでも類似した新しい例のセットでトレーニングする新しい AI モデルにとっては、より良い出発点となります。

転移学習は万能薬ではない

転移学習は、AI モデルのトレーニングに関する多くの問題を効率的かつ手頃な方法で解決します。ただし、トレードオフも伴います。事前トレーニング済みのニューラルネットワークにセキュリティ上の脆弱性がある場合、AI モデルはそれを転移学習の基礎として使用し、それらの脆弱性を継承します。

たとえば、ベースモデルは、敵対的攻撃や、AI の動作を不規則に変更させるように巧妙に作成された入力例の影響を受けない可能性があります。悪意のある攻撃者がベースモデルに対する敵対的サンプルを開発できた場合、その攻撃はそこから派生したほとんどの AI モデルに対して有効になります。シカゴ大学、カリフォルニア大学サンタクララ校、バージニア工科大学の研究者らは、昨年のUsenixセキュリティシンポジウムで発表した論文でこれについて説明した。

さらに、AIにゲームのプレイ方法を教えるといった一部の分野では、転移学習の使用は非常に限られています。これらの AI モデルは、計算集約的で多くの試行錯誤を必要とする AI の分野である強化学習を使用してトレーニングされました。強化学習では、ほとんどの新しい問題は固有のものであり、独自の解決が必要です。

しかし、要約すると、ほとんどのディープラーニングアプリケーション (画像分類や自然言語処理など) では、巧妙な転移学習をうまく活用できる可能性が高くなります。

<<: Microsoft Megvii の顔認識は 100% 動作不能! 写真の「見えないマント」で写真のプライバシーデータを保護

>>: 自然言語処理はビジネスに革命をもたらす