転移学習により、ディープラーニングは難しくなくなりました...

転移学習により、ディープラーニングは難しくなくなりました...

それほど遠くない過去には、データ サイエンス チームがディープラーニングを効果的に活用するには、いくつかのものが必要でした。

  • 斬新なモデルアーキテクチャ、おそらく社内で設計
  • 大規模かつ潜在的に独占的なデータセットへのアクセス
  • 大規模モデルのトレーニングに必要なハードウェアまたは資金

これにより、ディープラーニングは妨げられ、これらの条件を満たす少数のプロジェクトに限定されてしまいます。

しかし、ここ数年で状況は変わりました。

Cortex では、ユーザーがディープラーニングに基づいた新世代の製品を発売していますが、以前とは異なり、これらの製品のすべてが独自のモデル アーキテクチャを使用して構築されているわけではありません。

この進歩の原動力は転移学習です。

転移学習とは何ですか?

大まかに言えば、転移学習とは、写真の花を識別するなどの特定のタスク用にトレーニングされたモデルに蓄積された知識を別のモデルに転送して、人の皮膚にある黒色腫を識別するなどの関連する別のタスクの予測に役立てることができるという考えを指します。

注: 転移学習についてさらに詳しく知りたい場合は、Sebastian Ruder が書いた素晴らしい入門書を参照してください。

転移学習にはさまざまなアプローチがありますが、広く採用されている方法の 1 つは微調整です。

このアプローチでは、チームは事前にトレーニングされたモデルを取得し、モデルの最後のレイヤーを削除/再トレーニングして、新しい関連タスクに焦点を当てます。たとえば、「AI Dungeon」は、AI が生成した説得力のあるストーリーにより急速に人気を博したオープンワールドのテキスト アドベンチャー ゲームです。

AI Dungeon は Google の研究室で開発されたのではなく、1 人のエンジニアによって構築されたプロジェクトであったことは注目に値します。

AI Dungeon の作成者である Nick Walton 氏は、モデルをゼロから設計したのではなく、最先端の NLP モデルである OpenAI の GPT-2 を採用し、それを「自分で冒険を選ぶ」テキストで微調整しました。

これが機能するのは、ニューラル ネットワークでは、最初のレイヤーが単純で一般的な機能に焦点を当て、最後のレイヤーがよりタスク固有の分類/回帰に焦点を当てているためです。 Ng 氏は、画像認識モデルを想像することで、これらのレイヤーとそれらの相対的な特異性のレベルを視覚化します。


ベースレイヤーの一般的な知識は、他のタスクにもうまく応用できることが多いことがわかります。 AIダンジョンの場合、GPT-2は一般的な英語を比較的高度に理解しており、最終レイヤーでの再トレーニングを行うだけで、自分で選ぶアドベンチャーのジャンルで優れた成績を収めることができます。

このプロセスを通じて、エンジニアは数日でモデルを新しいドメインに展開し、比較的新しい結果を得ることができます。

転移学習が次世代の機械学習駆動型ソフトウェアの鍵となる理由

先ほど、機械学習とディープラーニングに必要な好ましい条件、特にこれらの条件を有効に活用するための条件について述べました。大規模でクリーンなデータセットにアクセスし、効果的なモデルを設計し、それをトレーニングする方法が必要です。

つまり、デフォルトでは、特定の領域または特定のリソースのないプロジェクトは実行不可能になります。

現在、転移学習により、これらのボトルネックは解消されています。

1. データセットの小ささはもはや決定的な要因ではない

ディープラーニングには通常、大量のラベル付きデータが必要ですが、多くの分野ではそのようなデータは存在しません。転移学習はこの問題を解決できます。

例えば、ハーバード大学医学大学院に所属する研究チームは最近、「胸部X線写真に基づいて、非がんによる死亡率を含む長期死亡率を予測できる」モデルを導入した。


約 50,000 枚のラベル付き画像のデータセットでは、研究者は CNN (畳み込みニューラル ネットワーク) をゼロからトレーニングするために必要なデータを持っていませんでした。代わりに、彼らは事前トレーニング済みの Inception-v4 モデル (1,400 万枚を超える画像を含む ImageNet データセットでトレーニング済み) を採用し、アーキテクチャをわずかに変更することで転移学習を使用してモデルをデータセットに適応させました。

最終的に、彼らの CNN は、胸部画像 1 枚のみを使用して、各患者の実際の死亡率と相関するリスク スコアを生成することに成功しました。

2. モデルのトレーニングは数日ではなく数分で完了

膨大な量のデータでモデルをトレーニングするには、大規模なデータセットを取得するだけでなく、リソースと時間も必要です。

たとえば、Google が最も高度な画像分類モデルである exception を開発したとき、彼らは 2 つのバージョンをトレーニングしました。1 つは ImageNet データセット (1,400 万枚の画像) で、もう 1 つは JFT データセット (3 億 5,000 万枚の画像) でトレーニングしました。

60 個の NVIDIA K80 GPU でさまざまな最適化を使用してトレーニングすると、1 つの ImageNet 実験を実行するのに 3 日かかります。 JFTの実験には1か月以上かかりました。

ただし、事前トレーニング済みの Xception モデルがリリースされたため、チームは独自のバージョンをより迅速に微調整できるようになりました。

たとえば、イリノイ大学とアルゴンヌ国立研究所のチームは最近、銀河の画像を渦巻き状か楕円状かに分類するモデルをトレーニングしました。


ラベル付き画像がわずか 35,000 枚のデータセットしかなかったにもかかわらず、NVIDIA GPU を使用してわずか 8 分で Xception を微調整することができました。

GPU 上で実行すると、このモデルは 99.8% の精度で毎分 20,000 個を超える銀河を超人的な速度で分類できます。

3. モデルのトレーニングにベンチャーキャピタルは不要

Xception モデルを 60 個の GPU でトレーニングするのに数か月かかる場合、Google はコストをあまり気にしていない可能性があります。しかし、Google ほどの予算を持たないチームにとって、モデル トレーニングの価格は大きな懸念事項です。

たとえば、OpenAI が GPT-2 の結果を初めて発表したとき、彼らはモデル アーキテクチャをリリースしましたが、誤用に対する懸念から、事前トレーニング済みの完全なモデルはリリースしませんでした。

これに応えて、ブラウン大学のチームは論文に記載されているアーキテクチャとトレーニングプロセスを使用して GPT-2 をコピーし、そのモデルを OpenGPT-2 と名付けました。トレーニングには約5万ドルを費やしたが、パフォーマンスはGPT-2よりも悪かった。

モデルのパフォーマンスが最先端のレベルを下回る場合、多額の資金なしで実際のソフトウェアを構築するチームにとって、5 万ドルは大きなリスクとなります。

AI Dungeon を構築する際、Nick Walton は GPT-2 を微調整してプロジェクトを完了しました。 OpenAIはすでにモデルのトレーニングに約27,118,520ページのテキストと数千ドルを投入しており、ウォルトン氏はそれを一切作り直す必要がなかった。

代わりに、彼は chooseyourstory.com からのはるかに小さなテキスト セットを使用し、完全に無料の Google Colab でモデルを微調整しました。

機械学習エンジニアリングは真のエコシステムになりつつある

ソフトウェア エンジニアリングと比較すると、エコシステムは一般に、かなり標準的な方法で「成熟」していると考えられています。

非常に強力な機能を備え、特殊なケース、研究プロジェクト、おもちゃに使用される新しいプログラミング言語が登場しようとしています。この段階では、それを使用する人は誰でも、すべての基本的なユーティリティをゼロから構築する必要があります。

次に、このコミュニティの人々は、ツールが実稼働環境で使用できるほど安定するまで、共通ユーティリティを抽象化するライブラリとプロジェクトを開発します。

この段階では、ソフトウェアの構築にこれを使用するエンジニアは、HTTP リクエストの送信やデータベースへの接続を気にする必要はなく、それらはすべて抽象化されており、エンジニアは製品の構築のみに集中できます。

つまり、Facebook は React を構築し、Google は Angular を構築し、エンジニアはそれらを使用して製品を構築します。転移学習の発展により、機械学習エンジニアリングはこの方向に進んでいます。

OpenAI、Google、Facebook などのテクノロジー大手が強力なオープンソース モデルをリリースするにつれて、機械学習エンジニア向けの「ツール」はより強力で安定したものになっています。

機械学習エンジニアは、PyTorch や TensorFlow を使用してモデルをゼロから構築するのに時間を費やす代わりに、オープンソース モデルと転移学習を使用して製品を構築しています。これは、まったく新しい世代の機械学習主導型ソフトウェアが到来しようとしていることを意味します。

今では、機械学習エンジニアはこれらのモデルを本番環境に導入することだけを心配すればよいのです。

ディープラーニングはもう難しくありません。

<<:  人工知能は破壊をもたらすのか? 「人工知能破壊論」への疑問と考察

>>:  マッキンゼーは、2030年までに1億人の中国人が転職に直面し、世界中で8億人がロボットに置き換えられると予測している。

ブログ    
ブログ    
ブログ    

推薦する

国連は2030年の持続可能な開発目標の達成を支援するために数十台のロボットを採用する予定

ロイター通信によると、7月5日、国連技術機関はスイスで行われた「人類の利益のためのAI」イベントで、...

AI が加速的な進化を促進 Qualcomm AI & IoT 開発技術オープンデーが間もなく開催

携帯電話からウェアラブルデバイス、翻訳製品まで、人工知能は人々の日常生活に広く浸透しています。 5G...

...

機械学習は「部屋の中の象」に対処するのが難しい

AI には、部屋に突然象が現れたなど、信じられないような異常を発見しながらも、それを冷静に受け入れる...

...

GPTで絵本を作るのはすごく早いですね!

今日は、世界的に人気のAIツール「ChatGPT+Midjourney」を使った絵本の制作過程をご紹...

囲碁をプレイするのはとても簡単です。AlphaZero は量子コンピューティングをプレイし始めます!

過去数十年にわたる量子物理学技術の探求において、最も注目を集めているのは量子コンピュータです。 [[...

人工知能ブームの背景にある産業チェーンのレイアウト分析

「新世代人工知能発展計画」の発表に伴い、国務院は我が国の人工知能発展計画を全体的に展開し始めました。...

機械学習の問題を解決する一般的な方法があります!これを読んでください

平均的なデータ サイエンティストは毎日大量のデータを処理します。データのクリーニング、処理、機械学習...

目に見えない戦場の技術である人工知能は、サイバー戦争にどのように応用できるのでしょうか?

[[339414]]英国のジェーンズ・ディフェンスのウェブサイトによると、米国防高等研究計画局のピ...

AIOps 実装をスムーズに開始するための 3 つのヒント

[[386134]]企業は、激しい市場競争に直面して、ビジネスと IT の間にスムーズな「リンク」を...

GPT ストアは来週開始され、OpenAI アプリケーションの爆発的な増加が目前に迫っています。最も完全なGPTビルダーユーザーガイドはここにあります

これから起こることは、やがて起こるでしょう! OpenAIが開発者会議で正式発表した「GPTストア」...

...

新学期にAIデビュー!南京の大学は顔認識技術を使って出席確認と学生管理を行っている

最近、中国薬科大学は試験的に教室に顔認識システムを導入しました。学生の出席を自動的に識別するだけでな...

顔認識技術と表情認識の最新研究の紹介

[[351523]] 1. 顔認識技術の紹介生体認証技術として、顔認証は非侵入的、非接触、フレンドリ...