転移学習の魔法:ディープラーニングは誰でも利用できるようになる

転移学習の魔法:ディープラーニングは誰でも利用できるようになる

1 年前、私は数人の友人と機械学習 API を構築するためのオープンソース プラットフォームである Cortex の開発を始めました。当初、私たちは、本番環境で機械学習 (ML) を使用しているすべての企業を含むすべてのユーザーが、成熟したデータ サイエンス チームを持つ大企業であると想定していました。

しかし、私たちはまったく間違っていました。

一年を通して、学生、独立したエンジニア、小規模なチームがモデルを生産段階に移行していく様子を見てきました。驚くべきことに、日常のアプリケーションで使用できる最先端の大規模なディープラーニング モデルを提供していることがよくあります。 2 人のメンバーからなるチームが最近、アプリケーションの同時ユーザー 10,000 人をサポートするために 500 GPU の推論クラスターを構築しました。

最近まで、大きな予算と大量のデータを持つ企業だけがこれを実現できました。今では、どのチームでもそれが可能になりました。この変化はさまざまな要因の組み合わせの結果ですが、重要な要素の 1 つは転移学習です。

転移学習とは何か

広義では、転移学習とは、あるタスク用にトレーニングされたディープ ニューラル ネットワークの知識を、関連するタスク用にトレーニングされた別のネットワークに「転移」する技術を指します。たとえば、転移学習を使用すると、物体検出に使用されるモデルを取得し、少量のデータを使用して「微調整」して、より具体的な物体を検出することができます。

これらの技術は、ディープ ニューラル ネットワークのアーキテクチャのおかげで機能します。ネットワークの下位層はより基本的な知識を担当し、タスク固有の知識は通常上位層にあります。


画像出典: スタンフォード

下位層をトレーニングした後、少量のデータで上位層を微調整できます。たとえば、オブジェクト検出モデル (YOLOv4 など) は、非常に小さなデータセットで特定のもの (ナンバープレートなど) を認識するように微調整できます。

ネットワーク間で知識を転送する手法はさまざまですが、プロセスを簡素化することを目的とした新しいプロジェクトが数多くあります。たとえば、gpt-2-simple ライブラリを使用すると、誰でも GPT-2 を微調整し、Python 関数を使用して予測を生成することができます: https://gist.github.com/caleb-kaiser/dd40d16647b1e4cda7545837ea961272。

転移学習が機械学習をどう拓くか

ほとんどのチームは、特定の種類の知識が不足しているために機械学習を使用できないわけではありません。画像分類器を構築する場合、使用できるよく知られたモデルが多数あり、最新のフレームワークを使用するとトレーニングが非常に簡単になります。ほとんどのチームにとって、機械学習はコストがかかることから現実的な選択肢とは考えられてきませんでした。

例として、OpenAI の (これまでのところ) 最高の言語モデルである GPT-2 を使用しましょう。

パブリック クラウドを使用する場合、GPT-2 のトレーニングだけで推定 4 万ドル以上のコストがかかります。この料金に加えて、GPT-2 のトレーニングには 40 GB のテキスト コンテンツも必要です (控えめに見積もっても 2,000 万ページ以上)。大量のテキストをキャプチャして整理すること自体が大規模なプロジェクトです。このため、ほとんどのチームは独自の GPT-2 をトレーニングすることができませんでした。

しかし、単に微調整したいだけの場合はどうすればよいでしょうか? 関連するプロジェクトを見てみましょう。

AI Dungeon は、以前のコマンド ゲーム ダンジョン クローラーのスタイルで、自分でアドベンチャーを選択するゲームです。プレイヤーはコマンドを入力してプレイし、ゲームはそれに応じて冒険を進めていきます。このアドベンチャー ゲームは、トレーニング済みの GPT-2 モデルによって作成されており、自分でアドベンチャーを選択するテキストを記述できます。

AI Dungeon は、独立系エンジニアの Nick Walton 氏によって開発されました。同氏は、gpt-2-simple と chooseyourstory.com Web サイトから抽出したテキストを使用して GPT を微調整しました。ウォルトン氏によると、GPT-2 を微調整するには 30MB のテキストと DGX-1 のトレーニングに約 12 時間かかり、コストは約 374.62 ドルだったが、結果として得られた製品は AWS の p3dn.24xlarge とほぼ同じだったという。

ほとんどのチームは、40,000 ドルのクラウド サービス料金と 40 GB のテキスト抽出に圧倒されるかもしれませんが、375 ドルと 30 MB であれば、小規模なチームでも問題にはなりません。

転移学習の応用分野は言語モデルを超えています。創薬においては、モデルをゼロからトレーニングするのに十分な疾患固有のデータが存在しないことがよくあります。 DeepScreening は、ユーザーが独自のデータベースをアップロードしてモデルを微調整し、そのプラットフォームを使用して反応する可能性のある化合物のライブラリをスクリーニングできるようにすることで、この問題に対処する無料のプラットフォームです。

[[333822]]
画像ソース: unsplash

このようなモデルをゼロからトレーニングすることはほとんどの研究者の能力を超えていましたが、転移学習のおかげで、突然誰もがそれを実行できるようになりました。

次世代のディープラーニングモデルは転移学習に依存している

強調しておかなければならない点が 1 つあります。これまで挙げた例は経済的利益に焦点を当てていますが、転移学習は小規模なチームが数字を補うために使用するツールではありません。規模に関係なく、すべてのチームが転移学習を使用してディープラーニング モデルをトレーニングしています。実際、新しくリリースされたモデルのいくつかは転移学習用に特別に設計されています。

GPT-2 が初めてリリースされたとき、その生のメモリのせいで話題になったことを思い出してください。それまで、15 億のパラメータを持つモデルなど聞いたこともありませんでした。しかし、1,750億のパラメータを持つGPT-3と比較すると見劣りします。

OpenAI を除けば、1750 億のパラメータを持つ言語モデルをトレーニングできる企業はほとんどありません。このような大規模なモデルを展開する場合でも、多くの問題が発生します。 OpenAI はオープンソースをリリースするという伝統を破り、事前トレーニング済みの新しいモデル バージョンを作成し、GPT-3 を API としてリリースしました。ユーザーは独自のデータを使用して GPT-3 を微調整できます。

言い換えれば、GPT-3 の規模の大きさにより、転移学習はもはや新しいタスクをトレーニングするための手頃な方法ではなく、唯一の実行可能なアプローチになっています。

転移学習を優先するアプローチがますます一般的になっています。 Google は、高度なコンピューター ビジョン モデルのオープン ソース リポジトリである Big Transfer をリリースしました。コンピューター ビジョン モデルは通常、言語モデルよりも小さいですが、追いつき始めています。1,400 万枚の画像でトレーニングされた事前トレーニング済みの ResNet-152x4 は 4.1 GB を占めます。

名前が示すように、Big Transfer はこれらのモデルによる転移学習の使用を促進することを目的としています。リポジトリの一部として、Google は各モデルを簡単に微調整できるコードも提供しています。次の図に示すように、モデルの容量は時間の経過とともに増加します (GPT-3 ではグラフのサイズが 10 倍に増加します)。


画像出典: Microsoft

この傾向が続くと(そして、それが続かないという兆候はありません)、転移学習はチームが最先端のディープラーニングを使用する主な方法になるでしょう。

モデルが大きくなるにつれて、転移学習によってすべてのチームがモデルにアクセスできるようになり、生産される大規模なディープラーニング モデルの数は急増しました。これらのモデルのトレーニングは困難です。推論には大量のスペースとメモリが必要であり、一度に複数のリクエストを処理できないことがよくあります。

[[333824]]
画像ソース: unsplash

これらのモデル向けに Cortex にはすでにいくつかの主要な機能 (GPU/ASIC 推論、リクエストベースのエラスティック スケーリング、スポット インスタンスのサポート) が導入されており、モデルの拡張に合わせて新しい機能を追加し続けます。

しかし、世界中のすべてのエンジニアが最先端のディープラーニングを使用して問題を解決できるようになる可能性と比較すると、インフラストラクチャの課題は取るに足らないものです。ディープラーニングは今や誰でも利用できるようになりました。

<<:  あなたの顔、5セント

>>:  清華大学と北京大学がケンブリッジ大学を上回り、Googleがリストを独占、百度が中国企業をリード、ICML2020ランキングが発表

ブログ    
ブログ    

推薦する

韓国が世界初の常温超伝導体を開発? 127度での超伝導、再現できればノーベル賞確実

常温・常圧超伝導が再び突破された?今回は韓国の科学者たちです。彼らは、世界初の常温常圧超伝導体、すな...

最初のRISC-Vラップトップが公開される、またはWindowsシステムが搭載されると思われますが、年末までに利用可能になりますか

チップ業界では、Armとx86が現在の主流のアーキテクチャであり、オープンなRSIC-Vが将来の方向...

中国の大学の人工知能専攻ランキング:清華大学、浙江大学、上海交通大学がトップ3にランクイン

AIの開発が国家戦略にまで上り詰めるにつれ、人工知能は大学入試の選択肢の中でも最も注目され、最も人気...

...

機械学習: 教師なし学習: 9 つのクラスタリング アルゴリズム

今日は、機械学習の教師なし学習における一般的なクラスタリング手法をいくつか紹介したいと思います。教師...

...

人工知能に置き換えられる可能性が最も高い 12 の職業、あなたの職業もその中に含まれていますか?

AlphaGo が囲碁の名人に勝利し、百度の無人自動車が第五環状線を走行し、マイクロソフトの Xi...

転移学習におけるドメイン適応の理解と3つの手法の紹介

ドメイン適応はコンピューター ビジョンの領域であり、ソース データセットでニューラル ネットワークを...

人工知能は何度も「危機的状況」に陥っているが、「成長痛」をどう解決するのか?

専門家や業界関係者は、人工知能がさまざまな業界や分野に広く浸透するにつれ、現場の応用に重点を置き基礎...

人工知能やモノのインターネットなどの技術は、気候変動のリスクを軽減する上で大きな役割を果たすことができる。

人工知能は、既存の技術と組織活動の効率を向上させることを目的としています。しかし、気候変動や、グリー...

2022年の政府活動報告を聞いた後、人工知能業界が注目するべき点は以下のとおりです。

2022年全国人民代表大会と中国人民政治協商会議が開幕した。3月5日には2022年政府活動報告が発...

大規模モデルは知識グラフを効率的に作成するのに役立ちます

著者 | 崔昊レビュー | Chonglouまとめこの記事では、ナレッジ グラフと大規模言語モデルを...

人工知能は商業ディスプレイの将来の発展の傾向を混乱させる可能性がある

[[412444]]商業用ディスプレイは日常生活でますます広く使用されるようになり、買い物、仕事、旅...

AIが高性能鋼材の設計を支援:破壊強度と破壊寿命を正確に予測

機械学習技術は、ヘルスケアから高エネルギー物理学に至るまでのさまざまな分野の進歩を推進しています。現...