転移学習の魔法:ディープラーニングは誰でも利用できるようになる

転移学習の魔法:ディープラーニングは誰でも利用できるようになる

1 年前、私は数人の友人と機械学習 API を構築するためのオープンソース プラットフォームである Cortex の開発を始めました。当初、私たちは、本番環境で機械学習 (ML) を使用しているすべての企業を含むすべてのユーザーが、成熟したデータ サイエンス チームを持つ大企業であると想定していました。

しかし、私たちはまったく間違っていました。

一年を通して、学生、独立したエンジニア、小規模なチームがモデルを生産段階に移行していく様子を見てきました。驚くべきことに、日常のアプリケーションで使用できる最先端の大規模なディープラーニング モデルを提供していることがよくあります。 2 人のメンバーからなるチームが最近、アプリケーションの同時ユーザー 10,000 人をサポートするために 500 GPU の推論クラスターを構築しました。

最近まで、大きな予算と大量のデータを持つ企業だけがこれを実現できました。今では、どのチームでもそれが可能になりました。この変化はさまざまな要因の組み合わせの結果ですが、重要な要素の 1 つは転移学習です。

転移学習とは何か

広義では、転移学習とは、あるタスク用にトレーニングされたディープ ニューラル ネットワークの知識を、関連するタスク用にトレーニングされた別のネットワークに「転移」する技術を指します。たとえば、転移学習を使用すると、物体検出に使用されるモデルを取得し、少量のデータを使用して「微調整」して、より具体的な物体を検出することができます。

これらの技術は、ディープ ニューラル ネットワークのアーキテクチャのおかげで機能します。ネットワークの下位層はより基本的な知識を担当し、タスク固有の知識は通常上位層にあります。


画像出典: スタンフォード

下位層をトレーニングした後、少量のデータで上位層を微調整できます。たとえば、オブジェクト検出モデル (YOLOv4 など) は、非常に小さなデータセットで特定のもの (ナンバープレートなど) を認識するように微調整できます。

ネットワーク間で知識を転送する手法はさまざまですが、プロセスを簡素化することを目的とした新しいプロジェクトが数多くあります。たとえば、gpt-2-simple ライブラリを使用すると、誰でも GPT-2 を微調整し、Python 関数を使用して予測を生成することができます: https://gist.github.com/caleb-kaiser/dd40d16647b1e4cda7545837ea961272。

転移学習が機械学習をどう拓くか

ほとんどのチームは、特定の種類の知識が不足しているために機械学習を使用できないわけではありません。画像分類器を構築する場合、使用できるよく知られたモデルが多数あり、最新のフレームワークを使用するとトレーニングが非常に簡単になります。ほとんどのチームにとって、機械学習はコストがかかることから現実的な選択肢とは考えられてきませんでした。

例として、OpenAI の (これまでのところ) 最高の言語モデルである GPT-2 を使用しましょう。

パブリック クラウドを使用する場合、GPT-2 のトレーニングだけで推定 4 万ドル以上のコストがかかります。この料金に加えて、GPT-2 のトレーニングには 40 GB のテキスト コンテンツも必要です (控えめに見積もっても 2,000 万ページ以上)。大量のテキストをキャプチャして整理すること自体が大規模なプロジェクトです。このため、ほとんどのチームは独自の GPT-2 をトレーニングすることができませんでした。

しかし、単に微調整したいだけの場合はどうすればよいでしょうか? 関連するプロジェクトを見てみましょう。

AI Dungeon は、以前のコマンド ゲーム ダンジョン クローラーのスタイルで、自分でアドベンチャーを選択するゲームです。プレイヤーはコマンドを入力してプレイし、ゲームはそれに応じて冒険を進めていきます。このアドベンチャー ゲームは、トレーニング済みの GPT-2 モデルによって作成されており、自分でアドベンチャーを選択するテキストを記述できます。

AI Dungeon は、独立系エンジニアの Nick Walton 氏によって開発されました。同氏は、gpt-2-simple と chooseyourstory.com Web サイトから抽出したテキストを使用して GPT を微調整しました。ウォルトン氏によると、GPT-2 を微調整するには 30MB のテキストと DGX-1 のトレーニングに約 12 時間かかり、コストは約 374.62 ドルだったが、結果として得られた製品は AWS の p3dn.24xlarge とほぼ同じだったという。

ほとんどのチームは、40,000 ドルのクラウド サービス料金と 40 GB のテキスト抽出に圧倒されるかもしれませんが、375 ドルと 30 MB であれば、小規模なチームでも問題にはなりません。

転移学習の応用分野は言語モデルを超えています。創薬においては、モデルをゼロからトレーニングするのに十分な疾患固有のデータが存在しないことがよくあります。 DeepScreening は、ユーザーが独自のデータベースをアップロードしてモデルを微調整し、そのプラットフォームを使用して反応する可能性のある化合物のライブラリをスクリーニングできるようにすることで、この問題に対処する無料のプラットフォームです。

[[333822]]
画像ソース: unsplash

このようなモデルをゼロからトレーニングすることはほとんどの研究者の能力を超えていましたが、転移学習のおかげで、突然誰もがそれを実行できるようになりました。

次世代のディープラーニングモデルは転移学習に依存している

強調しておかなければならない点が 1 つあります。これまで挙げた例は経済的利益に焦点を当てていますが、転移学習は小規模なチームが数字を補うために使用するツールではありません。規模に関係なく、すべてのチームが転移学習を使用してディープラーニング モデルをトレーニングしています。実際、新しくリリースされたモデルのいくつかは転移学習用に特別に設計されています。

GPT-2 が初めてリリースされたとき、その生のメモリのせいで話題になったことを思い出してください。それまで、15 億のパラメータを持つモデルなど聞いたこともありませんでした。しかし、1,750億のパラメータを持つGPT-3と比較すると見劣りします。

OpenAI を除けば、1750 億のパラメータを持つ言語モデルをトレーニングできる企業はほとんどありません。このような大規模なモデルを展開する場合でも、多くの問題が発生します。 OpenAI はオープンソースをリリースするという伝統を破り、事前トレーニング済みの新しいモデル バージョンを作成し、GPT-3 を API としてリリースしました。ユーザーは独自のデータを使用して GPT-3 を微調整できます。

言い換えれば、GPT-3 の規模の大きさにより、転移学習はもはや新しいタスクをトレーニングするための手頃な方法ではなく、唯一の実行可能なアプローチになっています。

転移学習を優先するアプローチがますます一般的になっています。 Google は、高度なコンピューター ビジョン モデルのオープン ソース リポジトリである Big Transfer をリリースしました。コンピューター ビジョン モデルは通常、言語モデルよりも小さいですが、追いつき始めています。1,400 万枚の画像でトレーニングされた事前トレーニング済みの ResNet-152x4 は 4.1 GB を占めます。

名前が示すように、Big Transfer はこれらのモデルによる転移学習の使用を促進することを目的としています。リポジトリの一部として、Google は各モデルを簡単に微調整できるコードも提供しています。次の図に示すように、モデルの容量は時間の経過とともに増加します (GPT-3 ではグラフのサイズが 10 倍に増加します)。


画像出典: Microsoft

この傾向が続くと(そして、それが続かないという兆候はありません)、転移学習はチームが最先端のディープラーニングを使用する主な方法になるでしょう。

モデルが大きくなるにつれて、転移学習によってすべてのチームがモデルにアクセスできるようになり、生産される大規模なディープラーニング モデルの数は急増しました。これらのモデルのトレーニングは困難です。推論には大量のスペースとメモリが必要であり、一度に複数のリクエストを処理できないことがよくあります。

[[333824]]
画像ソース: unsplash

これらのモデル向けに Cortex にはすでにいくつかの主要な機能 (GPU/ASIC 推論、リクエストベースのエラスティック スケーリング、スポット インスタンスのサポート) が導入されており、モデルの拡張に合わせて新しい機能を追加し続けます。

しかし、世界中のすべてのエンジニアが最先端のディープラーニングを使用して問題を解決できるようになる可能性と比較すると、インフラストラクチャの課題は取るに足らないものです。ディープラーニングは今や誰でも利用できるようになりました。

<<:  あなたの顔、5セント

>>:  清華大学と北京大学がケンブリッジ大学を上回り、Googleがリストを独占、百度が中国企業をリード、ICML2020ランキングが発表

ブログ    
ブログ    

推薦する

AIが不動産業界をどう変えるのか

デジタル化が進むにつれ、人工知能は不動産経済の成長を促進する上で重要な役割を果たします。有名なソフト...

ドローンの応用シナリオに関する簡単な説明

技術の発展に伴い、ドローンの応用シナリオは絶えず拡大しています。ドローンが様々な業界で活用されている...

データベース設計: MySQL フィールド名がキーワードと衝突するのを防ぎ、データの整合性を保護します。

MySQL は広く使用されているリレーショナル データベース管理システムです。データベース設計では...

AIと機械学習、5G、IoTは2021年に重要な技術となる

IEEEは、米国、英国、中国、インド、ブラジルの最高情報責任者(CIO)と最高技術責任者(CTO)を...

Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

9月15日、北京人工知能産業サミットおよび中関村科学城科学技術イノベーションコンテスト授賞式において...

自然言語処理の究極の方向性: 自然言語処理におけるディープラーニングの 5 つの利点

[[206924]]自然言語処理の分野では、ディープラーニングによって、より多くのデータが必要でも言...

ByteDance は給与の大幅調整を行いましたが、これは隠された 20% の給与増額です。ネットユーザー:業界の清流!

18日夕方、バイトダンスは全従業員宛ての電子メールで重大イベントを発表した。手紙の全内容が明らかに...

...

...

MITテクノロジーレビューが2019年の世界トップ10の画期的テクノロジーを発表

MITテクノロジーレビューは2001年以来、毎年その年の「トップ10ブレークスルーテクノロジー」を選...

自然言語処理がビジネスインテリジェンスの未来である理由

Siri に道順を尋ねるたびに、複雑なコード列がアクティブ化され、「Siri」は質問を理解し、必要...

...

RealAIは、業界の信頼できる発展を促進するために人工知能セキュリティ技術ツールを作成します。

4月26日、中国サイバースペース管理局の主催で「人工知能-社会実験の観点から見た社会ガバナンス」を...

史上最も完全な自動運転ポジションの紹介

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...