Baidu Brain EasyDL Professional Editionは、Baiduの超大規模事前学習済みモデルをリリースしました

ディープラーニングの分野では、「転移学習」という用語がますます注目を集めています。パフォーマンスが優れている教師あり学習と比較して、多くの退屈なラベル付けプロセスを排除できます。簡単に言えば、大規模なデータセットでトレーニングされた事前トレーニング済みモデルに小さなデータセットを移行して、新しいデータに対するより良い認識効果を得ることです。新しいモデルの開発コストを大幅に節約できるため、実際のアプリケーションでより広く注目されています。 EasyDL Professional Edition の最新バージョンでは、Baidu の超大規模ビジュアル事前トレーニングモデルが導入され、転移学習ツールと組み合わせることで、開発者が少量のデータを使用して高精度の AI モデルを迅速にカスタマイズできるようになります。

ディープラーニングモデルをトレーニングする場合、通常は大量のデータが必要になりますが、データの収集やラベル付けなどのデータ準備プロセスには多くの人的、費用、時間のコストがかかります。この問題を解決するには、事前トレーニング済みのモデルを使用できます。事前学習済みモデルAを出発点として、これに基づいて再調整し、事前学習済みモデルとそれが学習した知識を使用して、別のタスクBを実行する能力を向上させます。簡単に言えば、大規模なデータセットで学習した事前学習済みモデルに小さなデータセットを移行して、新しいデータに対するより良い認識効果を得ることです。これが転移学習です。転移学習は機械学習の手法として、さまざまなディープラーニングタスクで広く使用されています。転移学習を実装する場合、多くのディープネットワーク移行方法がありますが、その中で最もシンプルなディープネットワーク移行方法は「Fine-tune」です。主に、トレーニング済みのモデルパラメータを新しいモデルに移行して、新しいモデルのトレーニングに役立ちます。

特定のモデル開発タスクでは、通常、大規模な公開データセットでトレーニングおよび収束され、良好な結果が得られたモデルを事前トレーニングの重みとして選択し、その後、ビジネスデータを使用してモデルを微調整します。微調整中は、デフォルトのソースドメイン (事前トレーニング済みモデル) とターゲットドメインデータセット (ユーザービジネスデータセット) に強い相関関係が必要です。つまり、データが同一に分散されている必要があります。このようにして、事前トレーニング済みモデルの大量の知識を活用して、特定のビジネスシナリオをターゲットとし、優れた結果をもたらすモデルを迅速かつ効率的にトレーニングできます。

しかし、実際のアプリケーションシナリオでは、データセットの分布がソースデータセットの分布と異なるという問題に多くのユーザーが直面します。たとえば、事前トレーニング済みモデルのデータはすべて自然の風景ですが、ユーザーのデータセットはすべてアニメのキャラクターです。ソースデータセットとターゲットデータが大きく異なるこのような問題は、特定のアプリケーションで負の転移につながる可能性が高く、トレーニングの収束が遅くなり、モデルのパフォーマンスが低下するという形で現れます。

そのため、さまざまなシナリオを網羅し、あらゆるユーザーのニーズをカバーする超大規模データセットが非常に重要です。この包括的な超大規模データセットでトレーニングされたモデルは、あらゆる分野のユーザーのニーズに適応し、ユーザーのビジネスデータセットをより適切に調整し、ユーザーが独自のデータセットでより優れたモデルを取得できるように支援します。

Baiduが独自に開発した超大規模視覚事前トレーニングモデルは、画像分類と物体検出の2つの方向をカバーしており、通常の公開データセットを使用してトレーニングされた事前トレーニングモデルと比較して、さまざまなデータセットで改善の度合いが異なり、モデルの効果と一般化が大幅に向上しています。

視覚分野では、Baidu が独自に開発した超大規模視覚事前トレーニングモデルが、画像分類と物体検出の両方をカバーしています。画像分類用の事前トレーニング済みモデルは、10万以上のオブジェクトカテゴリと6,500万枚の超大規模画像を含む膨大なインターネットデータを使用した大規模なトレーニングを通じて取得され、さまざまな画像分類シナリオに適しています。オブジェクト検出用の事前トレーニング済みモデルは、800以上のカテゴリ、170万枚の画像、1,000万以上のオブジェクトボックスのデータセットを使用した大規模なトレーニングを通じて取得され、さまざまなオブジェクト検出アプリケーションシナリオに適しています。公開データセットを使用してトレーニングされた事前トレーニング済みモデルと比較すると、さまざまなデータセットでパフォーマンスの向上度合いが異なり、モデルのパフォーマンスと一般化の両方が大幅に向上しました。

（以下の実験データセットはさまざまな業界のものです）

画像分類

画像分類モデルでは、Baidu の超大規模事前トレーニング済みモデルを使用した Resnet50_vd は、さまざまなデータセットで通常のモデルよりも平均 12.76% 向上しています。Baidu の超大規模事前トレーニング済みモデルを使用した Resnet101_vd は、通常の事前トレーニング済みモデルよりも平均 13.03% 向上しています。Baidu の超大規模事前トレーニング済みモデルを使用した MobilenetV3_large_1x は、通常の事前トレーニング済みモデルよりも平均 8.04% 向上しています。

さらに、画像分類の方向に 11 個の新しいモデルが追加されました。

効率的なNetB0_small

エフィシェントネットB4

モバイルネットV3_large_x1_0

レスネット18_vd

ResNeXt101_32x16d_wsl

Res2Net101_vd_26w_4s

SE_ResNet18_vd

例外71

また、Baiduの超大規模事前学習モデルに基づいて学習されたResNet50_vd、ResNet101_vd、MobileNetV3_large_x1_0もあります。その中には、いくつかの特別なモデルがあります。EffcientNetB0_smallは、SEモジュールのないEffcientNetB0です。精度が大きく変わらないことを保証しながら、トレーニングと推論速度を大幅に向上させます。ResNeXt101_32x16d_wslは、大量の写真に基づく弱教師付き事前学習モデルです。精度は高いですが、予測時間は比較的長くなります。Res2Net101_vd_26w_4sはさらに、単一の残差ブロックに階層的な残差接続を構築し、ResNet101よりも精度が高くなります。

新しく追加された分類モデルの推論時間、効果、およびサポートされている展開方法を次の表に示します。

注: 上記のモデルはImageNet1k分類データセットに基づいてトレーニングおよびテストされています。

その他のプリセットモデルについては、EasyDL 公式 Web サイトをご覧ください。

https://ai.baidu.com/ai-doc/EASYDL/0k38n3p16

その他のモデル効果については、PaddleClas を参照してください。

https://paddleclas.readthedocs.io/zh_CN/latest/models/models_intro.html

さらに、画像分類モデルのモデル効果をさらに向上させるために、トレーニングレベルでは、画像分類に mix_up 関数と label_smoothing 関数が追加され、モデルのトレーニング状況に応じて、単一ラベル分類タスクでオンまたはオフに切り替えることができます。 Mix_up は、トレーニングサンプルから 2 つのサンプルをランダムに抽出し、単純なランダム加重合計を実行するデータ強化方法です。重みは保存され、サンプルラベルは同じ重みで重み付けされ、それに応じて合計されます。次に、予測結果が加重合計ラベルと比較され、損失が計算されます。異なるサンプルの特徴を混合することで、モデルの誤ったラベルのメモリが削減され、モデルの一般化能力が向上します。 Label_smoothing は、クラス間の距離を増やし、クラス内の距離を減らす正則化手法です。モデルが予測結果に自信を持ちすぎて、予測が実際の状況から外れてしまうことを防ぎます。また、ラベルの柔らかさが不十分なために生じるオーバーフィッティングの問題も、ある程度軽減します。

物体検出

物体検出モデルでは、百度の超大規模事前学習済みモデルを採用したYOLOv3_DarkNetは、通常のモデルと比較して、さまざまなデータセットでのモデル性能が平均4.53%向上しました。百度の超大規模事前学習済みモデルを採用したFaster_RCNNは、通常の事前学習済みモデルと比較して、平均1.39%向上しました。

さらに、物体検出の方向では、Cascade_Rcnn_ResNet50_FPN、YOLOv3_ResNet50vd_DCN、YOLOv3_MobileNetv1ネットワーク、およびBaiduの超大規模事前学習済みモデルに基づいて学習されたYOLOv3_DarknetとFaster_R-CNN_ResNet50_FPNが追加されました。このうちCascade_Rcnn_ResNet50_FPNは、複数の検出器をカスケード接続し、異なるIOUで再サンプリングメカニズムを設定することで、検出器と位置決めの精度をさらに向上させます。さらに、ユーザーのニーズに応えて、2つの新しいYOLOv3バリアントモデルが追加されました。そのうち、YOLOv3_MobileNetV1は、元のYOLOv3スケルトンネットワークをMobileNetv1に置き換えます。YOLOv3_DarkNetと比較して、新しいモデルのGPUでの推論速度は約73％向上しています。 YOLOv3_ResNet50vd_DCNは、スケルトンネットワークをResNet50-VDに置き換えます。ネイティブDarkNet53ネットワークと比較して、速度と精度に一定の利点があります。GPU推論速度が基本的に変わらないことを保証しながら、モデル効果は1％向上します。同時に、変形可能な畳み込みの追加により、不規則なオブジェクトの検出効果も積極的に向上します。

各検出モデルの効果とサポートされている展開方法を次の表に示します。

注: 上記のモデルはすべて、COCO17 データセットに基づいてトレーニングおよびテストされています。

その他のプリセットモデルについては、EasyDLの公式ウェブサイトをご覧ください。

https://ai.baidu.com/ai-doc/EASYDL/0k38n3p16

その他のモデル効果については、PaddleDetection を参照してください。

https://github.com/PaddlePaddle/PaddleDetection/blob/release/0.3/docs/MODEL_ZOO_cn.md

各モデルの推論時間は次の表に示されています。

注: 上記のモデルはすべて coco17 に基づいてトレーニングされています。

モデル速度の詳細については、PaddleDetection を参照してください。

https://github.com/PaddlePaddle/PaddleDetection/blob/release/0.3/docs/advanced_tutorials/deploy/BENCHMARK_INFER_cn.md

Baidu の超大規模ビジュアル事前トレーニング済みモデルは、公開データセットでトレーニングされた事前トレーニング済みモデルと比較して、パフォーマンスが大幅に向上しています。これらのモデルは、EasyDL Professional Edition にプリインストールされ、正式にリリースされました。 EasyDL Professional Edition は、PaddlePaddle Enterprise Edition のゼロ閾値 AI 開発プラットフォーム EasyDL です。プロのアルゴリズムエンジニア向けに特別に立ち上げられた AI モデル開発およびサービスプラットフォームです。ビジョンと自然言語処理という2つの主要な技術方向をサポートし、スクリプトパラメータ調整とノートブックの2種類の開発方法を柔軟にサポートできます。数十のクラシックネットワークとBaiduの膨大なデータトレーニング用の事前トレーニング済みモデルがあらかじめ設定されており、モデル効果は業界をリードし続けています。また、パブリッククラウド/プライベート化/デバイス側などの柔軟な展開ソリューションもサポートしており、開発効率が高く、トレーニング速度が速いです。同時に、デバイス側の軽量展開と加速ソリューションにより、ビデオメモリの使用量が少なくなり、予測速度が速くなります。

開発者はEasyDLプラットフォームを検索して入力し、プロフェッショナルバージョンを選択し、[新しいタスク] - [タスクの構成] - [事前トレーニング済みモデルの選択]を選択し、[Baidu Super Large Scale Dataset General Classification事前トレーニング済みモデル]を選択します。

ゼロ閾値 AI 開発プラットフォームである EasyDL は、AI 開発プロセス全体にわたって柔軟で使いやすいワンストッププラットフォームソリューションを提供します。 AI 開発プロセスには、データサービス、トレーニングと開発、モデルの展開という 3 つの主要プロセスが含まれます。

データサービス面では、新たにリリースされたEasyDataインテリジェントデータサービスプラットフォームは、データの収集、管理、クリーニング、ラベリング、セキュリティをカバーし、トレーニング用のEasyDLへのアクセスをサポートします。モデルのトレーニングと展開後、クラウドサービスの承認を前提としてデータの還流を完了し、エラーのあるデータを見つけて識別し、結果を修正してモデル反復のトレーニングセットに追加することで、トレーニングデータの継続的な強化とモデル効果の継続的な最適化を実現します。 EasyData は、ソフトウェアとハードウェアを統合し、エンドとクラウドが連携する自動データ収集ソリューションを業界で初めてリリースしたプラットフォームです。オフラインのビデオデータ収集が必要なユーザーは、EasyData のデータ収集 SDK をダウンロードし、時間指定の写真撮影やビデオフレーム抽出などの方法を使用して、クラウドで処理するためのリアルタイム統計を生成できます。

トレーニングと開発の面では、モデルのパフォーマンスを向上させるために、先ほど述べた大規模な事前トレーニング済みモデルに加えて、EasyDL は、最適ネットワークの AutoDL 自動検索、自動ハイパーパラメータ検索、自動データ拡張、分散トレーニング加速などのさまざまなトレーニングメカニズムも使用して、モデルのトレーニング効果とトレーニング速度を向上させます。

モデルの展開に関しては、EasyDL は、パブリッククラウド API、デバイス側 SDK、ローカルサーバーの展開、統合されたハードウェアおよびソフトウェア製品など、エンドクラウドコラボレーションのためのさまざまな柔軟な展開方法を提供します。注目すべきは、EasyDL 統合ハードウェアおよびソフトウェア製品マトリックスが、超高性能、高性能、低コスト、低消費電力の 3 つの異なる形式をカバーする 6 つの統合ハードウェアおよびソフトウェアソリューションを提供し、開発者のさまざまなビジネスニーズを満たし、数十の業界で数百のシナリオに適用されていることです。ハードウェアとソフトウェアの統合ソリューションの詳細については、https://ai.baidu.com/easydl/solution をご覧ください。

Baidu で「EasyDL Professional Edition」を検索するか、リンクを直接クリックして EasyDL Professional Edition に入り、事前トレーニング済みモデルの強力な効果を体験してください。 https://ai.baidu.com/easydl/pro

<<: 表形式データでの機械学習に特徴抽出を使用する方法

>>: PyTorch公式チュートリアルブックが期間限定で無料！最も人気のあるフレームワークを使い始めるのに役立つ500ページのコンテンツ

Baidu Brain EasyDL Professional Editionは、Baiduの超大規模事前学習済みモデルをリリースしました

なぜ人工知能は第四次産業革命と呼ばれるのでしょうか?

健康コードがないと旅行するのは難しいですか?顔認識により健康コードのバリアフリー利用が可能に

サイバーセキュリティにおける人工知能の4つの利点と課題

TensorFlow を使用してロボットに音楽を作曲する方法を教えるにはどうすればよいでしょうか?秘密はこれです

一般的な基本的なソートアルゴリズムを今回から理解しましょう

マスク氏の AI ツール Grok は ChatGPT のシェルですか?

2018年世界AI大学ランキング：カーネギーメロン大学がトップ、清華大学は13位

推薦する

研究により、ディープラーニングAIは乳がんリスクの予測に優れていることが判明

データマイニングの10の主要なアルゴリズムを、初心者でも一目で理解できるように平易な言葉で説明しました。

マシンビジョンは人工知能の次のフロンティアとなる

OpenAI の新しいモデルは大きな飛躍を示しています。AGI のプロトタイプは人類を脅かす可能性があり、アルトマンを解雇する導火線にもなりました。

最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

浙江大学のロボット魚がネイチャー誌に登場：マリアナ海溝の奥深くまで到達、画期的な進歩

AI を使って AI を修正しますか?これらの検出ツールを理解する

大規模モデルにAI管理ルールを組み込む時代が到来

1 つのビルドが 1 億回のコーディングに勝ち、MCP がシリコンバレーで流行中!アントロピック・プロトコルはインテリジェントエージェントの「ユニバーサルハンド」を解き放つ