多くのニューラル ネットワーク モデルと同様に、オブジェクト検出モデルは大量のデータでトレーニングすると最も効果的に機能します。通常、利用可能なデータは限られており、世界中の多くの研究者が利用可能なデータの量を増やすための拡張戦略を調査しています。 Google の Brain チームはそのような研究を実施し、「物体検出のためのデータ拡張戦略の学習」と題した論文を発表しました。この論文では、著者らは、物体検出問題に対して優れたパフォーマンスを発揮する戦略と呼ばれる一連の拡張を特定しています。この戦略は強化された検索を通じて得られ、一般的なモデルのパフォーマンスが向上します。 著者らは、強化戦略をサブ戦略のセットとして定義しています。モデルのトレーニング中に、サブ戦略の 1 つがランダムに選択され、画像が拡張されます。各サブ戦略には、画像に順番に適用される拡張機能があります。各変換には、確率と大きさという 2 つのハイパーパラメータもあります。確率は強化が適用される可能性を示し、大きさは強化の度合いを示します。次のコードは、この記事で使用されている戦略を示しています。
この戦略には 5 つのサブ戦略があり、最初のサブ戦略には TranslateX_BBox と Equalize の拡張機能が含まれます。 TranslateX_BBox 操作は、画像を x 軸上で 4 だけ移動します。この場合、サイズは直接ピクセルに変換されるのではなく、サイズに応じてピクセル値が拡大縮小されます。この強化の確率も 0.6 です。つまり、この強化を選択した場合、適用される確率は 60% です。各強化には関連する確率があるため、ランダム性の概念が導入され、トレーニングにランダム性の程度が追加されます。一般的に、Brain Team は v0、v1、v2、v3 の 4 つの戦略を提案しています。この記事では v0 ポリシーを示しますが、他の 3 つのポリシーには、いくつかの異なる変換を含むサブポリシーがさらに含まれています。一般的に、増加は3つのカテゴリーに分類され、著者らは次のように定義しています。 色の操作: 境界ボックスの位置に影響を与えずにカラー チャネルを歪めます。 幾何学的操作: 画像を幾何学的に歪め、それに応じて境界ボックスの位置とサイズを変更します。 境界ボックス操作: 境界ボックスに含まれるピクセルの内容のみが歪められます。 経営学修士では、この点に関して BBAug はどのような貢献をしたのでしょうか? BBAug は、Google Brain Team のすべての戦略を実装する Python パッケージです。このパッケージは、これらの戦略をより簡単に使用できるようにするラッパーです。実際の拡張は、優れた imgaug パッケージによって行われます。 上記の戦略は、以下に示すようにサンプル画像に適用されます。各行は異なるサブ戦略であり、各列はそのサブ戦略の異なる実行です。 ご覧のとおり、サブポリシーの実行間にはある程度の変動があり、トレーニングにランダム性が加わります。これは、BBAug が実装した 4 つの戦略のうちの 1 つにすぎません。 4 つの戦略すべての完全な視覚化を確認するには、パッケージの GitHub ページ (https://github.com/harpalsahota/bbaug) をご覧ください。このパッケージには、戦略をカスタマイズする機能や、画像の外側にある境界ボックスが部分的に画像の外側にある場合は自動的に削除または切り取られる機能など、便利な機能もいくつか用意されています。たとえば、下の画像では、変換拡張が適用され、境界ボックスが部分的に画像の外側に押し出されています。これに合わせて新しい境界ボックスが縮小されていることがわかります。 境界ボックス領域のみに影響する拡張機能を作成することも可能です。次の画像では、solarisaugmentation は境界ボックス領域にのみ適用されています。 ランダムな戦略を使用して単一の画像を拡張するのはどれくらい簡単ですか?それは次のように簡単です:
要約するこのパッケージは、Google Brain チームによって導き出された強化戦略を実装します。現在、4 つの戦略すべてが実装されており、パッケージには、ユーザーがこれらの戦略を PyTorch トレーニング パイプラインに統合するのに役立つノートブックも付属しています。 |
<<: 瀋陽・撫順モデル区長江デルタ知能製造業投資促進会議と2021年第3回ファーウェイクラウド「人工知能競技・無人車両チャレンジカップ」が本格的に開幕
>>: 顔認識のために服を着る必要があるかどうかは激しい議論を巻き起こしたが、専門家は心配しすぎる必要はないと述べている。
人々が悲観的であろうと楽観的であろうと、人工知能に関する議論は止むことなく、さまざまな論争の中で、人...
私が初めて機械学習に興味を持ったとき、論文を読んだり、それを実装したりすることに多くの時間を費やしま...
グラフは、複雑なシステムを記述およびモデル化するために使用できる一般的な言語です。グラフは、構文情報...
4月29日、外国メディアの報道によると、英国運輸省は水曜日、自動車線維持システム(ALK)を搭載した...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[183485]] LISP 言語の歴史と、いくつかの余談や興味深い逸話は、実際に本として読む価値...
人工知能は長年にわたって世界を支配しており、さまざまな分野における主要な問題が AI を使用して解決...
背景大規模言語モデル (LLM) は強力な機能を発揮していますが、不快な応答、虚偽の情報、漏洩した個...
[[415649]]最近、米国防総省は、大量の情報源を分析し、数日後の敵の行動を1分以内に予測し、事...
2020 年には人工知能 (AI) が飛躍的に進歩し、機械学習はこのテクノロジーの最も成功し、広く普...
[[400401]]現在、脳コンピューターインターフェースの急速な発展により、人々はパニックに陥って...
【51CTO.comオリジナル記事】 今日では、AI や IoT テクノロジーに投資する企業がますま...
[51CTO.com クイック翻訳]人工知能は 20 世紀半ばから存在しています。それにもかかわらず...