Facebook、AIが著作権侵害を正確に識別できるようにソースデータ拡張ライブラリを公開: 100以上の拡張方法が提供される

Facebook、AIが著作権侵害を正確に識別できるようにソースデータ拡張ライブラリを公開: 100以上の拡張方法が提供される

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

わずかな変更でも AI モデルの堅牢性に影響を及ぼします。

AIの目から見ると、次の2つの写真は互いに何の関係もないように見えるかもしれません。

現在、 Facebook AI はデータ拡張用の新しい Python ライブラリAugLy をオープンソース化しました。

[[409845]]

オーディオ、画像、ビデオ、テキストの4 つのモダリティをサポートし、入力コンテンツに対してさまざまな処理を実行できる100を超えるデータ拡張機能を提供します。

たとえば、テキストの大文字、フォント、エンコード方法を変更したり、テキストに句読点を追加したり、文字の位置を調整したり、タイプミスをシミュレートしたりします。

[[409846]]

このプロジェクトは1.8k 個のスターを獲得し、GitHub のホット リストに掲載されています。

「スクリーンショット転送」をAIに認識させる

AugLy は、実際のネットワークにおける特定のデータ拡張をカバーし、モデルのトレーニングとテスト用のサンプルを作成することを目的としています。

AugLy は、Facebook や Instagram などのプラットフォームからの実際の画像や動画に基づいて、プロジェクトのすべてのデータを統合ライブラリと API で変換し、100 を超えるデータ拡張方法を提供します。

オーディオ、画像、ビデオ、テキストの 4 つのモダリティに対応する 4 つのサブライブラリが含まれています。

これらのサブライブラリには、関数ベースおよびクラスベースの変換、組み合わせ、適用されるメタデータその強度を選択する機能が含まれます。

画像処理を例にとると、AugLy はトリミング、回転、ノイズの追加、ぼかし、グレースケールなどを行うことができます。

このような:

一部のネットユーザーは、「テキストモジュールは英語のみをサポートしていますか?」という疑問を提起しました。

AugLy の最大の特徴は、一般的な拡張機能を多数搭載していることに加え、 「インターネット ユーザー」型のデータ拡張機能を提供していることです。

たとえば、画像をスクリーンショットスタイルに変換すると、実際の生活で目にするものに近くなります。

AugLy データ拡張を使用して AI モデルをトレーニングします。内容は同じだが形式が異なるこの情報は、モデルの堅牢性を向上させるのに役立ちます。

コピー検出音声検出著作権侵害などのタスクでは、トレーニング後、AIはユーザーがアップロードしたコンテンツをより正確に識別できます。

さらに、AugLy は、モデルの堅牢性を評価するために Deepfake Detection Challenge で使用されています。

ネットユーザーの間で熱い議論

この新しい Python ライブラリはネットユーザーの注目も集め、Reddit で350 件を超える「いいね!」を獲得しました。

一部のネットユーザーは、「テキストモジュールは英語のみをサポートしていますか?」という疑問を提起しました。

熱狂的なネットユーザーはこう言った。

テキスト モジュールは主に nlpaug のラッパーであるように見えるため、AugLy はいくつかのパラメータを変更するだけで他の言語をサポートします。

一部のネットユーザーからは、なぜそれを直接 PyTorch に追加しないのかという質問もありました。

それに応えて、ある人がこう返信しました。

これによりインストールが非常に遅くなるため、必要な人は個別にインストールするだけで済みます。pytorch をこれほど肥大化させる必要はありません。

AugLy には Python 3.6 以降が必要です。これは pip を使用してインストールできます。ただし、仮想環境とシステム環境では、conda と sudo apt-get を使用して python-magic を別途インストールする必要もあります。

残念ながら、AugLyは現在バッチ画像の入力をサポートしていませんが、開発者は将来この機能が改善される予定であると述べています。

<<:  動物や人間には学習の臨界期があり、ディープニューラルネットワークにも臨界期がある。

>>:  これでブリッジで腹筋運動ができるようになりました!中国初の3Dプリント橋が上海で公開

ブログ    
ブログ    
ブログ    

推薦する

中山大学のリン・ジン氏は、視覚的意味理解の新しいトレンドについて説明しました。表現学習から知識と因果の融合まで。

[[435334]] 2021年パターン認識と機械知能フロンティアシンポジウムが10月29日午前に...

...

せっかちなGoogleのハードウェアから、中国と米国がAI商業化の問題をそれぞれどのように解決できるかまで

建国記念日の休日中は家にいて、Google カンファレンスを視聴しました。これらの製品のいくつかを見...

新しい研究:医療AIが新たな統合失調症患者の治療効果をほぼ盲検で評価

1月12日、新たな研究により、統合失調症患者の治療で医師を支援するために使用されるコンピューターアル...

G7、先進的なAIシステムを開発する企業の行動規範に合意へ

10月30日、主要7カ国(G7)が月曜日に高度な人工知能(AI)システムを開発する企業向けの行動規範...

チューリング賞受賞者でAAAI次期会長がAIの今後10年を展望

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

エッジコンピューティング、人工知能、サーマルイメージング - スマートセキュリティの未来

スマート セキュリティ業界は急速に進化しており、AI と 4K がスマート カメラで普及するにつれて...

...

...

IEEE テクノロジー分野賞発表: ML パイオニアがリストに、中国本土から受賞した唯一の学者は清華大学の学生

[[409353]] IEEE が再び栄誉を授与する時が来ました。 7月2日、米国電気電子学会(IE...

会話型AI: パンデミック時代の最先端技術

パンデミックの発生により、世界中の労働システムが危険にさらされています。コンタクト センターの従業員...

...

機械学習における正規化とはどういう意味ですか?

[[279210]]正則化はさまざまな記事や資料でよく見られます。たとえば、一般的な目的関数には次...