従来の著作権保護業界は、時間がかかり、労働集約的で、コストがかかります。膨大な量のコンテンツを完全に保護することは困難であり、コンテンツ配信ではその配信のセキュリティを制御することが困難です。ブロックチェーン技術は、改ざん防止、追跡可能、分散合意などの特徴があり、デジタル著作権保護と自然に調和します。ブロックチェーン技術とAIマルチメディア侵害検出技術を組み合わせることで、著作権保護のコストが大幅に削減され、著作権保護の効率が向上しました。また、オンライン著作権の保管、取引、保護に新しい方法を提供します。そこで、アントグループ-デジタルテクノロジーラインは、ワンストップデジタルコンテンツ原本保護プラットフォーム「Quezao」を立ち上げました。画像、動画などのコンテンツをワンクリックでチェーンにアップロードでき、著作権証拠の保管が迅速に完了します。司法機関と公証機関の共同証言のもと、「海賊版権利保護」の確固たる証拠となります。 関連製品の紹介は公式サイトでご覧いただけます:https://www.mydcs.com/pages/index 著作権保護において、動画の侵害を検出する能力は極めて重要な部分です。現在、横行する海賊版動画は、動画サイトに多大な損失をもたらすだけでなく、コンテンツ制作者にも計り知れない経済的、精神的損失をもたらしています。 2021年4月、中国共産党中央宣伝部著作権局は、動画著作権侵害の取り締まりを強化することを提案した。近年、二次創作や動画編集など著作権侵害の手法が次々と登場しており、海賊版動画による著作権侵害の例も、単なる盗撮や透かしの追加など、容易に著作権侵害と判別できるものに限られません。そのため、著作権保護のためのビデオ侵害検出方法が特に重要になります。この一連の問題に対処するために、AIベースのマルチメディア比較アルゴリズム技術は、手動レビューのコストを大幅に節約し、侵害証拠収集の効率を向上させ、大規模な検索条件下で正確な識別を実現できます。これは、ビデオ侵害問題に対する効果的なソリューションです。 図1. Antが構築した大規模ビデオ侵害データセット(VCSL)における典型的な侵害例 しかし、著作権侵害検出、特にビデオ侵害の分野では、学術界と産業界の両方でいくつかのボトルネックがあり、それは主に次の 3 つの点に反映されています。
上記の 3 つの主要な問題に対応するため、この研究では、ビデオのコピー検出と侵害箇所の特定に関連する以下の研究を実施しました。
上記の結果は、トップクラスのコンピュータビジョンカンファレンス CVPR とトップクラスのマルチメディアカンファレンス ACM MM にそれぞれ受け入れられ、公開されました。
大規模ビデオクリップコピー検出データセット VCSL前のセクションで述べた既存のデータセットの問題に対応して、この研究では、次の要件を満たす包括的なデータセットを提案したいと考えています。
上記の 3 つの要件に基づいて、本研究では VCSL (ビデオ コピー セグメント ローカリゼーション) データセットのラベル付けを完了しました。研究者らは、YouTube と Bilibili から 122 本のシード ビデオを選択し、各シード ビデオにはキーワードも関連付けました。ラベル付けのプロセスでは、研究者らは実際の状況をシミュレートし、ラベル付け担当者に著作権を侵害している可能性のある動画を検索し、比較してラベル付けし、無関係な動画を除外して、実際に著作権を侵害している時間セグメントをマークするよう依頼しました。 表1. VCSLと学術界における他の既存データセットの比較 VCSLデータセットと他の学術データセットとの比較を表1に示します。VCSLの侵害ビデオペアの数と侵害クリップの数は、既存の学術データセットよりも2桁多いことがわかります。また、動画の長さ、侵害クリップの長さ、動画の種類の分布もより広範囲にわたります。 ビデオクリップのコピー検出のための新しい評価指標学術界では、断片レベルのコピー検出の評価指標としてMuscle-VCD[5]やVCDB[4]が提案されている。近年の学術研究では、主にVCDB[4]で定義された断片の精度と再現率が使用されている。 精度と再現率の分子は両方とも正しく検出されたセグメントであり、正しく検出されたセグメントとは、実際の侵害セグメントと 1 フレーム重複しているセグメントとして定義されます。精度の分母は検出されたすべてのフラグメントの数であり、再現率の分母は実際に真のコピーとしてラベル付けされたフラグメントの数です。さらに、VCDB の論文では、フレームの精度と再現率も定義されています。 フラグメント粒度に似ていますが、統計次元がフレーム粒度である点が異なります。 前述のセグメント精度/再現率とフレーム精度/再現率には限界があります。最も重要な点は、この評価指標はクリップとビデオのコピー検出にのみ適しており、入力として 2 つの完全なビデオではなく、ラベル付けされた侵害クリップと侵害の可能性があるビデオを必要とすることです。この評価方法は、実際のシナリオでは非現実的です。同時に、セグメント精度/再現率については、実際にマークされたセグメントと 1 フレーム重複していれば検出されたセグメントが正しいとみなす計算方法では、違反箇所を特定する評価指標の精度に対する認識が悪くなります。さらに、これらのメトリックでは、ビデオ コピーのいくつかの重要な特性、つまり以下で説明するセグメンテーションの同等性が考慮されていません。 これまでの評価基準では、ラベル付けされたクリップをビデオと比較する必要がありましたが、これは実際のアプリケーションには適していませんでした。この研究で提案された評価指標では、2 つの完全なビデオを入力として使用し、2 つのビデオ内のコピーの可能性があるセグメントを検出しました。さらに、本研究では、ビデオコピーを観察したラベル付きデータにおいて、ビデオコピーの特性、すなわちセグメンテーション等価特性を発見しました。この特徴は、コピーされた断片の境界を判別することが難しい場合があるという事実によるものです。下の図に示すように、ビデオ部分の中間フレームが変更され、他のビデオフレームが一時的に挿入されます(下の図2(a)を参照)。図2(b)の混合カットの状況も同様です。これらの場合、コピーされたビデオ断片を全体のセグメントと複数の連続セグメントとしてマークすることが合理的であると研究では考えています。したがって、新しい評価指標を設計する際には、評価指標がこのセグメンテーションに対して堅牢になるように、この研究ではこのフラグメントセグメンテーション同等特性を考慮する必要がある。 図2. 動画侵害事例、(a)、(b) 図の左側は時間順に並べられた動画フレームを示し、右側は動画フレームシーケンス類似性図を示しています。横軸と縦軸はそれぞれ2つの動画の時間軸を表しています。黒い枠は実際にマークされた侵害イベントセグメントを表しています。詳細な説明図は、後で図6の右側にも表示されます。 この評価指標の表現は、下の図に示すように、ビデオフレームの類似性グラフで表すことができます。コピーセグメントペアは類似度グラフ上の検出ボックスとして表され、コピーセグメントは類似度グラフ上の直線として表され、フレームの連続的な対応を示します。オレンジ色のボックスは実際のラベル付き GT コピー フラグメントを表し、青色のボックスはアルゴリズムによって出力された予測コピー フラグメントを表します。 図3. (ab)は本研究で提案したアルゴリズムの計算プロセスを示し、(cf)は本研究で提案した4つの評価指標と従来の指標との簡略化された比較を示しています。点線は、時間領域における侵害フレームの位置を示します。より複雑なパターンとして現れる、より複雑な侵害状況が存在する場合もあります。 具体的には、まず、図(a)に示すように、各GTボックスとすべての予測ボックスとの交差領域を見つけ、次に、この重なり合う領域のx軸とy軸上の和集合の長さを計算します。同時に、各GTボックスの長さと幅が計算されます。最終的に、分子は重なり合う領域の和の長さの合計、分母はGTボックスの長さの合計です。上図(a)に示すように、再現率が得られます。同様に、この研究では、まず、上の図 (b) に示すように、各予測ボックスとすべての GT ボックスとの交差領域を見つけ、次に、この重なり合う領域の x 軸と y 軸上の和集合の長さを計算します。同時に、各予測ボックスの長さと幅が計算されます。最終的に、分子は重なり合う領域の和の長さの合計、分母は予測ボックスの長さの合計です。上図(b)に示すように、精度が得られます。 この研究では、評価指標をセグメントの分割に対してより堅牢にするために、学術界で一般的に使用される領域ではなく、xy軸の投影を使用して計算したことは注目に値します。最後に、再現率と精度を組み合わせて F スコアを取得し、評価パラメータとして使用します。 ビデオクリップコピー検出アルゴリズムのベンチマークまず、ビデオコピー検出アルゴリズムの処理フローは、下の図に示すように、ビデオ前処理、ビデオ特徴抽出、ビデオ侵害箇所の 3 つの部分に分かれています。 図 4. ビデオコピー検出アルゴリズムの処理フロー。 この研究では、VCSLデータセットと新しい評価指標に基づいて、まず、ハフ投票、時間ネットワーク、動的計画法、動的時間ワーピングなど、現在一般的な侵害位置特定アルゴリズムを再現し、一般的なオープンソースのフレーム特徴アルゴリズムと組み合わせて、下図に示すベンチマークを取得しました。 その中で、SPDは昨年のACM MM21で研究チームが提案した侵害箇所特定アルゴリズムであり、ビデオ侵害箇所特定に最も効果のあるアルゴリズムでもあります。 SPD の下線 1 は、以前のオープン ソース データセット VCDB でのトレーニングの効果を表し、下線 2 は、VCSL データセットでのトレーニングの効果を表します。後者の方が前者よりも優れていることがわかり、これは大規模なデータセットの重要性も示しています。 ここでは、ACM MM21 で公開された論文「大規模なコンテンツ ベースのビデオ検索におけるセグメント類似性とアライメントの学習」についても簡単に紹介します。この論文では、主に自己教師ありキーフレーム抽出 (SKE) と類似性パターン検出 (SPD) の 2 つの部分で構成されるビデオ セグメント類似性とポジショニング ネットワーク (SSAN) を提案しました。キーフレーム検出 (SKE) は主に、堅牢で代表的なキーフレームを抽出し、類似の冗長フレームを削除するために使用されます。類似画像侵害位置検出 (SPD) は主に、類似のビデオクリップを見つけるために使用されます。 SSAN 全体をエンドツーエンドでトレーニングすることで、現時点で最高のフラグメントレベルの侵害検出効果を実現できます。 論文アドレス: https://dl.acm.org/doi/abs/10.1145/3474085.3475301 図5. キーフレーム抽出モジュール、フレームベースのビデオ検索、時間領域侵害位置特定モジュールを含むSSANアルゴリズムの構造 類似グラフ侵害箇所検出(SPD)モジュールでは、図に示すように、侵害箇所の問題をターゲット検出の問題に巧みに変換しました。この方法では、侵害箇所の結果を得るために必要な計算量はごくわずかで、複数の侵害を検出することができます。 図6. 左: 時間領域侵害箇所特定のためのSPDアルゴリズムの概略図。右: 類似度グラフ生成とオリジナルビデオ比較の概略図 |
>>: 食べられる「論理ゲート」:科学者たちはデザートを「ミニコンピューター」に変えた
人工知能 (AI) や機械学習は人間よりも優れた能力を発揮するとよく言われますが、実際は AI や機...
ホーキング博士は人類に対し、人工知能に対して慎重になるよう警告し続けている。人工知能が発達すると、制...
注目の人工知能がインターネットの「伝統的なプロジェクト」情報サービスと出会うと、業界にどのような A...
[[392070]]特徴選択は、データセット内で最も有用な特徴を見つけて選択するプロセスであり、機械...
スターヒューマノイドロボット企業フィギュアがハイライトの瞬間を迎えました!先ほど、OpenAIとFi...
真夜中に雷鳴が轟いた。Google は本当に LLM をオープンソース化したのか? !今回、オープン...
太平洋標準時3月18日午後10時、米国アリゾナ州で、ウーバーが路上試験中に自転車に乗った女性と衝突し...
機械学習における偏ったデータセットの扱い方偏ったデータセットで効果的な機械学習アルゴリズムを開発する...
新しいプロジェクトは従業員に恐怖心を引き起こす可能性があり、変更が導入される全体的な文化は、その恐怖...
[[267030]] [51CTO.com クイック翻訳] ビジネスの世界は大きな変化を遂げてきま...
Microsoft は、特定の限定されたテストにおいて人間の精度を上回る新しい画像キャプション作成...
[[426052]]人工知能の危険性は、作家や脚本家の間で長い間人気のテーマとなってきたが、これらの...
4月19日、ガーディアン紙は、ロボットの将来について語ったインタビューで、再帰型ニューラルネットワー...