Ant Group は、動画の著作権侵害検出用に 16 万本の動画ペアと 28 万本のクリップペアからなる大規模なデータセットを公開しました。

従来の著作権保護業界は、時間がかかり、労働集約的で、コストがかかります。膨大な量のコンテンツを完全に保護することは困難であり、コンテンツ配信ではその配信のセキュリティを制御することが困難です。ブロックチェーン技術は、改ざん防止、追跡可能、分散合意などの特徴があり、デジタル著作権保護と自然に調和します。ブロックチェーン技術とAIマルチメディア侵害検出技術を組み合わせることで、著作権保護のコストが大幅に削減され、著作権保護の効率が向上しました。また、オンライン著作権の保管、取引、保護に新しい方法を提供します。そこで、アントグループ-デジタルテクノロジーラインは、ワンストップデジタルコンテンツ原本保護プラットフォーム「Quezao」を立ち上げました。画像、動画などのコンテンツをワンクリックでチェーンにアップロードでき、著作権証拠の保管が迅速に完了します。司法機関と公証機関の共同証言のもと、「海賊版権利保護」の確固たる証拠となります。

関連製品の紹介は公式サイトでご覧いただけます：https://www.mydcs.com/pages/index

著作権保護において、動画の侵害を検出する能力は極めて重要な部分です。現在、横行する海賊版動画は、動画サイトに多大な損失をもたらすだけでなく、コンテンツ制作者にも計り知れない経済的、精神的損失をもたらしています。 2021年4月、中国共産党中央宣伝部著作権局は、動画著作権侵害の取り締まりを強化することを提案した。近年、二次創作や動画編集など著作権侵害の手法が次々と登場しており、海賊版動画による著作権侵害の例も、単なる盗撮や透かしの追加など、容易に著作権侵害と判別できるものに限られません。そのため、著作権保護のためのビデオ侵害検出方法が特に重要になります。この一連の問題に対処するために、AIベースのマルチメディア比較アルゴリズム技術は、手動レビューのコストを大幅に節約し、侵害証拠収集の効率を向上させ、大規模な検索条件下で正確な識別を実現できます。これは、ビデオ侵害問題に対する効果的なソリューションです。

図1. Antが構築した大規模ビデオ侵害データセット（VCSL）における典型的な侵害例

しかし、著作権侵害検出、特にビデオ侵害の分野では、学術界と産業界の両方でいくつかのボトルネックがあり、それは主に次の 3 つの点に反映されています。

データセット。現在、学術界のオープンソースデータセットのほとんどには、ビデオレベルの注釈しかありません（Trecvid[1]、SVD[2]、FIVR[3]）。つまり、ビデオペアには著作権侵害の有無のみがマークされており、2つのビデオ間の実際の著作権侵害の時間セグメント（つまり、著作権侵害の開始と終了の時間位置）はマークされていません。現在、セグメントレベルの注釈を備えた唯一のオープンソースデータセットは、2014年にECCVでリリースされたVCDBデータセット[4]です。ただし、このデータセットは比較的小さく、実際に著作権を侵害しているビデオは6,000組のみであり、次の章で紹介します。
アルゴリズム評価指標、学術界では、ビデオレベルのコピー検出評価指標は比較的成熟していますが、フラグメント粒度でのコピー検出精度の評価指標には、まだ多くの問題があります。前回の VCDB 論文で提案された評価指標は、実際の実験テストにおいて指標の一連の逸脱と適用上の問題を示しました。
侵害位置アルゴリズム、侵害位置アルゴリズム、ここでの侵害位置（時間的アライメント）アルゴリズムは、2 つのビデオの時間的特徴を抽出した後、2 つのビデオの侵害の時間セグメントを出力する必要があることを指します。著作権侵害箇所特定アルゴリズムのほとんどはオープンソースではないため、学術界は完全なベンチマークを形成することができず、ビデオコピー検出と著作権侵害箇所特定分野は比較的停滞しています。

上記の 3 つの主要な問題に対応するため、この研究では、ビデオのコピー検出と侵害箇所の特定に関連する以下の研究を実施しました。

160,000 組以上の侵害ビデオ、280,000 組の侵害クリップを含み、多数のビデオフィールドとビデオの長さをカバーする、最大のビデオ侵害場所データセット (他の既存のデータセットよりも 2 桁大きい) が提案されました。
ビデオクリップのコピー検出のための新しい評価指標が提案されています。この評価指標は、ビデオコピー検出タスクの特殊性を十分に考慮し、実際のシナリオでより優れた適応性を示します。
我々はキーフレームと侵害箇所のエンドツーエンドモデルSSANを提案し、現時点で最高のパフォーマンスを達成しました。また、学術界で一般的な侵害箇所特定アルゴリズムを再現してオープンソース化し、ビデオ侵害箇所特定のための完全かつ包括的なベンチマークを形成しました。

上記の結果は、トップクラスのコンピュータビジョンカンファレンス CVPR とトップクラスのマルチメディアカンファレンス ACM MM にそれぞれ受け入れられ、公開されました。

CVPR 2022 VCSL論文: https://arxiv.org/abs/2203.02654
VCSL データセット、評価、アルゴリズムコード: https://github.com/alipay/VCSL

大規模ビデオクリップコピー検出データセット VCSL前のセクションで述べた既存のデータセットの問題に対応して、この研究では、次の要件を満たす包括的なデータセットを提案したいと考えています。

ビデオのコピーの種類は可能な限り包括的である必要がありますが、侵害ビデオを基本的に視聴できないようにするための過度の変更は避ける必要があります。
ビデオの種類は、映画、テレビシリーズ、アニメーション、スポーツ、その他のさまざまなシーンなど、一般的なビデオカテゴリをカバーする必要があります。
動画の長さはできるだけ多様であるべきであり、短い動画だけ、または長い動画だけに限定しないでください。

上記の 3 つの要件に基づいて、本研究では VCSL (ビデオコピーセグメントローカリゼーション) データセットのラベル付けを完了しました。研究者らは、YouTube と Bilibili から 122 本のシードビデオを選択し、各シードビデオにはキーワードも関連付けました。ラベル付けのプロセスでは、研究者らは実際の状況をシミュレートし、ラベル付け担当者に著作権を侵害している可能性のある動画を検索し、比較してラベル付けし、無関係な動画を除外して、実際に著作権を侵害している時間セグメントをマークするよう依頼しました。

表1. VCSLと学術界における他の既存データセットの比較

VCSLデータセットと他の学術データセットとの比較を表1に示します。VCSLの侵害ビデオペアの数と侵害クリップの数は、既存の学術データセットよりも2桁多いことがわかります。また、動画の長さ、侵害クリップの長さ、動画の種類の分布もより広範囲にわたります。

ビデオクリップのコピー検出のための新しい評価指標

学術界では、断片レベルのコピー検出の評価指標としてMuscle-VCD[5]やVCDB[4]が提案されている。近年の学術研究では、主にVCDB[4]で定義された断片の精度と再現率が使用されている。

精度と再現率の分子は両方とも正しく検出されたセグメントであり、正しく検出されたセグメントとは、実際の侵害セグメントと 1 フレーム重複しているセグメントとして定義されます。精度の分母は検出されたすべてのフラグメントの数であり、再現率の分母は実際に真のコピーとしてラベル付けされたフラグメントの数です。さらに、VCDB の論文では、フレームの精度と再現率も定義されています。

フラグメント粒度に似ていますが、統計次元がフレーム粒度である点が異なります。

前述のセグメント精度/再現率とフレーム精度/再現率には限界があります。最も重要な点は、この評価指標はクリップとビデオのコピー検出にのみ適しており、入力として 2 つの完全なビデオではなく、ラベル付けされた侵害クリップと侵害の可能性があるビデオを必要とすることです。この評価方法は、実際のシナリオでは非現実的です。同時に、セグメント精度/再現率については、実際にマークされたセグメントと 1 フレーム重複していれば検出されたセグメントが正しいとみなす計算方法では、違反箇所を特定する評価指標の精度に対する認識が悪くなります。さらに、これらのメトリックでは、ビデオコピーのいくつかの重要な特性、つまり以下で説明するセグメンテーションの同等性が考慮されていません。

これまでの評価基準では、ラベル付けされたクリップをビデオと比較する必要がありましたが、これは実際のアプリケーションには適していませんでした。この研究で提案された評価指標では、2 つの完全なビデオを入力として使用し、2 つのビデオ内のコピーの可能性があるセグメントを検出しました。さらに、本研究では、ビデオコピーを観察したラベル付きデータにおいて、ビデオコピーの特性、すなわちセグメンテーション等価特性を発見しました。この特徴は、コピーされた断片の境界を判別することが難しい場合があるという事実によるものです。下の図に示すように、ビデオ部分の中間フレームが変更され、他のビデオフレームが一時的に挿入されます（下の図2（a）を参照）。図2（b）の混合カットの状況も同様です。これらの場合、コピーされたビデオ断片を全体のセグメントと複数の連続セグメントとしてマークすることが合理的であると研究では考えています。したがって、新しい評価指標を設計する際には、評価指標がこのセグメンテーションに対して堅牢になるように、この研究ではこのフラグメントセグメンテーション同等特性を考慮する必要がある。

図2. 動画侵害事例、(a)、(b) 図の左側は時間順に並べられた動画フレームを示し、右側は動画フレームシーケンス類似性図を示しています。横軸と縦軸はそれぞれ2つの動画の時間軸を表しています。黒い枠は実際にマークされた侵害イベントセグメントを表しています。詳細な説明図は、後で図6の右側にも表示されます。

この評価指標の表現は、下の図に示すように、ビデオフレームの類似性グラフで表すことができます。コピーセグメントペアは類似度グラフ上の検出ボックスとして表され、コピーセグメントは類似度グラフ上の直線として表され、フレームの連続的な対応を示します。オレンジ色のボックスは実際のラベル付き GT コピーフラグメントを表し、青色のボックスはアルゴリズムによって出力された予測コピーフラグメントを表します。

図3. (ab)は本研究で提案したアルゴリズムの計算プロセスを示し、(cf)は本研究で提案した4つの評価指標と従来の指標との簡略化された比較を示しています。点線は、時間領域における侵害フレームの位置を示します。より複雑なパターンとして現れる、より複雑な侵害状況が存在する場合もあります。

具体的には、まず、図(a)に示すように、各GTボックスとすべての予測ボックスとの交差領域を見つけ、次に、この重なり合う領域のx軸とy軸上の和集合の長さを計算します。同時に、各GTボックスの長さと幅が計算されます。最終的に、分子は重なり合う領域の和の長さの合計、分母はGTボックスの長さの合計です。上図(a)に示すように、再現率が得られます。同様に、この研究では、まず、上の図 (b) に示すように、各予測ボックスとすべての GT ボックスとの交差領域を見つけ、次に、この重なり合う領域の x 軸と y 軸上の和集合の長さを計算します。同時に、各予測ボックスの長さと幅が計算されます。最終的に、分子は重なり合う領域の和の長さの合計、分母は予測ボックスの長さの合計です。上図(b)に示すように、精度が得られます。

この研究では、評価指標をセグメントの分割に対してより堅牢にするために、学術界で一般的に使用される領域ではなく、xy軸の投影を使用して計算したことは注目に値します。最後に、再現率と精度を組み合わせて F スコアを取得し、評価パラメータとして使用します。

ビデオクリップコピー検出アルゴリズムのベンチマーク

まず、ビデオコピー検出アルゴリズムの処理フローは、下の図に示すように、ビデオ前処理、ビデオ特徴抽出、ビデオ侵害箇所の 3 つの部分に分かれています。

図 4. ビデオコピー検出アルゴリズムの処理フロー。

この研究では、VCSLデータセットと新しい評価指標に基づいて、まず、ハフ投票、時間ネットワーク、動的計画法、動的時間ワーピングなど、現在一般的な侵害位置特定アルゴリズムを再現し、一般的なオープンソースのフレーム特徴アルゴリズムと組み合わせて、下図に示すベンチマークを取得しました。

その中で、SPDは昨年のACM MM21で研究チームが提案した侵害箇所特定アルゴリズムであり、ビデオ侵害箇所特定に最も効果のあるアルゴリズムでもあります。 SPD の下線 1 は、以前のオープンソースデータセット VCDB でのトレーニングの効果を表し、下線 2 は、VCSL データセットでのトレーニングの効果を表します。後者の方が前者よりも優れていることがわかり、これは大規模なデータセットの重要性も示しています。

ここでは、ACM MM21 で公開された論文「大規模なコンテンツベースのビデオ検索におけるセグメント類似性とアライメントの学習」についても簡単に紹介します。この論文では、主に自己教師ありキーフレーム抽出 (SKE) と類似性パターン検出 (SPD) の 2 つの部分で構成されるビデオセグメント類似性とポジショニングネットワーク (SSAN) を提案しました。キーフレーム検出 (SKE) は主に、堅牢で代表的なキーフレームを抽出し、類似の冗長フレームを削除するために使用されます。類似画像侵害位置検出 (SPD) は主に、類似のビデオクリップを見つけるために使用されます。 SSAN 全体をエンドツーエンドでトレーニングすることで、現時点で最高のフラグメントレベルの侵害検出効果を実現できます。

論文アドレス: https://dl.acm.org/doi/abs/10.1145/3474085.3475301

図5. キーフレーム抽出モジュール、フレームベースのビデオ検索、時間領域侵害位置特定モジュールを含むSSANアルゴリズムの構造

類似グラフ侵害箇所検出（SPD）モジュールでは、図に示すように、侵害箇所の問題をターゲット検出の問題に巧みに変換しました。この方法では、侵害箇所の結果を得るために必要な計算量はごくわずかで、複数の侵害を検出することができます。

図6. 左: 時間領域侵害箇所特定のためのSPDアルゴリズムの概略図。右: 類似度グラフ生成とオリジナルビデオ比較の概略図

<<: 人工知能のいくつかの重要な技術をご存知ですか?

>>: 食べられる「論理ゲート」：科学者たちはデザートを「ミニコンピューター」に変えた