Volcano Engineがビヨンドのクラシックコンサートを超高解像度で復元、その技術的能力が一般公開される

Volcano Engineがビヨンドのクラシックコンサートを超高解像度で復元、その技術的能力が一般公開される

7月3日夜、TikTokはユニバーサルミュージック傘下のレーベル、ポリグラムと提携し、ボルケーノエンジンによって超高解像度に復元された「ビヨンドライブ1991ライフコンタクトコンサート」と「メモリアルコンサート」の厳選コンテンツを放送し、1億4千万人以上の視聴者を魅了した。

Beyond は 1983 年に結成されたロック バンドです。広東音楽の台頭により、バンドの名前は時代を象徴する文化的シンボルとなりました。 「Beyond Live 1991 Life Contact」は、ホンハム・コロシアムで開催されたビヨンドの最初のコンサートでした。その後ポリグラムからリリースされた DVD は、1990 年代にはほとんど入手困難でした。それから31年、このコンサートは数世代にわたるファンにとって音楽の啓蒙と青春の思い出となりました。

当時の撮影機材、記憶媒体、録​​音機器の技術の限界により、コンサートのマスターテープやインターネット上で流通しているさまざまなバージョンの音声やビデオの品質は低かった。ビヨンドの名作を、より快適に視聴して再現できるよう、画質・音質ともにボルケーノエンジンを改修しました。

Volcano Engine Multimedia Laboratory によると、初期のソフトウェアとハ​​ードウェア機器の遅れにより、映画の制作、圧縮、伝送中に画像のぼやけ、テクスチャの損失、ノイズ欠陥などの問題が発生しました。この修復の難しさは、できるだけ多くの詳細を復元しながら画質を向上させ、色を最適化してレトロな雰囲気を維持し、さまざまなサイズや姿勢の肖像画の修復効果を調整することです。

「私たちの目標は、全体的な画像の鮮明さ、顔の特徴の復元、色の明るさ、滑らかさ、美しさの面で画質を向上させることです。」画質の面では、この復元では、鮮明度の向上や欠陥の修復、部分的な色の明るさの向上などのアルゴリズムを使用して、初期のソフトウェアおよびハードウェア機器の遅れによって引き起こされた問題に対処します。ビデオ解像度は 540p 未満から 4K 近くまで向上し、フレーム レートは 25fps から 60fps に向上します。

ポートレート強調アルゴリズムの復元により、アイライナーや毛穴など、黄佳菊の顔の細部がはっきりと見えるようになりました。

さらに、Volcano Engine マルチメディア研究所は、顔の圧縮によるダメージ、ぼやけ、低解像度などの問題を修復および強化するための独自の適応型ポートレート強化アルゴリズムも開発しました。この技術はディープラーニングをベースとしており、顔全体のぼやけや圧縮によるダメージを排除しながら、顔の主要な特徴の細部をさらに再構築します。修復後、登場人物の顔のひげや毛穴がはっきりと見えるようになり、観客に優れた視覚体験を提供します。

音質の回復に関しては、Volcano Engine オーディオ技術チームは、オーディオ ノイズ低減、オーディオ スーパー解像度、ラウドネス アルゴリズムを使用してノイズを除去し、音質を向上させ、ラウドネス、ノイズ干渉、帯域幅不足などの問題を解決します。

このノイズ低減アルゴリズムは、従来のノイズ低減ソリューションとは異なり、音楽シーンやボーカルシーン向けの AI ノイズ低減アルゴリズムと互換性があり、音楽とボーカルを維持しながら周囲のノイズを抑制します。オーディオ超解像アルゴリズムは、コンサートのボーカル部分の周波数帯域を拡大し、高周波情報を豊かにし、ボーカルをより明瞭にします。スペクトル図から、超解像モジュールの処理によって元のオーディオの高周波部分が拡張され、強化されていることがわかります。

オーディオ超解像アルゴリズムの処理により、元のオーディオの12kHzを超える高周波情報がある程度補完され、修復されました。

コンサートでは、収音条件が異なるため、コンサートでの歌声は楽器の音や周囲の音に比べて小さすぎることがあります。Volcano Engineオーディオ技術チームは、ラウドネスアルゴリズムを使用して、まず歌唱部分を個別に抽出し、次に歌唱部分のラウドネスを調整し、最後にミックスして全体のボーカルをより快適にします。

これらのコンサート復元機能は、Volcano Engine のインテリジェント処理およびオーディオ技術製品を通じて外部に提供されていると理解されています。さらに、Volcano Engine は、アップロード、トランスコード、送信、消費などのリンクを網羅した画質チェーン全体のエンドツーエンドのソリューションも公開し、画質、ビットレート、エクスペリエンスの面でビデオ コンテンツの総合的な最適化を実現します。

デジタル技術は文化継承の原動力になりつつあります。関連報道によると、2021年10月、西瓜動画と火山エンジンは「古典動画4K復元計画」を立ち上げ、技術的な手段により、計71本の古典アニメが復元され、復元されたコンテンツは西瓜動画と仙世光テレビで無料で視聴できる。

Volcano Engineの担当者によれば、今後はより高度な技術を使って古典的なイメージを復元し、古典に新たな命を吹き込む予定だという。



<<:  RPAとは何ですか?ビジネスプロセス自動化の革命

>>:  チャットボット構造のガイドライン

ブログ    
ブログ    

推薦する

データサイエンスのための Python: ニューラル ネットワーク

人工ニューラル ネットワーク (ANN) は、数学的および物理的な方法を使用して人間の脳のニューラル...

自動運転車の意思決定制御システム技術を分析した記事

自動運転システムは、環境認識、意思決定制御、行動実行を統合した総合的なシステムであり、車両と交通環境...

ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニング データを漏洩する制御不能状態、OpenAI が修正、まだ機能している

ChatGPTの最新の脆弱性が明らかになり、たった1つの文でトレーニングデータがそのまま漏洩してしま...

AI インデックス: AI 関連の求人、データ、トレンド

AI Index は、人工知能の現状に関する詳細な年次レポートです。自律システム、研究開発、AI の...

2021年、AIは小売業者が失われた顧客ロイヤルティを「救う」のに役立つだろう

2020 年は混乱と混乱が共存しましたが、騒動は落ち着き、小売業者は新年に再編成し、新たな常態に向か...

...

独学で機械学習エンジニアを目指す人のための 10 の戒律

コードを書くのは少し憂鬱になるので、色に囲まれる必要があります自己規律や自己学習という言葉を軽く受け...

Huawei Cloud TechWave人工知能スペシャルデーでは、インテリジェントプロセスロボットが効率的に動作する方法を紹介します

新興テクノロジーは何千もの業界に影響を及ぼしています。近年、AI+自動化はますます多くの企業や組織で...

ウェブページを出力できるAIアプリが登場、早速評価してみよう

みなさんこんにちは、カソンです。最近、ウェブページ作成ツールframer[1]は、プロンプトワードに...

DeepMindは大規模なモデルで帰納法と演繹法を学習できるようにし、GPT-4の精度は13.7%向上した。

現在、大規模言語モデル (LLM) は、特にいくつかの例と中間ステップが与えられた場合に、推論タスク...

3つの大きな弱点がAIスタートアップへの扉を閉ざしている

先月、投資会社a16zがAIスタートアップが直面する困難を分析した記事を発表しました。AIスタートア...

...

将来、軍隊は完全に人工知能になるのでしょうか?空想するのはやめてください!全体的な傾向と方向性は変えられない

現在の国際情勢から判断すると、将来の軍事兵器の開発は主に宇宙に向けられることになるが、スペースシャト...

...

スマートシティの未来: AI、データ、都市変革

2008 年の金融危機後、都市化とサービス提供に対する新たなアプローチが世界中で定着し始めました。テ...