あらゆる人間の声を再現できるAI技術

あらゆる人間の声を再現できるAI技術

ポッドキャスト業界は、よりリラックスした、自然でカジュアルなオーディオストーリーテリングへと移行しています。あまり深刻な言葉を使わないこのコミュニケーション形式は、司会者と聴衆の間のコミュニケーション距離を縮めることにも成功しました。

[[343209]]

つまり、アンカーは、コンテンツの理解と応答の難しさを軽減するために、できる限り話し言葉を使用します。まさにこの理解しやすいという利点のせいで、音声ナレーションはますます人気が高まっており、関連する調査データもこの発展傾向を証明しています。

Statistaが発表した統計によると、米国のポッドキャストリスナー数は2018年に7,500万人に達し、2024年までに月間リスナー数は1億6,400万人に増加すると予測されています。ポッドキャストリスナーの年平均成長率は、2019年から2023年の間に17%に達すると予測されています。

2020年、アメリカ人の4分の3がポッドキャストが何であるかを正確に知っており、調査対象者の半数以上(55%)がすでにポッドキャストを聴き始めています。世界で最も収益の高いポッドキャストであるジョー・ローガンの「The Joe Rogan Experience」は、2019年に最大5,000万ドルの売上を上げ、毎月2億回近くダウンロードされました。

現在、ポッドキャスト業界が直面している主な問題は、コンテンツの独立性を維持しながら、業界の急速な成長をサポートするために必要なリソースをどのように入手するかということです。最後に、人工知能などの画期的な技術によってもたらされた音声複製機能は、重要な解決策、少なくとも部分的な解決策となる可能性があるという点に触れておきます。

ニクソン プロジェクトを例に挙げてみましょう。このプロジェクトでは、AI 技術が人間の音声効果と何ら変わらない音声効果を完全に再現できることが説得力を持って実証されました。 MITの研究者、ジャーナリスト、アーティストのチームが、音声クローン会社RespeecherおよびVDR会社Canny AIと協力し、初の月面着陸通話の模擬トランスクリプトを作成した。ただし今回は、宇宙飛行士のアームストロングとオルドリンがミッションに失敗し、月面に取り残されている。

彼らは、当時のニクソン米大統領が月面着陸の悲劇的な失敗を世界に発表するビデオを「偽造」した。

ポッドキャストとAIが出会うとき

コンピューターによる音声処理の主な課題は、ロボットのような発音を避けながら、人間の表現とそのさまざまなニュアンスを再現することです。微妙な音の変化を識別して再現することに関しては、AI ベースの音声変換技術が実現可能な開発の道筋を示しています。

Apple Sir、Amazon Alexa、Microsoft Cortana、Google Assistant などの音声アシスタントは、依然としてテキスト読み上げ技術を使用しています。この技術は確かに便利ですが、異なる音声タイプを実現するのは困難です。 Siriを例にとると、老人の音声効果を実現するには、膨大な録音済みファイルを導入する必要があるだけでなく、Siriは音声ファイルに含まれていない単語を処理することもできません。この点で、AI を活用した音声変換は新たなブレークスルーとなりました。

AI音声クローンをポッドキャストに適用するにはどうすればいいでしょうか?

人工知能は音声の複製を実現できるだけでなく、あらゆるポッドキャスト プログラムのすべての音声効果を完璧に複製することもできます。ここで使用されているのは、「スマートカクテル」と呼ばれる古典的なデジタル信号処理アルゴリズムと専用のディープ生成モデリング技術です。これにより、コンテンツ制作者は、これまで実現が困難だった録音効果(たとえば、アナウンサーに他の仕事がある場合や、亡くなった声優の声を再現する必要がある場合)を解決するために、最も適切な音声を使用することができます。

ポッドキャスト制作分野における音声クローン技術の使用例をいくつか紹介します。

1. 有名人を番組に呼ぶ

有名な俳優や作家、アスリートなどを番組に参加させることは難しいですが、AI技術を使って彼らの声を再現すれば、わざわざスタジオまで来てもらうことなく、簡単に同じ効果を得ることができます。これにより、リスナーは好みの声を聞くことができ、番組制作者やタレントは手間を省くことができる。

2. 昔の音を再発見する

音声クローンにより、亡くなった俳優が再び声を出すことができるようになります。ケネディ大統領に歴史ポッドキャストのナレーションをしてもらいたいですか? 問題ありません。音声変換技術により、彼の声を正確に再現できます。そうです、単に「似ている」のではなく、本当に完璧な再現です。

3. 長時間の作業を強いることなく、子どもの声を使って読み聞かせる

子どもたちが話すのを聞くのはいつも興味深いことです。興味は必ずしも内容に反映されるのではなく、むしろ声、調子、イントネーションに反映されます。しかし、子供たちと一緒に働くのは非常に大変です。音声合成技術により、プロの俳優が子供のセリフを読み上げ、それを子供っぽい声の効果音に変換できるため、番組制作プロセスが大幅に簡素化されます。

4. ポッドキャストのタイムリーな放送を確実にするために、番組制作の進捗を迅速に進める

AIは人間の声を瞬時に再現し、短時間で高品質なターゲット音声結果を提供します。

要約する

2017 年、世界のポッドキャスト市場は最大 2 億 2,000 万ドルの広告収入をもたらし、毎年倍増しています。ユーザーエンゲージメントの向上は、潜在的な広告主を引き付ける中核的な原動力となるでしょう。さらに、ポッドキャスト内の広告は実は非常に効果的で、調査によれば、そのような広告の視聴完了率はほぼ 90% に達しています。

さらに、広告主は特定のポッドキャスト番組に対して最大 30 ドルの CPM (インプレッション 1,000 回あたりのコスト) を支払う用意もあります。これだけ聞くとあまりイメージがわかない数字かもしれませんが、Facebook の広告表示 1,000 回あたりのコストは約 6 ドルです。

オンラインテレビがゆっくりと、しかし確実にケーブルテレビに取って代わっているように、ポッドキャストや従来のラジオにも同じことが起きているようです。そして、従来のラジオ広告の観点から見ると、ポッドキャスト業界は少なくともさらに 200 億ドルの収益をもたらす可能性があります。冒頭でも述べたように、ポッドキャストはもともとラジオを聴いていなかった層を多く取り込むことができるため、収益成長への期待は大きい。

これらの調査数値は、ポッドキャストビジネスが今後も長く存続することを示していますが、オーディオコンテンツの制作者にとっては、より効率的かつ効果的な番組制作方法を見つけることが急務となっています。

おそらく、AI 音声クローン技術は、ポッドキャスト業界がコンテンツの独立性とプログラム制作リソースの要件の完璧なバランスを見つけるのに役立つ究極のソリューションです。

<<:  人工知能技術は成熟しており、AI音声業界は幅広い発展の見通しを迎えている

>>:  バイトダンスが声明を発表:アルゴリズムや技術の移転は行われていない

ブログ    

推薦する

Meta Digital Human 2nd Generation が登場! VRヘッドセットはもういらない、iPhoneでスキャンするだけ

Meta のリアルなデジタル ヒューマン 2.0 がさらに進化し、iPhone を使用して生成できる...

オープンソースの Gemma モデル: Google の言語の奇跡。命令チューニング、低ランク適応、Switch Transformer を使用して小さなモデルで遊ぶことができます。

言語は人間にとって最も重要なコミュニケーションツールであり、人工知能の分野における最も挑戦的な研究対...

実践的 | この記事は畳み込みニューラルネットワークを始めるのに十分です

まず、ディープラーニングとはすべてのディープラーニングアルゴリズムの総称であり、CNNは画像処理分野...

...

...

...

火星探査車「パーセベランス」の火星着陸における人工知能の応用

2月18日に火星への着陸に成功したNASAの火星探査車パーサヴィアランスは、火星での2年間の探査ミッ...

...

ファイアウォールは再び進化します。よりスマートで安全になりましたか?

ハッカーがネットワーク攻撃を開始すると、まず会社のパブリック IP で SSH サービスに使用される...

自動車ドメインコントローラの統合アーキテクチャの背景、利点、設計を1つの記事で理解する

車両の電動化が徐々に進むにつれ、電子制御ユニット(ECU)が車全体を制御するようになりました。アンチ...

Uberの自動運転車による死亡事故の捜査に新たな進展:横断歩道の外を歩く歩行者を識別できない

最近、国家運輸安全委員会(NTSB)は、Uberの自動運転車による死亡事故に関する調査の新たな進展を...

テスラは、Dojo スーパーコンピューターの秘密を盗み、偽のコンピューターを使用して検査を欺いたとして元エンジニアを訴える

テスラは、元エンジニアのアレクサンダー・ヤツコフ氏を提訴した。同氏は、同社内部のスーパーコンピュータ...

機械学習の基本概念を10枚の画像で説明する

機械学習の基本的な概念を説明するとき、私はいつも限られた数の図に戻ってしまいます。以下は、私が最も啓...

...