マイクロソフトがテキスト読み上げアバター AI ツールを発表: Azure プラットフォームをベースに仮想 3D デジタル人物を作成可能

マイクロソフトがテキスト読み上げアバター AI ツールを発表: Azure プラットフォームをベースに仮想 3D デジタル人物を作成可能

IT Homeは11月16日、MicrosoftがIgniteカンファレンスでAzure AI Speech用の「Azure AI Speech テキスト読み上げ(TTS)アバター」というAIツールを発表したと報じた。人間のリアルな仮想アバター(デジタルヒューマン)を生成できるとしている。このツールは現在、プレビュー版として一般公開されている。

マイクロソフトは、ユーザーはAzure AI Speechのテキスト読み上げ(TTS)アバターを使用して、「テキストを入力して内容を話す」ことに基づいて仮想アバターを作成し、それを実際の写真トレーニングと組み合わせて、実際の人々に基づいた「インタラクティブなチャットボット」を作成できると述べた。これは、企業のマーケティング、ビジネス、または顧客サービスのシナリオで使用できる。

この Azure AI Speech テキスト読み上げ (TTS) アバターは、主にテキスト アナライザー、TTS サウンド シンセサイザー、TTS 仮想アバター シンセサイザーの 3 つのモジュールで構成されていると報告されています。

テキスト アナライザーは、まずユーザーが入力したテキストを分析し、音素シーケンスを生成します。 TTS サウンド シンセサイザーの TTS 音声モデルは、ユーザーが入力したテキストの音響特性を予測し、サウンドを合成します。最後に、ニューラルネットワーク音声合成モデルアバターが、上記の音響特徴に基づいてキャラクターの唇の形状画像を予測し、最終的に仮想アバター画像を形成します。

マイクロソフトは、従来のバーチャルアバターの制作には時間と労力がかかり、専用の撮影環境の整備が必要で、撮影後の編集作業にもかなりのコストがかかると説明した。現在、マイクロソフトの最新の Azure AI Speech テキスト読み上げ (TTS) アバター サービスを使用することで、初期モデルが確立された後は、ユーザーはテキストを入力するだけで、さまざまな製品紹介やインタラクティブ ビデオなどを作成できます。 Microsoft Azure OpenAI サービスとニューラル ネットワーク TTS 機能を組み合わせることで、より自然なインタラクティブ エクスペリエンスを提供することもできます。

IT Home は、Microsoft が、ユーザーは Azure AI Speech TTS アバターを使用して、企業文化ビデオ、製品紹介、カンファレンスでの CEO のデジタル アバターなど、さまざまなビデオ コンテンツを一括作成できると主張していることを発見しました。また、仮想ライブデジタルヒューマン、チャットロボット、ビジネスロボット、オンライン教育用の AI 教師などを作成することもできます。

Microsoft は、Azure AI Speech のテキスト読み上げ (TTS) アバターが Azure サブスクライバー向けに提供され、さまざまな言語をサポートしていると述べました。ユーザーは、プリセットのアバター オプションから希望のキャラクターを選択したり、独自のアバターをカスタマイズしたりできます。

ユーザーが独自の仮想アバターをカスタマイズしたい場合は、キャラクターのビデオ クリップを一括アップロードする必要があります。Azure プラットフォームはこれらのビデオをオンラインで処理して仮想アバターを生成します。キャラクター本体と音源は分離されており、ユーザーは公式が提供するデフォルトの音源を選択したり、独自のトレーニング音源をアップロードしたりすることができます。

<<:  NVIDIA が TensorRT-LLM の新バージョンをプレビュー: 推論能力が 5 倍に向上、8GB 以上のグラフィック カードがローカルで実行可能、OpenAI の Chat API をサポート

>>:  ロビン・リー:AIネイティブ時代の「冷たい」思考と「熱い」ドライブ

ブログ    
ブログ    

推薦する

...

自己一貫性を利用して大規模モデルの推論能力を向上させたGoogleは、ベンチマークの数学問題の75%を解決しました。これはGPT-3よりも20%高い数値です。

言語モデルはさまざまな NLP タスクで目覚ましい成功を収めていますが、その推論能力は不十分な場合が...

「星から来た」ロボットは自閉症の子供たちを治せるのか?

[[236328]]私の友人のチャンさんは、8歳の自閉症の男の子の母親です。彼女の息子は2歳のとき...

AIの脳回路は人間と非常に似ている、OpenAIの最新研究は白熱した議論を引き起こしている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ホワイトハウスのAIに関する大統領令がサイバーセキュリティリーダーに何を意味するか

AIは引き続きテクノロジーの注目を集めており、2023年の最後の四半期を迎えるにあたり、AIの力を活...

建設における AI: 人工知能はスマート建設への道をどのように切り開くのか?

確かに、人工知能はさまざまな面で人々の生活を楽にしてきました。 Google アシスタント、Siri...

あなたの脳は寝ている間に本当に学習します!初めての人間実験証拠:再生速度が1~4倍に

寝る前に本を数ページ読んだり、数語読んだりするだけで、目覚めたときに深い感銘を受けていることに気づき...

TikTokの背後にあるAIの仕組み

エンジニアの視点から TikTok 推奨システムのアーキテクチャを探ります。 TikTok は、ユー...

2024年の製造業の現状:完全デジタル化

世界全体、特に製造業は、パンデミック中に発生した問題や数年前の大規模なサプライチェーンの混乱から脱し...

...

...

人工知能とモノのインターネットのダイナミックな融合を探る(パート 2)

前回の記事「人工知能とモノのインターネットの動的統合を探る(I) 」の続き1. IoTにおけるAIの...

2021年以降の人工知能について何かお考えはありますか?

中国科学技術協会、中国科学院、中国工程院、浙江省人民政府、杭州市人民政府、浙江省人工知能開発専門委員...

人工知能とモノのインターネット - 未来の技術の融合

[[388165]]将来は自動化となり、人工知能 (AI) とモノのインターネット (IoT) が融...

形式言語を認識する能力が不十分で、不完全なトランスフォーマーは自己注意の理論的欠陥を克服する必要がある

トランスフォーマー モデルは多くのタスクで非常に効果的ですが、一見単純な形式言語ではうまく機能しませ...