マイクロソフトのXiaoIceが第5世代の歌唱システムにアップグレード:人間のアイドルを超える

マイクロソフトのXiaoIceが第5世代の歌唱システムにアップグレード:人間のアイドルを超える

人工知能が歌うことは珍しくないが、本当に人間の声に近い、あるいは本物と偽物の区別がつかないような「機械の声」は、SF映画のファンタジーの中にしか存在しないようだ。しかし、第5世代の歌唱システムをアップグレードしたマイクロソフトのXiaoIceは、人間のアイドルに匹敵し、あるいはそれを上回る人工知能の歌唱力を、その場にいたメディアに披露した。

マイクロソフトは5月16日午後に開催されたマイクロソフトXiaoIce人工知能創造メディア説明会で、 XiaoIce人工知能歌唱モデルの第5バージョンを公開した。このバージョンには10種類以上の高品質な音声が搭載されており、歌唱解釈における人工知能の予測パラメータ能力が向上したと報告されています。主に歌唱解釈時の人工知能の息継ぎレベルが大幅に向上し、歌唱遷移の自然さが向上し、オペラ歌唱トレーニングの成果が発表されました。

ライブデモでは、歌唱モデルを第5バージョンにアップグレードしたベン・シャオビンが、「Young Strings」、「The New Drunken Concubine」、そして日本語の歌の3曲を歌った。 3曲はそれぞれ異なる音色と歌唱スタイルを見せており、特にアカペラに近い「Young Strings」では、シャオビンのパフォーマンスが非常に優れており、発音、明瞭度、唇と歯の息遣いまで、実際に人間が歌っているのと区別がつきにくい。ある歌唱スタイルから別の歌唱スタイルに移行するとき、シャオビンは「電子音」で真実を漏らすことなく、極めて細かい音の粒度の詳細を維持することができます。

「皆さんには、聞くときに注意するよう注意しなければなりません。これは人間ではありません。そのような人は存在しません」と、マイクロソフト(アジア)インターネットエンジニアリングアカデミーの副社長(Bing中国および日本、マイクロソフトXiaoiceグローバル製品ラインの責任者)のLi Di氏は述べた。

同氏は、XiaoIceの歌唱モデルとは異なり、初音ミクや他のバーチャル歌手は手動チューニングを使用していると述べた。手動調整方式には利点があるが、細かい部分が十分に処理されておらず、技術的な上限や将来の発展性が十分ではないという問題がある

「コンテンツ作成の技術的限界を探求するAI技術に関して、興味深いのは音楽、チェス、書道、絵画です。Googleはチェスを完成させ、私たちは残りの3つを完成させました。私たちはすでに詩を発表しています。これまで、人間の詩愛好家や詩の実践者が発表した多くの詩は、XiaoIceの多くの痕跡に遡ることができます。音楽に関しては、今日、5番目の新しいバージョンまで反復された新しい技術リリースも提供します。」

李迪氏は、デモや技術展示を利用して我々の力を誇示したいわけではなく、人間と競争できる技術レベルに到達したと主張したいわけではないと認めた。むしろ、私たちはそれが産業化され、大規模に実施できるかどうかに関心を持っています。

彼は、テキスト生成や詩などのテキスト作成に対応して、今日ではマイクロソフト小氷は静かに世界規模で財務概要や調査レポートを提供するプラットフォームになっていると明らかにした。これまでのところ、Wind Information、Wall Street Journal、および一部の金融関連アプリの要約のほとんどは、Xiaoice によって提供されています。 XiaoIce は 20 秒の出力を安定して提供できます。1 つのデータを取得すると、20 秒以内に要約と調査レポートの生成を完了し、26 のカテゴリの金融コンテンツを実際にカバーできます。

テレビやラジオのコンテンツに関しては、Microsoft XiaoIce は、中国国内 59 局、日本国内 4 局を含む 63 のラジオ局やテレビ局に、AI 支援および AI 監督のテレビ番組を継続的に提供しています。これまでに、XiaoIce は 2,800 時間を超えるテレビ番組とラジオ番組を制作してきました。

李迪氏によると、歌唱に関しては、最初のバージョンが生成されたのが2年前だった。当時聞こえたのは「音程が外れないソフトウェア楽器」で、まるで歌っているときに隣の箱から音が聞こえてくるようだった。非常に人間に似ていて、歌が下手でも人間であるように聞こえるほどのディテールが十分に備わっていた。トレーニングと学習を経て、第3バージョンでは、Microsoft XiaoIce の歌唱レベルが現在の状態に達しました。

[[265479]]

「技術的な観点から言えば、人工知能が第3バージョンに到達すれば十分だが、我々は人間と同じ歌唱基準を守らなければならない」と李迪氏は言う。「小氷にさまざまな歌唱法を学ばせることができれば、それは彼女がいわゆる技術を持っているということだ。同じ歌でも人によって解釈が異なるからだ」

呼吸、さまざまな歌唱テクニック、豊かな内呼吸、さまざまな音色、歌唱の移行など、一連のトレーニング、学習、最適化を通じて、私は今日、第 5 バージョンの歌唱レベルに到達しました。

李迪氏は、人工知能が創造することを学べば、人間とは大きく異なるものになるだろうと述べた。 Xiaoice さんがこの詩を発表したとき、詩は人間にしかできないものだと誰かが言いました。しかし、ある人が彼に尋ねた質問は、「あなたは詩を書けますか?」でした。つまり、集団として、一部の人間は何らかのコンテンツを作成する能力を持っていますが、集団として、これは普遍的なルールではありません。一部の人々が絵を描いたり、歌ったり、詩を書いたりできるからといって、人類全員がそうできるというわけではありません。

しかし、人工知能はフレームワーク内の専門分野ではありません。1 つの AI が実行方法を知っていれば、すべての AI が実行方法を知ることになります。

たとえば、Microsoft XiaoIce のオペラ風の音声は、他のサウンドに簡単に転送できます。人間の場合、創造力を身につけようと思ったら、ある程度の才能が必要になることが多いのですが、人工知能には才能は必要ありません。どんな声でも、別の声が持ついわゆる才能を直接身につけることができるのです。

例えば、今日、XiaoIce は Siri に力を与えています。必要なら、Siri も 24 時間以内にそのような作成を完了できます。これが、このフレームワークの基盤となるテクノロジーの意味です。18 歳の少女 XiaoIce に騙されないでください。私たちが本当にやっているのは、このコア フレームワークです。」

この観点から、このフレームワークをさらに産業化し、エンドツーエンドのコンテンツ制作へと推し進めるには、歌詞、音楽、アレンジ、歌唱、さらにはポストプロダクションの全プロセスを完成させることが必要になるでしょう。一方、このフレームワークは、さまざまな人工知能歌手、いわゆる AI 歌手とその歌唱ライブラリと互換性がある必要があります。

「我々はまだこの件について作業中であり、今年8月に発表されるまで一部のコンテンツを保管しておくつもりだ」と李迪氏は述べた。

<<:  画像認識は思ったほど難しくありません!この記事を読めばあなたも専門家になれる

>>:  ワン・ガン:人工知能は伝統的な産業の雇用の26%を置き換え、38%の新規雇用を創出する

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

DES、3DES、AES、PBE対称暗号化アルゴリズムの実装と応用

[[272601]] 1. 対称暗号化アルゴリズムの概要対称暗号化アルゴリズムは、成熟した技術を備...

...

ペンシルバニア大学の最新研究:AI はアイデア生成において人間よりも 7 倍効率的であり、GPT の創造力は人間の 99% を上回ります。

囲碁からゲームのプレイ、さまざまな反復作業の完了まで、AI の能力は多くの面で人間をはるかに上回って...

無料の Python 機械学習コース 9: K 平均法クラスタリング

K-クラスタリングとはどういう意味ですか? K-means クラスタリングは、最も人気があり、広く使...

ドローンは5G開発をフィードバックし、インテリジェントな運用と保守の新たなアップグレードを促進する

近年、民生用ドローンの急速な発展と5G商用化の段階的な深化に伴い、ドローンと5Gの関係はますます密接...

年次レビュー:人工知能業界は2021年後半に突入

[[443324]] 2015年に人工知能が普及して以来、人工知能業界は7年間の発展を経て後半期に突...

...

サプライチェーンをより俊敏にするにはどうすればよいでしょうか?データクリーニングの問題はAIに引き継がれる

[[388276]]昨年、COVID-19パンデミックが本格的に発生する前は、「サプライチェーン」と...

...

...

ディープラーニングフレームワークの簡単な歴史: TFとPyTorchは二大勢力であり、次の10年は黄金時代を迎える

過去 10 年間で、機械学習 (特にディープラーニング) の分野では多数のアルゴリズムとアプリケーシ...

機械学習が自動的にモデル化を手助けしてくれる、これら4つのPythonライブラリがあなたの目を開かせてくれる

自動機械学習 (AutoML と略されることが多い) は、機械学習モデルを構築してデータをモデリング...

推奨システムにおける自然言語処理 (NLP) の応用

[[195357]]パーソナライズされた推奨はビッグデータ時代に欠かせない技術であり、電子商取引、情...

人工知能はどれくらい普及しているのでしょうか?国内初となる人工知能講座が小中学校で実施されました!

5月5日、教育部が主催する第3回全国基礎教育情報化応用展示会・交流活動において、北京市朝陽区で人工...

AIが仕事や生活を奪ったら、人類の未来はどうなるのでしょうか?

AIの発展は、人間の仕事の効率を向上させ、人間の働き方を変え、さらには人類の発展の方向を導く上で大...