Google AI の公式ブログ *** では、音声をテキストを挟まずに直接音声に翻訳できる実験的な新システム、Translatotron が紹介されました。 「Translatotron は、ある言語の音声を別の言語の音声に直接翻訳できる初のエンドツーエンド モデルです」とブログ投稿には書かれている。 Googleによると、現在の翻訳システムは、音声をテキストに変換する自動音声認識、テキストを別の言語に変換する機械翻訳、そして翻訳されたテキストから音声を生成するテキスト音声合成(TTS)の3つのステップに分かれている。これら 3 つのステップにより、Google 翻訳などのサービスが誕生しましたが、このテクノロジー大手は、中間ステップとしてテキストを必要とせずに、単一のモデルで音声翻訳を実現したいと考えています。 「トランスラトトロンと呼ばれるこのシステムは、作業を複数の段階に分割するのを避けます」と、Google AIソフトウェアエンジニアのイェ・ジア氏とロン・ワイス氏は述べた。Googleによると、これは翻訳の高速化と転写エラーの減少を意味するという。このシステムはスペクトログラムを入力として使用し、ニューラル ボコーダーとスピーカー エンコーダーに依存してスペクトログラムを生成します。つまり、システムは翻訳後も話者の声の特徴を保持します。 |
<<: 5 つの人工知能プログラミング言語! Javaはまだ立ち上がっています!
>>: 顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった
Transformerモデルは2017年の誕生以来、自然言語処理やコンピュータービジョンなど多くの分...
この記事を読んでいるということは、おそらくすでにディープラーニングの旅を始めているということでしょう...
[[422893]] 01 人工知能アラン・チューリングは人工知能を次のように定義しました。カーテン...
[[186928]]ビッグデータ、分析、モノのインターネット、クラウドテクノロジー...近年、これら...
データ分析と人工知能 (AI) 市場に関するニュースをフォローしている人なら誰でも、過去数年間で多く...
近年の人工知能の発展スピードは驚異的で、あらゆる分野で専門的なAIが登場しています。上海では以前、無...
人間の脳の神経信号も言語であると考えられるなら、機械翻訳アーキテクチャを神経信号の解釈に適用する実現...
文/東方一洛顔認識技術は公共の場で自由に使用できなくなるのでしょうか?最近、欧州連合は377対248...
スペイン紙エル・ムンドのウェブサイトが2月20日に報じたところによると、ソフトウェア、ハードウェア、...