Google AI の公式ブログ *** では、音声をテキストを挟まずに直接音声に翻訳できる実験的な新システム、Translatotron が紹介されました。 「Translatotron は、ある言語の音声を別の言語の音声に直接翻訳できる初のエンドツーエンド モデルです」とブログ投稿には書かれている。 Googleによると、現在の翻訳システムは、音声をテキストに変換する自動音声認識、テキストを別の言語に変換する機械翻訳、そして翻訳されたテキストから音声を生成するテキスト音声合成(TTS)の3つのステップに分かれている。これら 3 つのステップにより、Google 翻訳などのサービスが誕生しましたが、このテクノロジー大手は、中間ステップとしてテキストを必要とせずに、単一のモデルで音声翻訳を実現したいと考えています。 「トランスラトトロンと呼ばれるこのシステムは、作業を複数の段階に分割するのを避けます」と、Google AIソフトウェアエンジニアのイェ・ジア氏とロン・ワイス氏は述べた。Googleによると、これは翻訳の高速化と転写エラーの減少を意味するという。このシステムはスペクトログラムを入力として使用し、ニューラル ボコーダーとスピーカー エンコーダーに依存してスペクトログラムを生成します。つまり、システムは翻訳後も話者の声の特徴を保持します。 |
<<: 5 つの人工知能プログラミング言語! Javaはまだ立ち上がっています!
>>: 顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった
[[421986]]過去数年間でインターネットビデオは爆発的な成長を遂げており、ビデオ伝送インフラ...
自動運転の何十億ドルもの利益の一部を欲しがらない人はいないだろう。最近、SAIC傘下のXiangda...
来年の Win10 Creator Update に備えて、Microsoft は Edge ブラウ...
世界が人工知能(AI)を採用し続けるにつれて、AIを使用したスマートビルディングの人気が高まっていま...
【51CTO.comオリジナル記事】著者: 張傑本日2021年12月30日、SenseTimeの2...
事情に詳しい関係者らは、米政府に提出した提案に基づき、バイトダンスがティックトックの本社を米国内に維...
5月19日、Googleの開発者会議I/O 2021が開幕した。完全オンライン形式を採用し、Goog...
機械学習と AI タスクの実行方法や環境内でのデータの収集方法に応じて、組織はどの AI ストレージ...
11月14日、海外メディアの報道によると、OpenAIはGPT-5の構築を開始した。同社のCEOサム...
先週、Github で最も人気のあるプロジェクトは、最近バージョン 2.0 に更新された自然言語処理...
近年、自然言語処理における事前トレーニングは研究分野でホットな話題となっており、有名なGPT-3も新...
[[443046]]人間はAIよりも常識があるとは言えなくなりました!最近、マイクロソフトの黄雪東と...
TSMCはついにアメリカの圧力に耐えられず降伏した。実際のところ、棒はまだ本当に下ろされておらず、数...
10月11日、アリババは2017年杭州雲奇大会で、人類のテクノロジーの未来を探求する実験室「大墨学院...