Google AI の公式ブログ *** では、音声をテキストを挟まずに直接音声に翻訳できる実験的な新システム、Translatotron が紹介されました。 「Translatotron は、ある言語の音声を別の言語の音声に直接翻訳できる初のエンドツーエンド モデルです」とブログ投稿には書かれている。 Googleによると、現在の翻訳システムは、音声をテキストに変換する自動音声認識、テキストを別の言語に変換する機械翻訳、そして翻訳されたテキストから音声を生成するテキスト音声合成(TTS)の3つのステップに分かれている。これら 3 つのステップにより、Google 翻訳などのサービスが誕生しましたが、このテクノロジー大手は、中間ステップとしてテキストを必要とせずに、単一のモデルで音声翻訳を実現したいと考えています。 「トランスラトトロンと呼ばれるこのシステムは、作業を複数の段階に分割するのを避けます」と、Google AIソフトウェアエンジニアのイェ・ジア氏とロン・ワイス氏は述べた。Googleによると、これは翻訳の高速化と転写エラーの減少を意味するという。このシステムはスペクトログラムを入力として使用し、ニューラル ボコーダーとスピーカー エンコーダーに依存してスペクトログラムを生成します。つまり、システムは翻訳後も話者の声の特徴を保持します。 |
<<: 5 つの人工知能プログラミング言語! Javaはまだ立ち上がっています!
>>: 顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった
マイクロソフトは 7 月 11 日にプレスリリースを発行し、Combinable Diffusion...
ランダム化ヒルクライミングは最適化アルゴリズムです。検索プロセスの一部としてランダム性を使用します。...
[[377158]]研究によれば、コロナウイルスのパンデミック中に組織が確立したビジネス規範は、パン...
7月16日、OpenAIが開発した人工知能チャットボット「ChatGPT」は、ユーザーと自然言語で会...
ブロックチェーンと人工知能は、現在最もホットなテクノロジートレンドの 2 つです。これら 2 つの技...
現在、一部の学者は、汎用人工知能を研究したいと言っています。これは、機械翻訳、音声認識、画像の分類と...
私たちとの会話の中で、多くの読者が、人工知能が予想外の多くのことを実行できることに驚いたと述べていま...
少し前に、Mistral AI がリリースした Mixtral 8x7B モデルがオープンソース コ...
エッジAIについて学ぶエッジ AI とは、集中型のクラウド サーバーに依存するのではなく、センサー、...
AI は、通常は人間の知能を必要とする活動を実行できるアルゴリズムを研究および開発するコンピュータ...
製造業における自動化の推進力は非常に単純です。自動化は人間の作業をシミュレートするため、人間は製造バ...
人間は、脳内の神経系が外部環境の変化に継続的に適応するためにその構造を変える能力を持っていることを証...
スマートホームのコンセプトを最も簡単に説明すると、それは家の自然な進化であるということです。スマート...