DeepSpeechを使用してアプリ内で音声をテキストに変換する

アプリでの音声認識は単なる楽しい機能ではなく、重要なアクセシビリティ機能です。

コンピュータの主な機能の 1 つは、データを解釈することです。一部のデータは他のデータよりも解析が容易であり、音声入力はまだ開発中です。しかし、近年この分野では多くの改善が行われており、その 1 つが、Firefox ブラウザを保守する財団である Mozilla のプロジェクトである DeepSpeech です。 DeepSpeech は音声をテキストに変換するコマンドとライブラリであり、音声入力をテキストに変換する必要のあるユーザーと、アプリケーションに音声入力を提供したい開発者の両方に役立ちます。

DeepSpeechをインストールする

DeepSpeech はオープンソースであり、Mozilla Public License (MPL) に基づいてリリースされています。ソースコードは GitHub ページからダウンロードできます。

インストールするには、まず Python の仮想環境を作成します。

 $ python3 -m pip インストール deepspeech --user

DeepSpeech は機械学習に依存しています。自分でトレーニングすることもできますが、最初に開始するときに事前トレーニング済みのモデルファイルをダウンロードするのが最も簡単です。

 $ mkdir ディープスピーチ
$ cd ディープスピーチ
$ カール -LO \
 https://github.com/mozilla/DeepSpeech/releases/download/vX.YZ/deepspeech-XYZ-models.pbmm
 $ カール -LO \
 https://github.com/mozilla/DeepSpeech/releases/download/vX.YZ/deepspeech-XYZ-models.scorer

ユーザーアプリケーション

DeepSpeech を使用すると、音声録音をテキストに書き起こすことができます。最適な条件下できれいに録音された音声から、最良の結果が得られます。ただし、いざというときには、どんな録音でも試すことができ、最終的には手動で書き起こす必要があるものになる可能性があります。

これをテストするには、「これはテストです。Hello world、これはテストです」という簡単なフレーズを含むオーディオファイルを録音します。オーディオをhello-test.wavという名前の.wavファイルとして保存します。

DeepSpeech フォルダーで、モデルファイル、スコアラーファイル、オーディオを指定して文字起こしを開始します。

 $ deepspeech --model deepspeech*pbmm \
 --スコアラー deepspeech*スコアラー \
 --audio hello-test.wav

標準出力（端末）に出力します。

これはテストです こんにちは世界 これはテストです

--jsonオプションを使用すると、JSON 形式の出力を取得できます。

 $ deepspeech --model deepspeech*pbmm \
 --json
 --スコアラー deepspeech*スコアラー \
 --audio hello-test.wav

これは各単語をタイムスタンプとともにレンダリングします。

 {
 「トランスクリプト」: [
 {
 「信頼度」: -42.7990608215332,
 「単語」: [
 {
 "単語": "これ",
 「開始時間」: 2.54,
 「持続時間」: 0.12
 },
 {
 "単語": "は",
 「開始時間」: 2.74,
 「期間」: 0.1
 },
 {
 "単語": "a",
 「開始時間」: 2.94,
 「持続時間」: 0.04
 },
 {
 "単語": "テスト",
 「開始時間」: 3.06,
 「持続時間」: 0.74
 },
 [...]

開発者

DeepSpeech は、録音済みの音声を書き起こすだけのコマンドではありません。また、これを使用してオーディオストリームをリアルタイムで処理することもできます。 GitHubリポジトリDeepSpeech-examplesには、Android向けのJavaScript、Python、C#、Javaなどのさまざまなコードが含まれています。

大変な作業のほとんどはすでに行われているため、DeepSpeech の統合は通常、DeepSpeech ライブラリを参照して、ホストデバイスからオーディオを取得する方法を知るだけで済みます (これは通常、Linux の/dev ファイルシステムまたは Android やその他のプラットフォームの SDK を通じて行います)。

音声認識

開発者にとって、アプリで音声認識を有効にすることは単なる楽しいトリックではなく、運動障害のある人、視覚障害のある人、慢性的にマルチタスクを行う人にとってアプリをより使いやすくする重要なアクセシビリティ機能です。ユーザーにとって、DeepSpeech は音声ファイルをテキストに変換できる便利な文字起こしツールです。どのようなユースケースでも、DeepSpeech を試してみて、それが何をもたらすかを確認してください。

<<: 人工知能が雪の結晶をリアルタイムで捉え、約700人の足跡を追跡可能に

>>: 人工知能アルゴリズムが構造生物学の難問を解決

DeepSpeechを使用してアプリ内で音声をテキストに変換する

DeepSpeechをインストールする

ユーザーアプリケーション

開発者

音声認識

40の言語を同時に理解する人工知能が異言語コミュニケーションを支援

OpenAIの最初の投資家コスラ氏：AIスタートアップのほとんどは過大評価されている

分散ストレージシステムにおけるDHTアルゴリズムの改善

生成AIは私たちの生活をどのように変えるのでしょうか?

実践編 | アポロレーンチェンジの詳しい説明

NetEase Fuxi Game AI Botの擬人化と様式化：AIGAはゲーム探索を強化

機械学習を使用したデータマッピング

MLPerfの結果が発表され、中国のAIチップ企業が再び世界第1位に！大規模モデル推論の3つのカテゴリーで優勝し、H100を超えるパフォーマンスを達成

推薦する

第 5 世代の XiaoIce は、率先して電話をかけて「議論」するかもしれませんが、その鋭い舌により、コンバージョン率が最も高い AI アシスタントになりました。

人気のLlama 2は1週間で15万回以上ダウンロードされ、誰かがRust実装をオープンソース化した。

人事戦略と人材開発の形成における AI の役割

大規模な言語モデルはデータアシスタントとして機能し、浙江大学のデータコパイロットはデータを効率的に呼び出し、処理し、視覚化します。

なぜスパムメールがこんなに多いのでしょうか？ Redditの男が機械学習の残酷な現実を暴露

人工知能と医師が出会ったら何が起こるかを伝える7つの短編物語

予想外！ AI技術はアダルト動画サイトに成熟して適用されている

2018 年に最も価値のあるオープンソース機械学習プロジェクト 6 つ

人工知能分野における神話を再考する

多くの競争者が競い合う中、自動運転をめぐる戦いが始まる！

清華大学系のスタートアップが、実際のシーンからアニメーションへのワンクリック変換、パーソナライズされたキャラクターも生成できる世界初の4Dスケルトンアニメーションフレームワークを発表

人工知能がスマート交通の発展に与える影響