DeepSpeechを使用してアプリ内で音声をテキストに変換する

DeepSpeechを使用してアプリ内で音声をテキストに変換する


アプリでの音声認識は単なる楽しい機能ではなく、重要なアクセシビリティ機能です。


コンピュータの主な機能の 1 つは、データを解釈することです。一部のデータは他のデータよりも解析が容易であり、音声入力はまだ開発中です。しかし、近年この分野では多くの改善が行われており、その 1 つが、Firefox ブラウザを保守する財団である Mozilla のプロジェクトである DeepSpeech です。 DeepSpeech は音声をテキストに変換するコマンドとライブラリであり、音声入力をテキストに変換する必要のあるユーザーと、アプリケーションに音声入力を提供したい開発者の両方に役立ちます。

DeepSpeechをインストールする

DeepSpeech はオープンソースであり、Mozilla Public License (MPL) に基づいてリリースされています。ソースコードは GitHub ページからダウンロードできます。

インストールするには、まず Python の仮想環境を作成します。

 $ python3 -m pip インストール deepspeech --user

DeepSpeech は機械学習に依存しています。自分でトレーニングすることもできますが、最初に開始するときに事前トレーニング済みのモデル ファイルをダウンロードするのが最も簡単です。

 $ mkdir ディープスピーチ
$ cd ディープスピーチ
$ カール -LO \
https://github.com/mozilla/DeepSpeech/releases/download/vX.YZ/deepspeech-XYZ-models.pbmm
$ カール -LO \
https://github.com/mozilla/DeepSpeech/releases/download/vX.YZ/deepspeech-XYZ-models.scorer

ユーザーアプリケーション

DeepSpeech を使用すると、音声録音をテキストに書き起こすことができます。最適な条件下できれいに録音された音声から、最良の結果が得られます。ただし、いざというときには、どんな録音でも試すことができ、最終的には手動で書き起こす必要があるものになる可能性があります。

これをテストするには、「これはテストです。Hello world、これはテストです」という簡単なフレーズを含むオーディオ ファイルを録音します。オーディオを​hello-test.wav​という名前の​.wav​ファイルとして保存します。

DeepSpeech フォルダーで、モデル ファイル、スコアラー ファイル、オーディオを指定して文字起こしを開始します。

 $ deepspeech --model deepspeech*pbmm \
--スコアラー deepspeech*スコアラー \
--audio hello-test.wav

標準出力(端末)に出力します。

これはテストです こんにちは世界 これはテストです

​--json​オプションを使用すると、JSON 形式の出力を取得できます。

 $ deepspeech --model deepspeech*pbmm \
--json
--スコアラー deepspeech*スコアラー \
--audio hello-test.wav

これは各単語をタイムスタンプとともにレンダリングします。

 {
「トランスクリプト」: [
{
「信頼度」: -42.7990608215332,
「単語」: [
{
"単語": "これ",
「開始時間」: 2.54,
「持続時間」: 0.12
},
{
"単語": "は",
「開始時間」: 2.74,
「期間」: 0.1
},
{
"単語": "a",
「開始時間」: 2.94,
「持続時間」: 0.04
},
{
"単語": "テスト",
「開始時間」: 3.06,
「持続時間」: 0.74
},
[...]

開発者

DeepSpeech は、録音済みの音声を書き起こすだけのコマンドではありません。また、これを使用してオーディオ ストリームをリアルタイムで処理することもできます。 GitHubリポジトリDeepSpeech-examplesには、Android向けのJavaScript、Python、C#、Javaなどのさまざまなコードが含まれています。

大変な作業のほとんどはすでに行われているため、DeepSpeech の統合は通常、DeepSpeech ライブラリを参照して、ホスト デバイスからオーディオを取得する方法を知るだけで済みます (これは通常、Linux の​/dev​​​ ファイルシステムまたは Android やその他のプラットフォームの SDK を通じて行います)。

音声認識

開発者にとって、アプリで音声認識を有効にすることは単なる楽しいトリックではなく、運動障害のある人、視覚障害のある人、慢性的にマルチタスクを行う人にとってアプリをより使いやすくする重要なアクセシビリティ機能です。ユーザーにとって、DeepSpeech は音声ファイルをテキストに変換できる便利な文字起こしツールです。どのようなユースケースでも、DeepSpeech を試してみて、それが何をもたらすかを確認してください。

<<:  人工知能が雪の結晶をリアルタイムで捉え、約700人の足跡を追跡可能に

>>:  人工知能アルゴリズムが構造生物学の難問を解決

ブログ    

推薦する

「今日の簡単な歴史」:今後 15 年間でほとんどの人が失業することになるのでしょうか?

ユヴァル・ノア・ハラリ氏(42歳)はもともとエルサレムでヘブライ語で歴史を教える大学教授だった。38...

AIオープンクラス | データのラベル付けについてはあまりご存じないのではないでしょうか?

人工知能の分野が日々急速な発展と進歩を遂げていることは疑いの余地がありません。携帯電話の電源を入れ、...

父親が8歳の娘にディープラーニングを説明する:11の事実

「ニューラル ネットワークは数を数えるのと同じくらい簡単です」、「畳み込み層は単なるバット シグナル...

2021年、人工知能は再び疫病との戦いで役割を果たすだろう

[[344407]] COVID-19パンデミックが世界を席巻する以前から、人工知能(AI)、特にそ...

人工知能のための 6 つの無料オープンソース ツール! 3 分で機械学習を始めましょう!

オープンソースでは、自分のアイデアがいかに独創的であったとしても、他の誰かがすでにそのコンセプトを実...

...

アルゴリズムの練習: 数独の基本解法

数独は紙とペンを使って遊ぶ論理ゲームです。プレイヤーは、9×9 のボード上の既知の数字に基づいて残り...

自動運転車が「すべての人を助ける」ことができるようになるには、15の課題を乗り越える必要がある

[[251351]]自動運転車の将来は、交通手段に革命を起こすと予測されていた電動スクーターの歴史と...

ジャック・マー、孫丑樹、劉強東、周紅一はいかにして「スマート時代」に突入したのか?

近年、人工知能は大手企業の重要な研究分野となり、「政府活動報告」にも記載されるようになりました。これ...

マイクロソフトとヤフーが検索広告契約を締結、Bingがヤフーの独占アルゴリズムに

7月29日、これまでの多くの噂がついに確認された。マイクロソフトとヤフーは10年間の検索協力契約を締...

人工知能の現状を理解するための12枚の写真

スタンフォード大学の人間中心の AI 研究所 (HAI) は毎年、人工知能の現状をまとめた膨大なデー...

インタビュアー: 「最後にアルゴリズムを書いてください。単一のリンクリストを使用して加算を実行してみましょう...」

[[286163]]質問: 空でない 2 つのリンク リストが与えられた場合、2 つの負でない整数...

あなたの孤独をAIが見抜く:その精度はなんと94%

[[344787]]あなたは本当に「孤独」ですか?かつて宇宙規模で流行したこの「国際孤独度スケール...

自動運転によって交通事故はどれくらい減らせるのでしょうか?

自動運転技術の発達により交通事故の発生率を減らすことができるのは確かです。しかし、交通事故を完全に避...

...