コンピュータの主な機能の 1 つは、データを解釈することです。一部のデータは他のデータよりも解析が容易であり、音声入力はまだ開発中です。しかし、近年この分野では多くの改善が行われており、その 1 つが、Firefox ブラウザを保守する財団である Mozilla のプロジェクトである DeepSpeech です。 DeepSpeech は音声をテキストに変換するコマンドとライブラリであり、音声入力をテキストに変換する必要のあるユーザーと、アプリケーションに音声入力を提供したい開発者の両方に役立ちます。 DeepSpeechをインストールするDeepSpeech はオープンソースであり、Mozilla Public License (MPL) に基づいてリリースされています。ソースコードは GitHub ページからダウンロードできます。 インストールするには、まず Python の仮想環境を作成します。 $ python3 -m pip インストール deepspeech --user DeepSpeech は機械学習に依存しています。自分でトレーニングすることもできますが、最初に開始するときに事前トレーニング済みのモデル ファイルをダウンロードするのが最も簡単です。 $ mkdir ディープスピーチ ユーザーアプリケーションDeepSpeech を使用すると、音声録音をテキストに書き起こすことができます。最適な条件下できれいに録音された音声から、最良の結果が得られます。ただし、いざというときには、どんな録音でも試すことができ、最終的には手動で書き起こす必要があるものになる可能性があります。 これをテストするには、「これはテストです。Hello world、これはテストです」という簡単なフレーズを含むオーディオ ファイルを録音します。オーディオを DeepSpeech フォルダーで、モデル ファイル、スコアラー ファイル、オーディオを指定して文字起こしを開始します。 $ deepspeech --model deepspeech*pbmm \ 標準出力(端末)に出力します。 これはテストです こんにちは世界 これはテストです
$ deepspeech --model deepspeech*pbmm \ これは各単語をタイムスタンプとともにレンダリングします。 { 開発者DeepSpeech は、録音済みの音声を書き起こすだけのコマンドではありません。また、これを使用してオーディオ ストリームをリアルタイムで処理することもできます。 GitHubリポジトリDeepSpeech-examplesには、Android向けのJavaScript、Python、C#、Javaなどのさまざまなコードが含まれています。 大変な作業のほとんどはすでに行われているため、DeepSpeech の統合は通常、DeepSpeech ライブラリを参照して、ホスト デバイスからオーディオを取得する方法を知るだけで済みます (これは通常、Linux の 音声認識開発者にとって、アプリで音声認識を有効にすることは単なる楽しいトリックではなく、運動障害のある人、視覚障害のある人、慢性的にマルチタスクを行う人にとってアプリをより使いやすくする重要なアクセシビリティ機能です。ユーザーにとって、DeepSpeech は音声ファイルをテキストに変換できる便利な文字起こしツールです。どのようなユースケースでも、DeepSpeech を試してみて、それが何をもたらすかを確認してください。 |
<<: 人工知能が雪の結晶をリアルタイムで捉え、約700人の足跡を追跡可能に
海外メディアの報道によると、AI専門家のアンドリュー・ン氏はIEEEに対し、ディープラーニングの今後...
Meta-Transformer は、自然言語、画像、ポイント クラウド、オーディオ、ビデオ、時系列...
「なぜ OpenAI の最終目標は AGI なのでしょうか? AGI とは何ですか?」 ChatG...
現在、ナビゲーションや通信などの技術が継続的に進歩し、ドローンの開発はより成熟し、業界の規模も拡大し...
LLaMA アダプタが完全にロック解除されました。一般的なマルチモーダル ベース モデルとして、画像...
最近、アクセンチュアは「メタバースで出会う:テクノロジーとエクスペリエンスの連続体のビジネスを再構築...
過去2年間で、LAION-5B、Stable Diffusion、DALL-E 2、ControlN...
Zhongcheng が翻訳した記事にはタグが付けられています。ユーザーはタグに基づいて興味のある記...
最新の KDnuggets 調査では、データ サイエンティストの実際の業務で最もよく使用されるアルゴ...
私たちが目を覚ましたとき、機械学習コミュニティは大騒ぎしていました。最新の研究により、GPT-3 に...
[[334141]]誰でも編集できるオンライン百科事典である Wikipedia では、各エントリを...
山東省寿光市は中国の有名な野菜生産地です。そこには野菜温室がいくつあるのでしょうか? 機械で数えてみ...
北京、2021 年 12 月 3 日 -エンタープライズ自動化ソフトウェア企業である UiPath ...