これら 5 つのオープンソース ソフトウェアを使用すると、音声からテキストへの変換が簡単になります。

これら 5 つのオープンソース ソフトウェアを使用すると、音声からテキストへの変換が簡単になります。

音声テキスト変換(STT)システムは、話した言葉をテキストに変換できる方法です。私たちがよく使うWeChatチャットの音声テキスト変換機能など、幅広い用途があります。

これまで、音声テキスト変換技術はプロプライエタリなソフトウェアとライブラリが主流で、オープンソースの代替手段は存在しなかったか、非常に限られていました。しかし、この状況は変わりました。今日では、多くのオープンソースの音声テキスト変換ツールとライブラリを使用できます。今日は、5 つの便利なオープンソースの音声認識ライブラリを紹介します。

1. DeepSpeechプロジェクト

[[285482]]

これは Mozilla によって開発された、TensorFlow 機械学習フレームワークを非機能化に使用した、100% 無料のオープンソースの音声テキスト変換ライブラリです。

これを使用して、音声テキスト変換を強化するための独自のトレーニング モデルを構築したり、ニーズに応じて他の言語を導入したり、TensorFlow 上の他の機械学習プロジェクトに簡単に統合したりすることもできます。唯一残念なのは、このプロジェクトが現在デフォルトで英語のみをサポートしていることです。

また、Python (3.6) などの複数の言語もサポートしています。実行は非常に簡単です:

  1. pip3 ディープスピーチをインストール
  2. deepspeech --model model/output_graph.pbmm --alphabet model/alphabet.txt --lm model/lm.binary --trie model/trie --audio my_audio_file.wav

npm を使用してインストールすることもできます:

  1. npm インストール deepspeech

最近、DeepSpeech は Github Trending の週間リストにも掲載されました。

Githubアドレス: https://github.com/mozilla/DeepSpeech

2. カルディ

Kaldi は、Apache Public License に従って C++ で記述され、Windows、macOS、Linux をサポートするオープンソースの音声認識ソフトウェアであり、2009 年にリリースされました。

他の音声認識ソフトウェアと比較すると、Kaldi の主な特徴は拡張性とモジュール性です。コミュニティは多数のサードパーティ モジュールを提供しています。Kaldi はディープ ニューラル ネットワークもサポートしており、Web サイトで完全な使用方法のドキュメントを提供しています。

コードは主に C++ で書かれていますが、Bash および Python スクリプトでラップされています。したがって、基本的な音声テキスト変換機能を実装したいだけであれば、Python または Bash を使用して簡単に行うことができます。

プロジェクトのホームページ: http://kaldi-asr.org/

3. ジュリアス

これはおそらく、これまでに作成された音声認識ソフトウェアの中で最も古いものの 1 つです。京都大学が 1991 年に開発し、2005 年に独立したプロジェクト チームに引き渡しました。

Julius の主な特徴としては、リアルタイム STT の実行機能、低メモリ使用量 (20,000 語で 64 MB 未満)、ベスト単​​語 N ベスト単語と単語グラフの出力機能、サーバーユニットとしての実行機能などが挙げられます。このソフトウェアは主に学術機関や研究機関向けに設計されています。これは C で書かれており、Linux、Windows、macOS、さらには Android (スマートフォン) でも動作します。

現在、英語と日本語のみをサポートしています。ソフトウェアは Linux ディストリビューションのリポジトリに簡単にインストールできます。パッケージ マネージャーで julius パッケージを検索するだけです。

プロジェクトのホームページ: https://github.com/julius-speech/julius

4. Wav2Letter++

Wav2Letter++ は、Facebook の AI 研究チームによって今年リリースされたオープンソースの音声認識ソフトウェアです。コードは BSD ライセンスに基づいてリリースされています。 Facebook は、自社のウェアハウスを「現在利用できる最も高速かつ最先端の音声認識システム」と表現しており、このツールが構築されているコンセプトにより、デフォルトでパフォーマンスが最適化されています。Wav2Letter++ は、Facebook の最新の機械学習ライブラリでもある FlashLight をベースに構築されています。

Wav2Letter++ を使用するには、まずアルゴリズムをトレーニングするために、必要な言語のトレーニング モデルを構築する必要があります。どの言語 (英語を含む) にも事前トレーニング済みのモデルはありません。これは、機械学習駆動型のテキストから音声への変換ツールにすぎません。C++ で記述されているため、Wav2Letter++ という名前が付けられています。

プロジェクトのホームページ: https://github.com/facebookresearch/wav2letter

5. ディープスピーチ2

Baidu の研究者たちは、独自の音声テキスト変換エンジン DeepSpeech2 の開発にも取り組んでいます。これは、「PaddlePaddle」ディープラーニング フレームワークを使用して、英語と中国語の音声をテキストに変換するエンドツーエンドのオープン ソース エンジンです。このプロジェクトは BSD ライセンスの下でリリースされています。

エンジンは、任意のモデルと任意の言語でトレーニングできます。モデルはコードと一緒に配布されません。他のソフトウェアと同様に、自分で構築する必要があります。 DeepSpeech2 のソース コードは Python で記述されているため、Python を使用している場合はすぐに使い始めることができます。

プロジェクトアドレス: https://github.com/PaddlePaddle/DeepSpeech

音声認識の分野では、Google や IBM などのプロプライエタリ ソフトウェア大手が依然として大きなシェアを占めています (両社は、この目的のために独自のクローズド ソースの商用サービスを提供しています) が、オープン ソースの代替手段も有望です。これら 5 つのオープン ソース音声認識エンジンを使用すると、独自のアプリケーションを構築できます。これらのエンジンを使用したことがありますか?

<<:  国内人材レポート:機械学習エンジニアの平均給与は3万元近くで、トップクラスのエンジニアは年間100万元を稼ぐこともできる

>>:  MITとIBMが共同で「コンピュータービジョンの黄金時代に備える」ための新しいデータセットを発表

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

百度、検索エンジンアルゴリズムを調整して微博コンテンツのインデックスを強化

情報筋によると、検索エンジンの百度は先週、検索アルゴリズムを調整し、微博のコンテンツのインデックスを...

人工知能は失業を引き起こすでしょうか?幸運の裏返し

現在ほとんどの人が行っている仕事が、将来ある日突然完全に消滅したり、永遠に忘れ去られたりするのではな...

...

ルカン、アンドリュー・ン、その他370人以上が共同書簡に署名:AIの厳格な管理は危険、オープン化がその解毒剤

近年、AIをどのように監督するかについての議論はますます白熱しており、有力者の意見も大きく異なってい...

AIが疫病と闘う:国家AIパイロットゾーンがその実力を発揮

ウイルス分析、ワクチン開発、医薬品研究開発から診断支援、スマート温度測定、AI消毒まで…新型コロナウ...

...

米国の光学半導体ウエハ検査機はAIとビッグデータを統合し動作速度を3倍に向上

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ロボティック プロセス オートメーションについて知っておくべき 10 のこと

[[381496]]ロボティック プロセス オートメーションにより、ワークフローが合理化され、レガシ...

fBox アルゴリズムを使用して、高度に隠蔽された詐欺ユーザーを検出する方法

[51CTO.com クイック翻訳] インターネットの活発な発展とインターネットユーザーの継続的な増...

AIからドローンまで: 4Gと5Gが未来の工場をどう変えるのか

英国の製造業はデジタル変革から大きな恩恵を受けるでしょう。インダストリー 4.0 に向けて進むにつれ...

自動生成された小さなデータセットを使用してエンコーディング LLM をトレーニングする方法

翻訳者 |李睿レビュー | Chonglou GPT-4 のような大規模言語モデル (LLM) はソ...

コンテンツ推奨シナリオにおける自己教師学習の応用

背景機械学習コミュニティでは、教師なし学習(または自己教師あり学習)は長い間、最も価値のある分野の ...

オープンソース! Gartner の 100 ページの機械学習ブックが無料でダウンロードできるようになりました。

今日の大企業は、産業化以来最大の変革を経験しています。人工知能は、産業や私たちの働き方、考え方、交流...

...

...