これら 5 つのオープンソース ソフトウェアを使用すると、音声からテキストへの変換が簡単になります。

これら 5 つのオープンソース ソフトウェアを使用すると、音声からテキストへの変換が簡単になります。

音声テキスト変換(STT)システムは、話した言葉をテキストに変換できる方法です。私たちがよく使うWeChatチャットの音声テキスト変換機能など、幅広い用途があります。

これまで、音声テキスト変換技術はプロプライエタリなソフトウェアとライブラリが主流で、オープンソースの代替手段は存在しなかったか、非常に限られていました。しかし、この状況は変わりました。今日では、多くのオープンソースの音声テキスト変換ツールとライブラリを使用できます。今日は、5 つの便利なオープンソースの音声認識ライブラリを紹介します。

1. DeepSpeechプロジェクト

[[285482]]

これは Mozilla によって開発された、TensorFlow 機械学習フレームワークを非機能化に使用した、100% 無料のオープンソースの音声テキスト変換ライブラリです。

これを使用して、音声テキスト変換を強化するための独自のトレーニング モデルを構築したり、ニーズに応じて他の言語を導入したり、TensorFlow 上の他の機械学習プロジェクトに簡単に統合したりすることもできます。唯一残念なのは、このプロジェクトが現在デフォルトで英語のみをサポートしていることです。

また、Python (3.6) などの複数の言語もサポートしています。実行は非常に簡単です:

  1. pip3 ディープスピーチをインストール
  2. deepspeech --model model/output_graph.pbmm --alphabet model/alphabet.txt --lm model/lm.binary --trie model/trie --audio my_audio_file.wav

npm を使用してインストールすることもできます:

  1. npm インストール deepspeech

最近、DeepSpeech は Github Trending の週間リストにも掲載されました。

Githubアドレス: https://github.com/mozilla/DeepSpeech

2. カルディ

Kaldi は、Apache Public License に従って C++ で記述され、Windows、macOS、Linux をサポートするオープンソースの音声認識ソフトウェアであり、2009 年にリリースされました。

他の音声認識ソフトウェアと比較すると、Kaldi の主な特徴は拡張性とモジュール性です。コミュニティは多数のサードパーティ モジュールを提供しています。Kaldi はディープ ニューラル ネットワークもサポートしており、Web サイトで完全な使用方法のドキュメントを提供しています。

コードは主に C++ で書かれていますが、Bash および Python スクリプトでラップされています。したがって、基本的な音声テキスト変換機能を実装したいだけであれば、Python または Bash を使用して簡単に行うことができます。

プロジェクトのホームページ: http://kaldi-asr.org/

3. ジュリアス

これはおそらく、これまでに作成された音声認識ソフトウェアの中で最も古いものの 1 つです。京都大学が 1991 年に開発し、2005 年に独立したプロジェクト チームに引き渡しました。

Julius の主な特徴としては、リアルタイム STT の実行機能、低メモリ使用量 (20,000 語で 64 MB 未満)、ベスト単​​語 N ベスト単語と単語グラフの出力機能、サーバーユニットとしての実行機能などが挙げられます。このソフトウェアは主に学術機関や研究機関向けに設計されています。これは C で書かれており、Linux、Windows、macOS、さらには Android (スマートフォン) でも動作します。

現在、英語と日本語のみをサポートしています。ソフトウェアは Linux ディストリビューションのリポジトリに簡単にインストールできます。パッケージ マネージャーで julius パッケージを検索するだけです。

プロジェクトのホームページ: https://github.com/julius-speech/julius

4. Wav2Letter++

Wav2Letter++ は、Facebook の AI 研究チームによって今年リリースされたオープンソースの音声認識ソフトウェアです。コードは BSD ライセンスに基づいてリリースされています。 Facebook は、自社のウェアハウスを「現在利用できる最も高速かつ最先端の音声認識システム」と表現しており、このツールが構築されているコンセプトにより、デフォルトでパフォーマンスが最適化されています。Wav2Letter++ は、Facebook の最新の機械学習ライブラリでもある FlashLight をベースに構築されています。

Wav2Letter++ を使用するには、まずアルゴリズムをトレーニングするために、必要な言語のトレーニング モデルを構築する必要があります。どの言語 (英語を含む) にも事前トレーニング済みのモデルはありません。これは、機械学習駆動型のテキストから音声への変換ツールにすぎません。C++ で記述されているため、Wav2Letter++ という名前が付けられています。

プロジェクトのホームページ: https://github.com/facebookresearch/wav2letter

5. ディープスピーチ2

Baidu の研究者たちは、独自の音声テキスト変換エンジン DeepSpeech2 の開発にも取り組んでいます。これは、「PaddlePaddle」ディープラーニング フレームワークを使用して、英語と中国語の音声をテキストに変換するエンドツーエンドのオープン ソース エンジンです。このプロジェクトは BSD ライセンスの下でリリースされています。

エンジンは、任意のモデルと任意の言語でトレーニングできます。モデルはコードと一緒に配布されません。他のソフトウェアと同様に、自分で構築する必要があります。 DeepSpeech2 のソース コードは Python で記述されているため、Python を使用している場合はすぐに使い始めることができます。

プロジェクトアドレス: https://github.com/PaddlePaddle/DeepSpeech

音声認識の分野では、Google や IBM などのプロプライエタリ ソフトウェア大手が依然として大きなシェアを占めています (両社は、この目的のために独自のクローズド ソースの商用サービスを提供しています) が、オープン ソースの代替手段も有望です。これら 5 つのオープン ソース音声認識エンジンを使用すると、独自のアプリケーションを構築できます。これらのエンジンを使用したことがありますか?

<<:  国内人材レポート:機械学習エンジニアの平均給与は3万元近くで、トップクラスのエンジニアは年間100万元を稼ぐこともできる

>>:  MITとIBMが共同で「コンピュータービジョンの黄金時代に備える」ための新しいデータセットを発表

ブログ    
ブログ    
ブログ    

推薦する

もう一つの機械学習モデル説明ツール: Shapash

シャパシュとはモデルの解釈可能性と理解可能性は、多くの研究論文やオープンソース プロジェクトの焦点と...

人工知能はソフトウェア開発業界にどのような影響を与えるでしょうか? AIはクリエイティブな労働者に取って代わることはできない

AI業界はクリエイティブなソフトウェア開発者を満足させることは決してできないでしょう。このテクノロジ...

ガートナーは、2025年までにクラウドデータセンターの半数がAI機能を備えたロボットを導入すると予測している。

ガートナーの予測によると、2025年までにクラウドデータセンターの半数が人工知能(AI)と機械学習(...

...

...

...

医療AIの深淵:まだ解決すべき大きな問題

5Gに加えて、人工知能は今年も引き続きホットな話題です。筆者は最近、医療人工知能のコンテストを間近で...

...

これら4つの業界は今後5年間で大きな利益を得るだろう

[[261735]] [51CTO.com クイック翻訳] アイリーン・リーはカウボーイ・ベンチャー...

Web攻撃検出のための機械学習の深層実践

1. 概要1. 従来のWAFの問題点従来の WAF は、ルールとブラックリストおよびホワイトリストに...

中国のAI臨床診断がネイチャー誌に初掲載:71人の専門家が人間の医師を上回る精度の報告書を寄稿

[[257228]] 【新知能紹介】中国内外の科学者71人が共同で、検査結果を検知し、医師と同じくら...

人工知能はますます急速に発展しています。将来、人工知能は人間に取って代わるのでしょうか?

人工知能の発展は人類の進化に似ていますが、そのプロセスはより短いものです。人間は自らの知恵を駆使して...

5Gで「選ばれる」分野!自動運転バスがあなたのところにやって来ます

自動運転タクシー、バス、道路清掃車、物流配送車... 自動運転技術の急速な発展により、これらの無人車...

...

高齢化社会に積極的に対応、サービスロボットがトレンドを活用

統計によると、2021年には65歳以上の高齢者人口が2億人を超え、総人口の14.2%を占める。家庭用...