とても早いですね!わずか数分で、10行未満のコードでビデオ音声をテキストに変換します。

とても早いですね!わずか数分で、10行未満のコードでビデオ音声をテキストに変換します。

みなさんこんにちは。私はFeng Kiteです

オーディオおよびビデオ ファイル内のオーディオをテキスト コンテンツに変換することは 2 年前は困難でしたが、現在では数分で解決できます。

すでにいくつかの企業では、DouyinやKuaishouなどのショートビデオプラットフォーム上のすべてのビデオを検索してトレーニングデータを取得し、音声をテキストに抽出してビッグデータモデルのトレーニングコーパスとして使用していると聞きました。

ビデオまたはオーディオ ファイルをテキストに変換する必要がある場合は、現在提供されているオープン ソース ソリューションを試してみるとよいでしょう。たとえば、映画やテレビのセリフが出てくる時間を検索します。

さっそく本題に入りましょう。

ささやき

このソリューションは、OpenAI のオープンソース Whisper であり、もちろん Python で書かれています。いくつかのパッケージをインストールし、数行のコードを書いて、少し待つだけで (マシンのパフォーマンスとオーディオとビデオの長さによって異なります)、最終的なテキスト コンテンツが表示されます。とても簡単です。

GitHubリポジトリアドレス: https://github.com/openai/whisper

ファストウィスパー

非常にシンプルですが、プログラマーにとってはまだ簡潔さが足りません。結局のところ、プログラマーは非常に怠惰です。Whisper はインストールと呼び出しが簡単ですが、それでも PyTorch、ffmpeg、さらには Rust を個別にインストールする必要があります。

そこで、より高速でシンプルな Fast-Whisper が登場しました。 Fast-Whisper は Whisper の単純なラッパーではなく、Transformer モデル用の高速推論エンジンである CTranslate2 を使用して OpenAI の Whisper モデルを再実装したものです。

まとめると、Whisper よりも高速です。公式発表では、Whisper よりも 4 ~ 8 倍高速であるとされています。 GPU だけでなく CPU もサポートしており、私の安物の Mac でも使用できます。

GitHub リポジトリ アドレス: https://github.com/SYSTRAN/faster-whisper

使い方はたったの2ステップです。

  1. 依存パッケージをインストールする
pip install faster-whisper
  1. コードを書く、
 from faster_whisper import WhisperModel model_size = "large-v3" # Run on GPU with FP16 model = WhisperModel(model_size, device="cuda", compute_type="float16") # or run on GPU with INT8 # model = WhisperModel(model_size, device="cuda", compute_type="int8_float16") # or run on CPU with INT8 # model = WhisperModel(model_size, device="cpu", compute_type="int8") segments, info = model.transcribe("audio.mp3", beam_size=5) print("Detected language '%s' with probability %f" % (info.language, info.language_probability)) for segment in segments: print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

はい、とても簡単です。

何ができるでしょうか?

たまたま、私の友人が短いビデオを作ってチキンスープ文学のビデオを投稿したいと言っていました。チキンスープは有名人のインタビュービデオから生まれました。しかし、彼はビデオ全体を視聴したくなかったので、できるだけ早くテキストコンテンツをダウンロードしてからテキストを読みたいと考えました。テキストを読む方がビデオを見るよりもはるかに速く、検索もできるからです。

言いたいのは、動画を最後まで見るという誠意さえなければ、どうやってアカウントをうまく管理できるのかということです。

そこで私は Fast-Whisper を使って彼のために作ってみました。

クライアント

クライアントは Swift を使用し、Mac のみをサポートします。

  1. ビデオを選択します。
  2. 次に「テキストの抽出」をクリックすると、Python インターフェースが呼び出されるので、しばらく待つ必要があります。
  3. 解析されたテキストとその発生の開始時刻と終了時刻を読み込みます。
  4. 開始時間と終了イベントを選択します。
  5. 「エクスポート」ボタンをクリックすると、ビデオクリップがエクスポートされます。

、再生時間 00:10

サーバ

サーバー側はもちろん Python ですが、これは Flask でパッケージ化されて外部に公開されます。

 from flask import Flask, request, jsonify from faster_whisper import WhisperModel app = Flask(__name__) model_size = "large-v2" model = WhisperModel(model_size, device="cpu", compute_type="int8") @app.route('/transcribe', methods=['POST']) def transcribe(): # Get the file path from the request file_path = request.json.get('filePath') # Transcribe the file segments, info = model.transcribe(file_path, beam_size=5, initial_prompt="简体") segments_copy = [] with open('segments.txt', 'w') as file: for segment in segments: line = "%.2fs|%.2fs|[%.2fs -> %.2fs]|%s" % ( segment.start, segment.end, segment.start, segment.end, segment.text) segments_copy.append(line) file.write(line + '\n') # Prepare the response response_data = { "language": info.language, "language_probability": info.language_probability, "segments": [] } for segment in segments_copy: response_data["segments"].append(segment) return jsonify(response_data) if __name__ == '__main__': app.run(debug=False)

上記は議論を刺激するための単なる小さなツールであり、あなた自身の使用には十分です。

<<: 

>>:  マイクロソフトが新たなAIアクセス原則を発表、同社史上最大の投資計画

ブログ    

推薦する

顔認証の過去と現在の徹底分析

​​ [[211140]]​​人工知能は、まず知覚段階、次に認知段階の 2 つの段階に分かれています...

企業が AIoT に細心の注意を払うべきなのはなぜでしょうか?

[[401594]]過去 100 年間の最大の技術革新を思い起こすと、すぐに何が思い浮かびますか?...

Suning製品セマンティックリコールにおけるDSSMテキストマッチングモデルの適用

【51CTO.comオリジナル記事】 1. 背景テキスト マッチングは、自然言語処理における中核的な...

機械学習のバックボーン: モデル構築のためのインフラストラクチャ ツールは何ですか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

2020年を振り返ると、我が国のドローンは4つの新たな変化を遂げた。

2020年は紆余曲折の多い年であり、ドローン開発にとっては革新と変化の年です。今年、我が国のドロー...

Google に行ったが、ディープラーニングはできなかった。Facebook の Tian Yuandong が人生の課題と選択について語る

初めての15分間のスピーチの準備に2か月を要し、卒業後すぐにGoogleに入社したものの歯車の一部に...

...

ミストラルAIの新モデルはGPT-4をベンチマークしており、オープンソースではなくマイクロソフトと協力、ネットユーザー:当初の意図を忘れた

生成AIの分野で、新たな重量級の製品が登場しました。月曜日の夜、ミストラルAIは「フラッグシップ」の...

人工知能の基礎技術は成熟し、AIは今後10年間で私の見方を完全に変えた

人工知能の黄金の10年基礎技術は基本的に安定しており、拡大シナリオは流行の10年を迎えています。中国...

テンセントの「Hunyuan」AIモデルがCLUE分類リストの歴史的記録を更新

4月29日、テンセントのAIモデル「Hunyuan」がCLUE(中国語言語理解評価コレクション)部門...

無料の Python 機械学習コース 7: アルゴリズムのパフォーマンスが低い場合の対処方法

私たちは機械学習アルゴリズムの開発に多くの時間を費やしました。しかし、導入後にアルゴリズムのパフォー...

五菱科技は、知能絵本ロボット「ルカヒーロー」と「ルカベイビー」を発売し、シリーズA資金調達を獲得した。

昨日、五菱科技は北京で新製品発表会を開催し、多感覚インタラクション機能を備えた「Luka Hero」...

...

F5、AI時代のアプリケーションセキュリティの新たな革命をリード

サンノゼ — 2024年2月20日— F5(NASDAQ: FFIV)は先日、アプリケーションセキュ...