みなさんこんにちは。私はFeng Kiteです オーディオおよびビデオ ファイル内のオーディオをテキスト コンテンツに変換することは 2 年前は困難でしたが、現在では数分で解決できます。 すでにいくつかの企業では、DouyinやKuaishouなどのショートビデオプラットフォーム上のすべてのビデオを検索してトレーニングデータを取得し、音声をテキストに抽出してビッグデータモデルのトレーニングコーパスとして使用していると聞きました。 ビデオまたはオーディオ ファイルをテキストに変換する必要がある場合は、現在提供されているオープン ソース ソリューションを試してみるとよいでしょう。たとえば、映画やテレビのセリフが出てくる時間を検索します。 さっそく本題に入りましょう。 ささやきこのソリューションは、OpenAI のオープンソース Whisper であり、もちろん Python で書かれています。いくつかのパッケージをインストールし、数行のコードを書いて、少し待つだけで (マシンのパフォーマンスとオーディオとビデオの長さによって異なります)、最終的なテキスト コンテンツが表示されます。とても簡単です。 GitHubリポジトリアドレス: https://github.com/openai/whisper ファストウィスパー非常にシンプルですが、プログラマーにとってはまだ簡潔さが足りません。結局のところ、プログラマーは非常に怠惰です。Whisper はインストールと呼び出しが簡単ですが、それでも PyTorch、ffmpeg、さらには Rust を個別にインストールする必要があります。 そこで、より高速でシンプルな Fast-Whisper が登場しました。 Fast-Whisper は Whisper の単純なラッパーではなく、Transformer モデル用の高速推論エンジンである CTranslate2 を使用して OpenAI の Whisper モデルを再実装したものです。 まとめると、Whisper よりも高速です。公式発表では、Whisper よりも 4 ~ 8 倍高速であるとされています。 GPU だけでなく CPU もサポートしており、私の安物の Mac でも使用できます。 GitHub リポジトリ アドレス: https://github.com/SYSTRAN/faster-whisper 使い方はたったの2ステップです。
はい、とても簡単です。 何ができるでしょうか?たまたま、私の友人が短いビデオを作ってチキンスープ文学のビデオを投稿したいと言っていました。チキンスープは有名人のインタビュービデオから生まれました。しかし、彼はビデオ全体を視聴したくなかったので、できるだけ早くテキストコンテンツをダウンロードしてからテキストを読みたいと考えました。テキストを読む方がビデオを見るよりもはるかに速く、検索もできるからです。 言いたいのは、動画を最後まで見るという誠意さえなければ、どうやってアカウントをうまく管理できるのかということです。 そこで私は Fast-Whisper を使って彼のために作ってみました。 クライアントクライアントは Swift を使用し、Mac のみをサポートします。
、再生時間 00:10 サーバサーバー側はもちろん Python ですが、これは Flask でパッケージ化されて外部に公開されます。 上記は議論を刺激するための単なる小さなツールであり、あなた自身の使用には十分です。 |
>>: マイクロソフトが新たなAIアクセス原則を発表、同社史上最大の投資計画
[[211140]]人工知能は、まず知覚段階、次に認知段階の 2 つの段階に分かれています...
[[401594]]過去 100 年間の最大の技術革新を思い起こすと、すぐに何が思い浮かびますか?...
【51CTO.comオリジナル記事】 1. 背景テキスト マッチングは、自然言語処理における中核的な...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
2020年は紆余曲折の多い年であり、ドローン開発にとっては革新と変化の年です。今年、我が国のドロー...
初めての15分間のスピーチの準備に2か月を要し、卒業後すぐにGoogleに入社したものの歯車の一部に...
生成AIの分野で、新たな重量級の製品が登場しました。月曜日の夜、ミストラルAIは「フラッグシップ」の...
人工知能の黄金の10年基礎技術は基本的に安定しており、拡大シナリオは流行の10年を迎えています。中国...
NK01 (Nameless Knight of One) は、Beijing Zhizao Fut...
4月29日、テンセントのAIモデル「Hunyuan」がCLUE(中国語言語理解評価コレクション)部門...
私たちは機械学習アルゴリズムの開発に多くの時間を費やしました。しかし、導入後にアルゴリズムのパフォー...
昨日、五菱科技は北京で新製品発表会を開催し、多感覚インタラクション機能を備えた「Luka Hero」...
サンノゼ — 2024年2月20日— F5(NASDAQ: FFIV)は先日、アプリケーションセキュ...