こんにちは、みんな。 最近はAIGCのコンテンツを研究しており、公式アカウントのコンテンツを長い間更新していませんでした。 本日、皆さんにご紹介したいのは、コンピューター ビジョン テクノロジーを使用して仮想読書機を作成する方法です。 写真 技術的には非常にシンプルですが、エンジニアリングの実装では注意が必要な詳細がいくつかあります。 1. アイデア
2. 詳細OpenCV でビデオストリームを読み取り、mediapipe で人差し指の座標を特定します。以前の共有記事にコードがあるので、ここでは掲載しません。処理が必要な詳細に焦点を当てます。 詳細1. 2本の人差し指が検出されると、時間間隔を設定する必要があります。これにより、長方形を調整するための時間を確保できます。 写真 詳細2. 重複認識を防ぐためのマークを設定する 長方形が決定されたら、マークがない場合、各フレームが認識のために OCR モデルに送信され、その後サウンドが再生され、プログラムがフリーズします。 一度に 1 つの四角形だけが処理されるようにするには、フラグを設定する必要があります。 詳細3. マルチスレッド オーディオを再生するときは、マルチスレッド再生を使用する必要があります。そうしないと、メイン プログラムが停止し、オーディオの再生が完了するまで実行が継続されなくなります。 認識するコンテンツが多く、再生時間が長い場合、プログラムは長時間停止し、応答しなくなります。 3. その他の技術OCR および TTS テクノロジについては、以前の記事で紹介しました。 OCR の場合、Paddle フレームワークと事前トレーニング済みモデルを直接使用できます。 Mac を使用している場合は、他のプログラムをインストールせずに、システムに組み込まれている TTS を使用できます。 Windowsであれば、Microsoftのedge-ttsが使えます。エッジ TTS 効果は、ほとんどの TTS よりもはるかに強力です。 また、d-id、wav2lip、sadtalker を使用してリップ合成を実現し、静止画像にテキスト コンテンツを読み取らせることもできます。 |
<<: AI言語モデルのオープンソース化による10のプラスとマイナスの影響
>>: バンク・オブ・アメリカ証券:ChatGPT iOSクライアントのダウンロード数は6月に38%減少
最近、動画サイトをよく見ている人は、とても不思議でワクワクするものを見たことがあるかもしれません。具...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[331060]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
Nasdaq の CIO 兼 CTO である Brad Peterson 氏は、10 年以上にわたっ...
Google の最近の Gemini のリリースは大きな騒ぎを引き起こしました。結局のところ、Ope...
ディープラーニングを学ぶ過程では、私たちが当たり前だと思っているさまざまな噂やさまざまな「こだわり」...
RC4 暗号化アルゴリズムで最近発見された問題について説明していただけますか? HTTPS 接続の...
機械学習アルゴリズムは、より広範で信頼性の高いデータをリアルタイムで提供することができ、インテリジェ...
AppleがSiriを発表してから7年、そしてジェフ・ベゾスがスタートレックにインスピレーションを得...
[[377490]]海外メディアの報道によると、フェイスブックは1月21日、視覚障害のあるユーザー向...
過去2年間で、「スマートホーム」はほぼすべての家電メーカーが必ず話題にし、自社製品になくてはならない...
[[387235]]テスト セットのヒル クライミングは、トレーニング セットに影響を与えたり、予測...