AI仮想読書機、ジェスチャー認識+OCR+音声TTS

AI仮想読書機、ジェスチャー認識+OCR+音声TTS

こんにちは、みんな。

最近はAIGCのコンテンツを研究しており、公式アカウントのコンテンツを長い間更新していませんでした。

本日、皆さんにご紹介したいのは、コンピュータービジョンテクノロジーを使用して仮想読書機を作成する方法です。

写真

技術的には非常にシンプルですが、エンジニアリングの実装では注意が必要な詳細がいくつかあります。

1. アイデア

OpenCVはビデオストリームを読み取り、人差し指の座標を識別します
人差し指の座標を頂点として長方形のボックスを描きます
四角形をキャプチャし、OCRモデルに入力してテキストを認識します。
音声合成エンジンTTSを使用してテキストを音声に合成します
音声再生モジュールを呼び出してサウンドを再生します

2. 詳細

OpenCV でビデオストリームを読み取り、mediapipe で人差し指の座標を特定します。以前の共有記事にコードがあるので、ここでは掲載しません。処理が必要な詳細に焦点を当てます。

詳細1. 2本の人差し指が検出されると、時間間隔を設定する必要があります。これにより、長方形を調整するための時間を確保できます。

 if self.point_start_time is None: # 首次同时检测到左右食指self.point_start_time = time.time() else: time_del = time.time() - self.point_start_time if time_del > 3:

写真

詳細2. 重複認識を防ぐためのマークを設定する

長方形が決定されたら、マークがない場合、各フレームが認識のために OCR モデルに送信され、その後サウンドが再生され、プログラムがフリーズします。

一度に 1 つの四角形だけが処理されるようにするには、フラグを設定する必要があります。

 if not self.is_processing: # 开始识别self.is_processing = True # ocr识别选定的图片t, b = min(p0_y, p1_y), max(p0_y, p1_y) l, r = min(p0_x, p1_x), max(p0_x, p1_x) selected_frame = frame[t:b, l:r] # ocr识别文字text = self.ocr_rec(selected_frame) # 文本转语音voice = self.tts.get_speech(text) # 播放语音self.player.play(voice, False, notallow=lambda: self.stop_play()) self.pc_time = time.time()

詳細3. マルチスレッド

オーディオを再生するときは、マルチスレッド再生を使用する必要があります。そうしないと、メインプログラムが停止し、オーディオの再生が完了するまで実行が継続されなくなります。

認識するコンテンツが多く、再生時間が長い場合、プログラムは長時間停止し、応答しなくなります。

3. その他の技術

OCR および TTS テクノロジについては、以前の記事で紹介しました。

OCR の場合、Paddle フレームワークと事前トレーニング済みモデルを直接使用できます。

Mac を使用している場合は、他のプログラムをインストールせずに、システムに組み込まれている TTS を使用できます。 Windowsであれば、Microsoftのedge-ttsが使えます。エッジ TTS 効果は、ほとんどの TTS よりもはるかに強力です。

また、d-id、wav2lip、sadtalker を使用してリップ合成を実現し、静止画像にテキストコンテンツを読み取らせることもできます。

<<: AI言語モデルのオープンソース化による10のプラスとマイナスの影響

>>: バンク・オブ・アメリカ証券：ChatGPT iOSクライアントのダウンロード数は6月に38%減少

AI天気予報には依然として人間の介入が必要

AI天気予報には依然として人間の介入が必要

ブログ

ブログ

データマイニングの10の主要なアルゴリズムを、初心者でも一目で理解できるように平易な言葉で説明しました。

データマイニングの10の主要なアルゴリズムを、初心者でも一目で理解できるように平易な言葉で説明しました。

ブログ

毎日のアルゴリズム: バランスのとれた二分木

毎日のアルゴリズム: バランスのとれた二分木

ブログ

分散システム設計のための負荷分散アルゴリズム

分散システム設計のための負荷分散アルゴリズム

ブログ

生成AIにおける新たな高収入の仕事

生成AIにおける新たな高収入の仕事

ブログ

AI に携わる人が Python を選ぶ理由は何でしょうか?

AI に携わる人が Python を選ぶ理由は何でしょうか?

ブログ

ブログ

エッジ AI で建物のシステム障害を回避

エッジ AI で建物のシステム障害を回避

ブログ

ブログ

推薦する

写真の中のキャラクターを動かしたり歌わせたりできます！このAIブラックテクノロジーは台無しになった

最近、動画サイトをよく見ている人は、とても不思議でワクワクするものを見たことがあるかもしれません。具...

マスク氏とザッカーバーグ氏が公然と戦いを挑む！億万長者たちが八角形のケージで死闘を繰り広げる、メタの広報担当者「冗談じゃない」

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載...

ニューラルネットワークはとてもシンプルです。機械学習の入門書をご紹介します | 役立つ情報

[[331060]]この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI...

AIを活用して、ナスダックは金融業界向けのSaaSプロバイダーに変革したいと考えている

Nasdaq の CIO 兼 CTO である Brad Peterson 氏は、10 年以上にわたっ...

...

...

CMU が Gemini、GPT-3、Mistral8×7B を権威ある方法で比較します。 GPT-3.5は依然としてGeminiに勝っているが、オープンソースモデル間のギャップは依然として大きい

Google の最近の Gemini のリリースは大きな騒ぎを引き起こしました。結局のところ、Ope...

機械学習に関する7つの誤解

ディープラーニングを学ぶ過程では、私たちが当たり前だと思っているさまざまな噂やさまざまな「こだわり」...

RC4 攻撃: RC4 暗号化アルゴリズムは SSL/TLS を保護できますか?

RC4 暗号化アルゴリズムで最近発見された問題について説明していただけますか? HTTPS 接続の...

AI 開発者: AI 分野を選択するには?

機械学習アルゴリズムは、より広範で信頼性の高いデータをリアルタイムで提供することができ、インテリジェ...

愚かではないチャットボットを構築したいですか? 6つの実用的なガイドラインをご紹介します

AppleがSiriを発表してから7年、そしてジェフ・ベゾスがスタートレックにインスピレーションを得...

Facebookは視覚障害者向けに写真の説明を改善するためにAIを活用

[[377490]]海外メディアの報道によると、フェイスブックは1月21日、視覚障害のあるユーザー向...

人工知能はまだ長い道のりを歩んでいる

過去2年間で、「スマートホーム」はほぼすべての家電メーカーが必ず話題にし、自社製品になくてはならない...

...

機械学習のテストセットをスケールアップする方法

[[387235]]テストセットのヒルクライミングは、トレーニングセットに影響を与えたり、予測...