この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 これは今、Siriとコミュニケーションをとる最もファッショナブルな方法かもしれません—— 唇を動かすだけで、コントロールできます。 そうです、音を必要としないタイプです。 これはコーネル大学の中国チームの最新の研究結果である。 SpeeChin 、無音音声認識。 このような: 音がまったく聞こえない状態で、彼が何を言っているかわかりますか? (答えは記事の最後で明らかにされます) しかし、SpeeChinのおかげで、Siri、Alexaなどが認識できるようになり、中国語と英語もサポートされるようになりました。 「この瞬間、音よりも沈黙の方が良い」という感覚があります。 話さずに音声アシスタントを制御するにはどうすればいいですか?コーネル大学チームが開発したSpeeChinは、実は魔法のネックレスです。 このネックレスを身に着けると、サイレントボイスコントロールへの扉が開かれます。 たとえば、コンピューターに「次へ」と静かに言うと、音楽は自動的に次の曲に切り替わります。 単語が簡単すぎると思うかもしれませんが、心配しないでください。今度は難易度を上げてみましょう。 「テイラー・スウィフトに切り替えて。」 SpeeChinは完全な文章でも正確に認識できることがわかります。 この「サイレント識別」ネックレスの鍵は、ネックレスの下に設置された赤外線カメラにあります。 人の首や顔の皮膚の変形画像を撮影し、「口」からどのような命令が伝えられているかを分析して識別できる。 さらに、このネックレスは英語だけでなく中国語も認識できます (北京語)も我慢できます。 最初の実験では、20人がテストに参加し、そのうち10人は英語を話し、残りの10人は中国語を話しました。 研究者らは、テスト参加者に、数字、対話型コマンド、音声アシストコマンド、句読点コマンド、ナビゲーションコマンドなど、英語と中国語で数十のコマンドを発行するよう依頼した。 最終的な実験結果では、「サイレント認識」の精度はそれぞれ90.5%と91.6%に達したことが示されました。 コーネル大学の中国チームこの研究はコーネル大学からのもので、第一著者はRuidong Zhang氏です。 そのうち、Cheng Zhang氏が本研究の責任著者である。 彼はコーネル大学情報科学部の助教授です。彼の研究は、インタラクション、健康センシング、活動認識などのさまざまな応用分野における現実世界の課題に対処するために、人体とその周囲に関する情報を取得する方法に焦点を当てています。 この研究の第一著者は、清華大学で学士号を取得した張程教授の博士課程の学生、張瑞東氏である。 彼の研究対象は、人間とコンピュータのインタラクションとユビキタスコンピューティングで、特にインタラクティブな体験を促進し、人間の行動に対する理解を深めるための新しいタイプのウェアラブルデバイスの構築です。 なぜこの仕事をしたいのか、Ruidong Zhang さんは次のように説明した。
最後に、オープニング GIF の答えを明らかにしましょう。 正解でしたか? |
<<: 2022年にJAXを使うべきでしょうか? GitHubには16,000個のスターがあるが、この若いツールは完璧ではない
>>: ISPの廃止はテスラの「純粋なビジョン路線」にとって重要なステップ
統計は私たちの日常生活のいたるところに存在し、すべての人や物事は統計を使って説明できるようです。人類...
偉大な将軍の名声の裏には、数え切れないほどの兵士たちの援助がある。この声明は自動運転の分野にも当ては...
過去 10 年間、データ サイエンスと機械学習の分野では驚異的な進歩が見られました。ディープラーニン...
9月10日、ロチェスター大学の研究者らは、パーキンソン病患者が数分で遠隔から症状の重症度を評価できる...
今日、あらゆる業界にとって、「マルウェアを効果的に検出する方法」は、ネットワーク セキュリティに関す...
100TOPS以上の性能を持つ車載グレードのコンピューティングチップが2022年に量産され、車両に...
Google Gemini はどれほど強力ですか?カーネギーメロン大学は、専門的かつ客観的な第三者...
ディープラーニングにはビッグデータと大規模な計算能力に対する厳しい要件があるため、モデルトレーニング...
リアルタイムサービスの波が徐々に私たちの日常生活に浸透するにつれ、コンピューティングインフラストラク...
AI テクノロジーがスマート ホームをどのように改善しているかについて学びます。人工知能とは何ですか...