言葉を発することなくSiriに命令しましょう！清華大学の卒業生が「無言言語認識」ネックレスを開発

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

これは今、Siriとコミュニケーションをとる最もファッショナブルな方法かもしれません——

唇を動かすだけで、コントロールできます。

そうです、音を必要としないタイプです。

これはコーネル大学の中国チームの最新の研究結果である。 SpeeChin 、無音音声認識。

このような：

音がまったく聞こえない状態で、彼が何を言っているかわかりますか？（答えは記事の最後で明らかにされます）

しかし、SpeeChinのおかげで、Siri、Alexaなどが認識できるようになり、中国語と英語もサポートされるようになりました。

「この瞬間、音よりも沈黙の方が良い」という感覚があります。

話さずに音声アシスタントを制御するにはどうすればいいですか?

コーネル大学チームが開発したSpeeChinは、実は魔法のネックレスです。

このネックレスを身に着けると、サイレントボイスコントロールへの扉が開かれます。

たとえば、コンピューターに「次へ」と静かに言うと、音楽は自動的に次の曲に切り替わります。

単語が簡単すぎると思うかもしれませんが、心配しないでください。今度は難易度を上げてみましょう。

「テイラー・スウィフトに切り替えて。」

SpeeChinは完全な文章でも正確に認識できることがわかります。

この「サイレント識別」ネックレスの鍵は、ネックレスの下に設置された赤外線カメラにあります。

人の首や顔の皮膚の変形画像を撮影し、「口」からどのような命令が伝えられているかを分析して識別できる。

さらに、このネックレスは英語だけでなく中国語も認識できます（北京語）も我慢できます。

最初の実験では、20人がテストに参加し、そのうち10人は英語を話し、残りの10人は中国語を話しました。

研究者らは、テスト参加者に、数字、対話型コマンド、音声アシストコマンド、句読点コマンド、ナビゲーションコマンドなど、英語と中国語で数十のコマンドを発行するよう依頼した。

最終的な実験結果では、「サイレント認識」の精度はそれぞれ90.5%と91.6%に達したことが示されました。

コーネル大学の中国チーム

この研究はコーネル大学からのもので、第一著者はRuidong Zhang氏です。

そのうち、Cheng Zhang氏が本研究の責任著者である。

彼はコーネル大学情報科学部の助教授です。彼の研究は、インタラクション、健康センシング、活動認識などのさまざまな応用分野における現実世界の課題に対処するために、人体とその周囲に関する情報を取得する方法に焦点を当てています。

この研究の第一著者は、清華大学で学士号を取得した張程教授の博士課程の学生、張瑞東氏である。

彼の研究対象は、人間とコンピュータのインタラクションとユビキタスコンピューティングで、特にインタラクティブな体験を促進し、人間の行動に対する理解を深めるための新しいタイプのウェアラブルデバイスの構築です。

なぜこの仕事をしたいのか、Ruidong Zhang さんは次のように説明した。

これは主に、特定の状況では、人々が音を出すことが適切ではない可能性があるという事実によるものです。また、話すことができない人もいるという事実によるものです。

最後に、オープニング GIF の答えを明らかにしましょう。

正解でしたか？

<<: 2022年にJAXを使うべきでしょうか？ GitHubには16,000個のスターがあるが、この若いツールは完璧ではない

>>: ISPの廃止はテスラの「純粋なビジョン路線」にとって重要なステップ

日本は変形可能なロボットボールを月に送り込む予定。ボール全体の重さは250グラム

ブログ

ChatGPT は最近、Microsoft によって内部的に無効化されました。 GPT の新しいバグ: たった 2 つのプロンプトでデータが盗まれる可能性があります

ブログ

偽の顔を正確に生成します！ Amazonの新しいGANモデルは死角のないオールラウンドな美しさを提供します

ブログ

言葉を発することなくSiriに命令しましょう！清華大学の卒業生が「無言言語認識」ネックレスを開発

話さずに音声アシスタントを制御するにはどうすればいいですか?

コーネル大学の中国チーム

日本は変形可能なロボットボールを月に送り込む予定。ボール全体の重さは250グラム

ChatGPT は最近、Microsoft によって内部的に無効化されました。 GPT の新しいバグ: たった 2 つのプロンプトでデータが盗まれる可能性があります

偽の顔を正確に生成します！ Amazonの新しいGANモデルは死角のないオールラウンドな美しさを提供します

CPUのみを使用して自律航行船を開発、実際に実現

Nature: DeepMind の大規模モデルが 60 年前の数学的問題を突破、その解決法は人間の認識力を超える

推薦する

因果推論と正規化がリストに載っています。権威ある専門家が過去 50 年間で最も重要な統計的アイデアをレビューします。

世界の自動運転「M&A」を4大勢力が攻勢

150 ページの「幾何学的ディープラーニング」がオンラインになりました: 対称性と不変性を利用して機械学習の問題を解決する

カメラの前で指をタップすることでパーキンソン病の症状を遠隔で評価するAIツールが開発される

ニューラルネットワークに基づくマルウェア検出分析

2022 年のインテリジェントコネクテッドビークルの技術トレンドトップ 10

Gemini ProはGPT-3.5ほど優れていません。CMUは徹底的な比較研究を実施し、公平性、透明性、再現性を確保しています。

モデルのトレーニングをアウトソーシングするのは本当に安全ですか?新しい研究：アウトソーサーが銀行融資を制御するためにバックドアを挿入する可能性がある

AIの次の目的地：リアルタイムサービス

AIがスマートホームとどのように統合されるか