研究者たちは、スマートデバイスがAIを使って声の発信元を判断できるようにする準備を進めている。

研究者たちは、スマートデバイスがAIを使って声の発信元を判断できるようにする準備を進めている。

このアイデアはプライバシー擁護者を怖がらせているが、スマートスピーカーの開発者は、ユーザーのウェイクワードを聞かなくてもデバイスを起動できるように取り組んでいる。 Google がすでにこの技術に取り組んでいることは知っていましたが、今ではカーネギーメロン大学の研究者たちがそれに追随し、人工知能の力を使って人の声がどの方向から来ているかを正確に判断する機械学習モデルを開発しました。

[[350720]]

一見、これはそれほど重要ではないように思えるかもしれないが、研究者たちは、IoT デバイスが家庭やオフィス全体で「ますます密集」する未来を計画している。 Alexa 搭載のスマートテレビ、スピーカー、スマートフォンがすべて 1 か所に集まっていると想像してください。ウェイクワードを言うと、これらの各デバイスでコマンドモードがアクティブになる可能性がありますが、これが必要になることはほとんどありません。

この場合、部屋全体のデバイスではなく、特定のスマートデバイスに話しかけたい場合があり、ここでこの研究が役立ちます。このコマンド不要のウェイクアップ方法が他の方法と異なるのは、顔認識技術を必要としないことです。もちろん、このシステムの精度は、平均的なユーザーがその概念に適応できる能力に大きく依存します。たとえば、ユーザーは、家族や友人に質問するときに、誤ってスマートデバイスの方向に向かって大声で話さないようにする必要があります。しかし、この技術がすぐに一般の人々に利用可能になるとは思えません。

<<: 機械学習技術におけるアンサンブル学習とは何ですか?

>>: 指紋と顔は本当に生体認証を表現できるのでしょうか?

進化する決定木: 機械学習が生物学からヒントを得るとき

進化する決定木: 機械学習が生物学からヒントを得るとき

ブログ

TikTokの買収者は、コアアルゴリズムの削除を含む4つの買収オプションについて議論している

TikTokの買収者は、コアアルゴリズムの削除を含む4つの買収オプションについて議論している

ブログ

感情AIが企業のITリーダーに希望をもたらす

感情AIが企業のITリーダーに希望をもたらす

ブログ

Llama 2 の中国語版はオープンソースであり、言語モデルとマルチモーダルモデルの両方を備えているため、完全に商用利用可能です。

Llama 2 の中国語版はオープンソースであり、言語モデルとマルチモーダルモデルの両方を備えているため、完全に商用利用可能です。

ブログ

ブログ

エンジニアはETLを書くべきか？ - 効率的なアルゴリズム/データサイエンス部門の構築方法を教えます

エンジニアはETLを書くべきか？ - 効率的なアルゴリズム/データサイエンス部門の構築方法を教えます

ブログ

未来はここにある: データが大規模 AI モデルにおける競争をどう促進するか

未来はここにある: データが大規模 AI モデルにおける競争をどう促進するか

ブログ

リアルすぎて怖い！ Gen-2 の壮大なアップデート、手作りの 4K ハリウッド大作、Midjourney の夢の連携、CEO: クリエイティブソフトウェアの時代は終わった

リアルすぎて怖い！ Gen-2 の壮大なアップデート、手作りの 4K ハリウッド大作、Midjourney の夢の連携、CEO: クリエイティブソフトウェアの時代は終わった

ブログ

トレンドマイクロ：2030年までにサイバーセキュリティ分野で人工知能が人間に取って代わる

トレンドマイクロ：2030年までにサイバーセキュリティ分野で人工知能が人間に取って代わる

ブログ

ブログ

推薦する

AlphaCode がリリースされました! 「AlphaGo」のプログラミング版が静かに競争し、プログラマーの半数を破る

本日、DeepMind の「Alpha」ファミリーに新しいメンバーが加わりました。プログラミング競技...

...

注目に値する5つの高度なコード補完サービス

翻訳者 | イェ・ウェイミンレビュー | Chonglou効率、コードの品質、生産性はすべてプログラ...

データマイニングアルゴリズムと実際の応用例

[[149735]]武漢に比べると北京の秋の訪れはとても早く、9月の夕方には少し肌寒さを感じるように...

...

インタビュアー: 貪欲アルゴリズムとバックトラッキングアルゴリズムについて、どのように理解していますか?応用シナリオ?

[[429460]]この記事はWeChatの公開アカウント「JS Daily Question」か...

楽観主義と悲観主義の議論は無意味。AIに必要なのは開発モデルについて考えることだ

最近、烏鎮での夕食会で大物たちが何を食べたかという噂に加え、インターネット会議では人工知能に関する一...

...

データが「生産手段」となるとき、透かし技術を使ってAIトレーニングデータの著作権を保護する方法をまとめた3つの論文

1. はじめに - AI トレーニングデータに透かしを追加する理由ディープニューラルネットワー...

大躍進！科学者たちは、2050年までに人類は不死になるだろうと発表しました。人工知能のもとでの必然？

2050年には人類は「不死」になる！このトピックを見て驚きましたか?驚きましたか？不死は、すべての...

OpenAIによって普及したエージェントはどのようにして人材を解放するのでしょうか？清華大学などがProAgentをリリース

プロジェクトアドレス: https://github.com/OpenBMB/ProAgent論文ア...

マイクロソフトがAIインフラサービスコード名「Singularity」を発表

Microsoft Azure と研究チームは協力して、コードネーム「Singularity」という...

中国建設銀行のAI戦略

中国建設銀行の田国利会長は、「金融テクノロジーによってもたらされた包括的金融の伝統的なモデルの破壊的...

...

人工知能への恐怖現象を探る

現在、人工知能は人類に大きな発展の機会をもたらす一方で、さまざまなリスクや課題も伴っています。科学技...