スマートホームのヒューマンマシンインターフェース (HMI) におけるエッジ AI

消費者は、利便性、安全性、ユーザーエクスペリエンスを向上させる進歩を飽くなき欲求で求めています。ヒューマンマシンインターフェース (HMI) は、長年にわたり、純粋な触覚から、音声、ジェスチャー、ビデオ、さまざまなコンピュータービジョン機能まで、幅広い入力方法、POS 端末からスマートホームまで、明確に進化してきました。次のステップは、直接的なコマンドを理解するだけでなく、意図を推測できるデバイスです。

同時に、従来のクラウドベースの接続デバイスのセキュリティと遅延に関する懸念が高まり、エッジベースの処理への道が開かれています。これは特にヒューマンマシンインターフェース (HMI) に当てはまります。しかし、ローカル処理は、テクノロジ開発者にとって新たな課題を生み出します。テクノロジ開発者は、知覚インテリジェンスとアンビエントコンピューティングを強化するために新しいレベルの自動化を導入する必要があるスマート (機械学習トレーニング済み) デバイスの特定のユースケース要件、開発オプション、コストを考慮する必要があります。

[[336196]]

エッジAIが基盤

いわゆるエッジ AI は、より洗練され、ユーザーフレンドリーで安全な IoT エクスペリエンスの基盤となります。定義上、エッジ AI とは、AI 処理がクラウドではなく、最終製品自体 (セットトップボックスやスマートディスプレイなど) 内で実行されることを意味します。そうする理由はよく知られています。プライバシーの向上、帯域幅の削減、応答時間の短縮、さらにはエッジ処理によって大規模なデータセンターを稼働させるために必要なエネルギー、水、その他のリソースが削減されるため、環境にも優しいからです。

エッジ AI は、私たちが日常的に使用する多くのアプリケーションにすでに採用されていますが、当初の使用は主にスマートフォンや自動車などの高価な製品に限定されていました。その結果、これらの製品へのエッジ AI の実装も高価になり、スマートホーム向けの消費者向け小売デバイスには手が届きません。既存のエッジ AI アプリケーションは、提供するユーザーエクスペリエンスの点では、大部分が一次元的です。たとえば、ADAS（先進運転支援システム）アプリケーションにおける AI 対応ビジョンや、携帯電話における画質向上などです。

スマートホーム向けのエッジ AI ソリューションを作成して導入する説得力のある理由は何ですか?

HMIが家庭内のエッジAIを推進

エンターテイメント、通信、ホームオートメーション、セキュリティ、その他のさまざまなデバイスなど、アプリケーションの機会が増加しており、ユビキタスな消費者向け IoT セグメントに特に強い関心が寄せられています。特にこの時代では、消費者は従来の接続に伴うコスト、プライバシー、パフォーマンスの問題を伴わない接続体験を求めています。より没入感があり知覚的な人間と機械のインタラクションに対する需要は、スマートホームにおけるエッジ AI の需要を促進する重要な要因です。

スマートホーム向けの AI ベースのエッジコンピューティングソリューションが市場に登場すれば、より人間的な体験を生み出すために必要なパフォーマンスが、より幅広い製品で利用できるようになります。

スマートホームのエッジ AI の恩恵を受ける実際のユースケースは数多くあります。いくつかは明らかな実用的な利点があります。たとえば、家庭用ドアベルカメラは、落とした荷物と盗まれた荷物を区別できます。エンターテイメントデバイスは、低解像度のビデオストリームを自動的に検出し、優れた知覚品質で高解像度にアップスケールして、高解像度のテレビディスプレイをより有効に活用できます。馴染み深く、今ではほぼどこにでもあるビデオ会議アプリケーションでも、より高品質のビデオとオーディオで強化し、コスト効率の高いデバイスで利用できるようになります。

他の例はもっと未来的に思えます。冷蔵庫に保存されている食材に応じて夕食（メニュー）を提案してくれる冷蔵庫。オーブンは食事が完璧に調理されたかどうかを知らせてくれます。ポーズ中に腕をまっすぐに伸ばすように通知する仮想パーソナルホームヨガインストラクター。ホームオートメーションデバイスは連携して、家の暖房や食事の準備からテレビで見る番組の選択まで、住宅所有者のニーズを予測することができます。

このようなソリューションは、ビデオ、ビジョン、音声センサーを AI 処理機能と組み合わせることで、スマートディスプレイやサウンドバー、セットトップボックス、セキュリティカメラなどの新世代の使い慣れたデバイスに強化された機能をもたらすことができます。

これらのアプリケーションに共通するのは、スマートフォンや自動車のアプリケーションではなく、スマートホーム向けに特別に調整されたエッジベースの AI ベースのソリューションが必要であることです。エッジ AI をさらに民主化するには、次のようなソリューションが必要です。

音声、ビデオ、ビジョンを効果的なシステムに組み合わせて、マルチモーダル AI 強化ユーザーエクスペリエンスをサポートする機能。
標準ツールを通じて、より幅広い AI 開発者やイノベーターがアクセス可能。
セキュリティとプライバシー対策が消費者の期待に応えていることを確認します。

スマートホームにおけるエッジAIの利点

スマートホームの人間とコンピュータの相互作用にはマルチモーダルアプローチが必要

前述したように、スマートフォンや自動車アプリケーション向けのエッジ AI ベースのソリューションは、主にカメラビジョンアプリケーションに重点を置いています。しかし、スマートホームでは、マルチモーダルなヒューマンマシンインターフェースは、接続されたデバイスの新時代におけるユーザーエクスペリエンスを向上させるための重要な要素です。セットトップボックスを例にすると、このアプリケーションには、おそらく前述のようなビデオ強化の形でのビデオ AI が必要になります。また、音声コマンドを通じて誰がテレビを視聴しているかを識別し、それに応じてエクスペリエンスを構成できる音声 AI も必要です。たとえば、お気に入りの番組を簡単に選択できるようになります。遠く離れた家族とチャットする際に、強化された直感的なビデオ会議エクスペリエンスを提供するために、視覚 AI と内蔵カメラが必要になる場合もあります。

理想的なソリューションは、高性能なビデオ、音声、ビジョン処理と統合 AI アクセラレータをサポートできるスマートホーム中心の SoC (System-on-a-Chip) です。 Synaptics VS600 SoC シリーズは、このようなソリューションの一例です。このアプローチは、スマートホームアプリケーションのマルチモーダル AI パフォーマンス要件を満たすように最適化されているだけでなく、これらすべての機能を 1 つのチップに統合し、消費者市場価格で販売されている一般的な家庭用製品にも利用できるようになります。

必要なソリューションは、CPU、NPU、GPU、ISP などの複数の種類のプロセッサエンジンと、高性能カメラやディスプレイへのフックを統合した SoC プラットフォームから始まります。このアーキテクチャは、高いセキュリティ、低コストの推論、リアルタイムのマルチモーダルパフォーマンスの理想的な組み合わせを実現します。 Synaptics Edge AI ファミリは、それぞれ特定の消費者向けアプリケーションに特化した SoC ファミリです。ファミリ内の各 SoC には、アプリケーションに必要な処理コアと、適切なレベルの統合 AI パフォーマンスが統合されています。

フルスタックツールアプローチによりAI開発が簡素化

これまで見てきたように、エッジ AI をより多くのアプリケーションに拡張するには、コストとパフォーマンスのトレードオフが重要です。競争が激しい家電業界では、市場投入までの時間と差別化も重要です。エッジ AI の広範な導入という課題に対応するには、エッジ AI SoC に AI イノベーションをもたらすために必要な開発ツールを含むフルスタックアプローチが必要です。

最も重要なのは、望ましいツールセットが、大規模かつ成長を続ける AI 開発者のユーザーコミュニティと互換性があることです。たとえば、このツールキットを使用すると、開発者は TensorFlow、TensorFlow Lite、Caffe、ONNX などの業界標準フレームワークを使用して作成されたモデルをインポートできるようになります。これにより、開発者は既存の AI イノベーションを活用し、対象の SoC で迅速かつ簡単に動作させることができます。

先ほど説明したパーソナルホームヨガトレーナーアプリを使用しましょう。アプリのベースとなる AI モデルは、カメラの視線内でユーザーの相対的な骨格位置を検出するための業界標準の概念である人間の姿勢推定モデルになります。 AI 開発者が TensorFlow lite などの業界標準ツールを使用して作成した人間の姿勢推定モデルの独自の実装を持っている場合、ツールキットを使用してそれをインポートし、目的の SoC で使用できるようになります。

開発者の準備が整うと、このツールによって、実行するプロセッサに合わせて AI モデルのパフォーマンスを最適化できるようになります。開発者は TensorFlow や TensorFlow Lite などのオープンフレームワークの使用を選択できますが、使用時にはターゲットプロセッサの機能に留意する必要があります。あるいは、VS600 SoC のプロセッサに特化した最適化を可能にする Synaptics の SyNAP ツールなどの SoC 固有のツールを使用することもできます。この例では、開発者は SyNAP 最適化を使用して、たとえば VS600 SoC 上で毎秒 30 フレームでリアルタイムに実行するようにボディポーズ推定モデルを構成できます。

しかし、セキュリティとプライバシーは消費者の期待に応える必要がある

ヒューマンマシンインターフェースの将来は明るいように思えますが、導入に対する最大の障壁は、ユーザーのプライバシーとセキュリティが侵害されるという認識かもしれません。最近のニュースでは、この懸念を裏付ける話が数多くあります。意味のあるヒューマンマシンインターフェースソリューションは、これを考慮する必要があります。

幸いなことに、このビデオ、音声、視覚データはクラウドではなくデバイス上で処理されるため、プライバシーの面で大きな改善がもたらされます。ビデオドアベルの例では、ドアベル自体に AI インテリジェンスを追加することで、玄関からのビデオを 24 時間 365 日クラウドにストリーミングする必要はなく、特定のイベントが発生したときのみストリーミングできるようになります。たとえば、AI エンジンが悪意のある人物がドアに近づいていることを検出した場合にのみ、ビデオが送信されます。または、在宅ヨガインストラクターの例を使用すると、前に示したように、自宅からクラウドサーバーに画像を一切送信せずに、アプリをデバイス上で完全に実行できます。

ただし、これらの画像がクラウドに送信されない場合でも、一時的であってもデバイス上でキャプチャされ、処理されているのではないかとユーザーは懸念する可能性があります。また、悪意のある人物がデバイスからそのデータを取得しようとする可能性があるというセキュリティ上の懸念もあります。したがって、理想的なスマートホーム中心の AI ソリューションでは、このコンテンツが安全な方法でキャプチャおよび処理されることも保証することが重要です。

スマートホームセキュリティ

IoT の新しい時代は、より多くの「ローカルインテリジェンス」（エッジ AI）によって推進され、常時接続の必要性とリスクが軽減されます。エッジデバイスで処理される AI 駆動型ニューラルネットワークは、知覚インテリジェントシステムの導入を加速するための鍵となります。この機能をエッジで実装できることにより、システムはより高いセキュリティとプライバシーを備え、低レイテンシで動作できるようになります。マルチモードインターフェイスソリューションをサポートできる高性能のマルチプロセッサ SoC は、消費者市場価格で入手可能であり、開発者が AI イノベーションを迅速に活用し、製品を差別化するのに役立ちます。

機械が音声、ビデオ、視覚データを活用し、それらを使用して人間の行動（話す、触れるなど）を理解し、予測的に反応する方法により、モノのインターネットが私たちの生活にこれまでにない安全性、利便性、生産性を提供できる方法が向上します。

<<: スーパー暗号解読：自動運転はこうして実現される

>>: コンピュータービジョンはビジネスにどのような変化をもたらすのでしょうか?