エッジAI: ディープラーニングをより効率的にする方法

人工知能 (AI) は今日の産業情勢を変えています。エンタープライズソフトウェアから機械の自動化まで、あらゆるものが、私たちの世界を理解するための多層ニューラルネットワーク (十分なデータとトレーニング) の能力の恩恵を受けています。しかし、ディープラーニングモデルの規模が拡大し続け、より複雑な自然言語処理 (NLP) やその他の AI アプリケーションへの扉が開かれるにつれて、必要なコンピューティングの量も増加しています。これはエッジ AI にとって問題です。

エッジAIのトレンド

スマートフォンや車載車両などのポータブルコンピューティングハードウェアにディープラーニングアルゴリズムを導入すると、ユーザーは強力な画像認識機能にアクセスできるようになります。これは、数ある使用例の 1 つにすぎません。エッジ AI ハードウェア上でモデルをローカルに実行すると、接続の中断に対する耐性が得られます。

エネルギーに関する考慮事項もあります。数十億のパラメータを持つモデルをトレーニングするためのエネルギーコストと、そのプロセスで消費される大量の冷却水を考えると、ユーザーはクラウドで大規模な AI アルゴリズムを実行することによる環境への影響に疑問を持ち始めています。しかし、開発者は、結果の精度にほとんど影響を与えずに、ディープラーニング推論の計算負荷を軽減するモデルのプルーニングの専門家になっていることが判明しました。

これらの効率化対策は、エッジでの AI 実装にとって朗報です。さまざまなアプローチがどのように機能するかを理解するには、まずディープラーニングの概要を描き、多層ニューラルネットワークが入力を意味のある出力に変換する仕組みを検討すると役立ちます。

抽象的なレベルでは、ディープニューラルネットワークは汎用的な関数近似器として考えることができます。十分なパラメータがあれば、すべてを数学関数で表現できます。 3D で描画すると貝殻のように見える数式や、木の枝に似たフラクタルを見たことがあるかもしれません。大規模な人工ニューロンのグループは、画像を描写したり、文章中の欠落した単語を見つけたりできることが判明しました。

これらの AI アルゴリズムをトレーニングするには、人工ニューロンのパターンが画像のエッジ特徴などの特定の入力に敏感になるように、何百万ものモデルの重みを微調整する必要があります。対応する人工ニューロンを「発火」させるために必要な活性化の強度を決定するために、ネットワーク内の各ノードにバイアスを設定する必要もあります。

ノブだらけのアナログ音楽シンセサイザーを見たことがあるなら、これは良い例えですが、ノブの数は 100 万倍以上にもなります。入力はカメラからのフィードであり、すべての設定が完了すると、画像内に犬が映るたびにカメラのライトが点灯します。

ダイヤルの数字を見ると、いくつかのパラメータが他のパラメータよりも重要であることがわかる場合があります。ここで、モデルプルーニングの概念が生まれます。これは、アルゴリズムをエッジ AI ハードウェアに押し込む方法です。

今日、開発者はさまざまな方法を使用して、パフォーマンスを損なうことなくエッジ AI ニューラルネットワークをより高速かつ小型に実行できるようにしています。 1 つのアプローチは、非常に小さなモデルの重みをゼロにすることです。これにより、アルゴリズムの動作にほとんど影響を与えない人工ニューロンを正確に特定できます。

もう 1 つの方法は、剪定されたモデルを数回の反復で再トレーニングすることです。これにより、失われた精度を回復するために他のパラメータを微調整できるようになります。一部のプルーニングされた画像認識アルゴリズムは、生のニューラルネットワークよりも効果的に機能し、エッジ AI にとって素晴らしい結果をもたらします。

残念ながら、大規模言語モデル (LLM) は、再トレーニングの手順が簡単ではないため、最適化がより困難になる可能性があります。しかし、Wanda (重みとアクティベーションによる剪定) と呼ばれる新しい方法が LLM の LLaMA ファミリーで評価され、アクティベーションパスを考慮すると、パフォーマンスを大幅に低下させることなく構造の 50% を剪定できることが示されています。さらに重要なのは、重みを更新するためにトレーニングを再実行する必要がないことです。

また、重みがどのように表現されるかについても考えると役立ちます。たとえば、単精度浮動小数点形式 (FP32) ではなく 8 ビット整数として値を保存すると、メモリを大幅に節約できます。従来、モデルの重みは 0 から 1 の間でスケーリングされていましたが、これらの値はメモリ効率の高い整数から復元して処理することもできます。

エッジ AI アプリケーションのアルゴリズムをより効率的にするためのもう 1 つの戦略は、いわゆる教師モデルと生徒モデルを展開することです。このモデルでは、生徒が教師によって提供されるより豊富な情報から学習できます。具体的には、教師モデルは、最も可能性の高い結果の確率分布をトレーニング入力として生徒モデルに提供できます。

このアプローチは、BERT の改良版である、より小型、高速、安価、軽量の DistilBERT の構築に効果的に使用されました。 Hugging Face の研究者は、教師と生徒のモデル (知識蒸留とも呼ばれる) を使用して、言語理解の 97% を維持しながら BERT モデルのサイズを 40% 削減し、速度を 60% 向上できることを示しました。

これがなぜ重要なのかを理解するには、BERT が現在利用可能な最も有用な NLP モデルの 1 つであることに注目する価値があります。 BERT はテキストエンコーディングに使用して、他のデータから類似の文章を取得できます。大量のテキスト情報を要約し、質問に対する回答を提供できます。

エッジ AI を念頭に置いた軽量 NLP モデルは、データをローカルで処理してプライバシーを保護し、顧客がクラウドに送信したくない機密情報を保護できます。たとえば、企業は DistilBERT を使用して独自のセマンティック検索エンジンを構築し、Google にデータを送信せずにビジネスデータをナビゲートすることができます。

人工知能の成功事例

クラウドにおける AI の成功事例は、さまざまなユースケースに影響を与えています。また、開発者がアルゴリズムのパフォーマンスをより小さなフットプリントに詰め込むことに熟練するにつれて、これらの利点がエッジ AI アプリケーションにも応用されることが期待されます。

さらに、ユーザーは機械学習モデルを最適化するために、ますます多くのツールを利用できます。 Google の TensorFlow モデル最適化ツールキットは、処理、メモリ、電力消費、ネットワーク使用量、モデルストレージスペースに制約があるエッジデバイスへのモデルの展開をサポートします。

組み込みシステムに効率的なディープラーニングを提供できるモデル最適化 SDK などの他のオプションもあります。ベンダーには、事業拡大のため最近4,500万スウェーデン・クローナ（410万ドル）を調達したスウェーデンのディープテック企業Embedlも含まれる。

「エンベドルのソリューションは、自動車分野での自動運転システム（AD）や先進運転支援システム（ADAS）の開発において、大幅なパフォーマンス向上を実現します」と同社はウェブサイトに記している。「これにより、それほど強力でないハードウェアを搭載した消費者向け製品に AI を組み込むことも可能になります。」

同社によれば、顧客はSDKを使用して、バッテリー駆動のデバイスで実行できるディープラーニングアルゴリズムを作成でき、エッジAIの新たなトレンドとなるという。

<<: 後から登場したが、最初に登場したテンセントのHunyuanモデルの技術的なハイライトは何ですか?

>>: 建築設計におけるスマートビルディングと IoT の統合