2021 年の機械学習の今後はどうなるのでしょうか?

ああ、2020年！世界的なヘルスケア問題から、テクノロジーの採用と再利用の方法の革命まで、今年はこれまでにない一年でした。

毎年年末になると、特にツール、リソース、情報へのアクセス性の面で驚異的な成長を遂げている機械学習 (ML) のトレンドについて立ち止まって考えるのは常に興味深いことです。

[[359687]]

PerceptiLabs ビジュアルモデリングツールの開発者として、私たちは常にこうしたトレンドに注目し、ツールの機能を継続的に強化しながら次に何が起こるかを問いかけていきます。そうすることは、ML の将来がどうなるかを理解するために、水晶玉またはブラックボックス (選択したツールによって異なります) を覗き込むことを意味します。最近この演習を実施した後、2021 年の ML に関する上位 3 つの予測を以下に示します (カウントダウン)。

最先端モデルの提供

3番目は、利用可能な最先端モデルの増加です。 ML の採用が拡大するにつれて、オープンアクセスモデルへの傾向も並行して見られます。大きな要因の 1 つは、大手 ML 企業がモデルのパフォーマンスの基準を継続的に引き上げていることです。彼らがこれを実現できるのは、ML 実践者の専任チームのサポートを受けてモデルをトレーニングするための大規模で包括的なデータセットを自由に利用できるからです。

多くの中小企業や組織は、これらの高性能モデルを活用したいと考えていますが、ゼロから構築することはできないかもしれません。その結果、多くの企業が転移学習に目を向けるようになり、大規模にトレーニングされたモデルを基に構築したり、さらには再利用したりできるようになりました。逆に、そのようなモデルを開発するリソースを持つ多くの大企業は、自社のモデルに対する外部からの貢献から依然として利益を得ることができることを認識しています。

オープンソースモデルとパブリックモデルは、ML を試用する学生、愛好家、その他のグループでも使用されており、その中にはキャリアアップのためにこれらのモデルを使用したり貢献したりする人もいます。

より優れたMLサポートツール

2021 年のトップ ML 予測の 2 番目に挙げられるのは、ML 実践者に対するより包括的なツールサポートです。

適度に優れた予測を行う ML モデルを生成するだけではもはや十分ではありません。今日の機械学習の実践者は、モデルに解釈可能性を要求し、予測が行われた理由を理解する必要があります。つまり、いわゆるブラックボックスの内部に入り込み、モデルを本番環境に導入するかどうかを決定します。これは、倫理、社会正義、公平性などの社会的要因に基づいて予測が精査されることが多いビジネスでは特に重要です。

モデルカードの使用はモデル開発のための強力なツールとなり、2021 年にはさらに一般的になると思われます。本質的には、これらのカード (実際には設計ドキュメントのようなものです) は、モデルのあらゆる側面を正式に説明します。内容としては次のようなものがあります:

詳細な概要: モデルの目的の概要を示します。
仕様: レイヤー/ニューラルネットワークの種類、入力と出力。
ロジスティクス: 著者、日付、他のドキュメントへのリンク、モデルの引用方法、ライセンス。
使用目的: 適用可能な用途、フィールド制限など。
制限と考慮事項: 速度/精度の制約、倫理およびプライバシーの問題、潜在的な偏見など。
トレーニング: データソース、テスト環境、機器など。
目標と実際のパフォーマンス指標: 期待精度と実際の精度などの指標。

モデルカードの優れた例については、MediaPipe のこのコレクションをご覧ください。

もう一つの重要なツールは視覚化です。設計、トレーニング、さらには監査中にモデルを視覚化する機能は、それ自体が非常に貴重です。 PerceptiLabs は TensorFlow 用の GUI と視覚化 API を提供するため、この点で優れています。

これらの側面はモデルカードを補完するもので、チームメンバーはモデルカードに指定された内容に基づいてモデルを継続的に評価できます。追加情報については、TensorFlow の概要と、PerceptiLabs によってそれがどのように簡単になるかをご覧ください。

PerceptiLabs では、視覚化機能を超えて解釈をサポートすることも目指しています。まもなく、新しいライブラリが追加され、作業中のデータを確認するだけでなく、そのデータのどの部分 (画像の特定の部分、CSV データの特定の列など) に関する情報も提供できるようになります。最も大きな影響を予測します。

エッジでの機械学習

ついに、皆さんが待ち望んでいた瞬間がやってきました。2021 年の ML 予測 (ドラムロール): エッジでの機械学習。

エッジ推論への傾向は高まっており、このセグメントは 2021 年に大幅に成長すると予想されます。これには、モノのインターネットの成長やリモートワークにおけるデバイスへの依存度の高まりなど、さまざまな要因があります。ただし、この傾向を理解するには、エッジ推論と、エンタープライズ向けデバイスと Google Mini などの消費者向けデバイスの両方に搭載されている「クラウド向け ML」を比較対照するのが最適です。

クラウド対応の ML というと、インターネットにアクセスできる小さなデバイスがデータを収集し、推論のためにクラウドに送信し、場合によってはデバイス上でデータを受信する (たとえば、何らかのアクションを実行する) というイメージを思い浮かべるかもしれません。このような展開は、多くの状況（銀行が詐欺を検出する場合など）で必要であり、長い待ち時間が望ましくない状況や、サードパーティのクラウドホスティングが必要な状況などに適しています。とはいえ、5G の普及により、遅延は過去のものになる可能性があります。

ただし、エッジデバイスは、エッジで推論を実行するために必要な処理能力を急速に獲得しています。たとえば、Google の Coral にはオンボードのテンソルプロセッシングユニット (TPU) があり、さまざまな IoT ユースケース (画像や音声の分析など) を処理できます。このようなテクノロジーを小型フォームファクターにパッケージ化することで、インターネット接続やクラウドバックエンドを必要とせずに推論を実行できるようになりました。この設定により、収集されたすべてのデータがデバイス上に保存されるため、セキュリティも強化され、デバイス上でさらに強化されます。

技術的な観点から見ると、このような展開では、迅速に転送でき、限られた組み込みデバイスのストレージに収まる、より小さな ML モデルが必要になることがよくあります。一般的な解決策は、モデル内で量子化（数値精度の低下）を使用してモデルのサイズを縮小することです。もちろん、量子化の正しい量を決定する際には、必然的に生じる精度の低下とのバランスを取る必要があります。詳細については、Coral 手話チュートリアルをご覧ください。このチュートリアルでは、PerceptiLabs でのモデルエクスポート中に完全な整数量子化を使用して重みを 32 ビット浮動小数点値から 8 ビット固定小数点値に減らす方法と、モデルを Coral 開発ボードにロードする方法が説明されています。

結論は

2020年はレコード業界にとって厳しい年でしたが、最も困難な課題さえも克服した年として記憶されるでしょう。これは世界的な出来事だけでなく、ML ツール、リソース、情報の進化と民主化にも当てはまると考えています。

2020 年の話ですが、今年の重要な予測の 1 つは MLOps の成長です。 MLOps は、「MLOps: 機械学習専用の「Ops」」で説明されているように、さまざまなレベルで導入できます。

全体として、今年は反省の年であり、新年には ML に関する予測が実現するのを楽しみにしています。

<<: インダストリー4.0: AIを活用した障害検出

>>: 無料の Python 機械学習コース 5: 多クラス分類ロジスティック回帰