ディープラーニングの未来: ニューラル進化

この記事では主に、ニューロエボリューションがディープラーニングの未来であるという点と、進化的計算手法 (EC) を使用してディープラーニング (DL) を最適化する方法について説明します。

[[223678]]

過去数年間、当社には AI の研究と実験に専念するチームがありました。チームは、人工ニューラルネットワークアーキテクチャの設計、商用アプリケーションの構築、自然進化にヒントを得た手法を使用した困難な計算問題の解決など、新しい進化計算 (EC) 手法の開発に重点を置いています。この分野には強い勢いがあります。私たちは、進化的計算が人工知能技術の次の主要なトピックになる可能性が高いと考えています。

ディープラーニング (DL) と同様に、EC は数十年前に導入され、コンピューティングとビッグデータの可用性の恩恵を受けています。しかし、それは非常に異なるニーズに対応しています。DL は既に知っていることをモデル化することに重点を置いているのに対し、EC は新しい知識を作成することに重点を置いていることは誰もが知っています。この意味で、これは DL の次のステップです。DL では、馴染みのあるカテゴリ内のオブジェクトと音声の認識が可能になりますが、EC では、まったく新しいオブジェクトと動作、つまり特定の目標を最大化するオブジェクトと動作を発見できるようになります。したがって、EC は、ロボットや仮想エージェントのより効率的な動作の設計、より効果的で安価な健康介入の創出、機械化された農業やバイオプロセスの開発の促進など、多くの新しいアプリケーションを可能にします。

少し前に、私たちはこの分野における大きな進歩を報告する 5 つの論文を発表しました。主な 3 つの側面に焦点を当てています。(1) DL アーキテクチャは、3 つの標準的な機械学習ベンチマークで最先端のレベルに達しています。（２）実用化に向けた性能・信頼性向上技術の開発（３）非常に困難な計算問題に対して進化的解決法が実証されている。

この記事では、EC を使用した DL アーキテクチャの最適化という最初の領域に焦点を当てます。

センティエントが神経進化に関する画期的な研究を発表

ディープラーニングの多くは、ネットワークのサイズと複雑さに依存します。ニューロエボリューションにより、DL アーキテクチャ (ネットワークトポロジ、モジュール、ハイパーパラメータなど) を人間の能力を超えて最適化できます。この記事では、Omni Draw、Celeb Match、Music Maker (言語モデリング) の 3 つの例を取り上げます。これら 3 つの例すべてにおいて、Sentient はニューロエボリューションを使用して最先端の DL ベンチマークを上回ることに成功しました。

音楽制作（言語モデリング）

言語モデリングでは、システムは「言語ライブラリ」内の次の単語を予測するようにトレーニングされます。このライブラリには、数年にわたるウォールストリートジャーナルの膨大なテキストコレクションなどがあります。ネットワークが予測を行った後、入力をループして戻すことで、ネットワークが完全な単語のシーケンスを生成できるようになります。興味深いことに、以下に示すように、同じテクニックが音楽シーケンスでも機能します。ユーザーがいくつかの最初の音符を入力すると、システムはその開始点に基づいて完全なメロディーを即興で作成します。ニューロンの進化を通じて、Sentient はゲート付きリカレント (長期短期記憶、または LSTM) ノード (ネットワークの「メモリ」構造) の設計を最適化し、モデルが次の音をより正確に予測できるようにしました。

言語モデリング（Penn Tree Bank と呼ばれる言語コーパス内の次の単語を予測する）の分野では、ベンチマークはパープレキシティポイントによって定義され、確率モデルが実際の例をどの程度正確に予測できるかを測定します。もちろん、次の単語を予測するときにモデルができるだけ「混乱」しないようにしたいので、数値が低いほど良いです。この場合、パーセプトロンは標準の LSTM アーキテクチャよりも 10.8 ポイントの難しさで優れています。過去 25 年間にいくつかの LSTM バリアントが設計されたにもかかわらず、LSTM のパフォーマンスは向上していないことは注目に値します。実際、私たちの神経進化実験では、LSTM は複雑さ、つまりメモリセルと非線形の並列経路を追加することで、大幅に向上したパフォーマンスを実現できることが示されています。

この画期的な進歩はなぜ重要なのでしょうか?言語は強力かつ複雑な人間の知的構築物です。言語モデリング、つまりテキスト内の次の単語を予測することは、機械学習手法が言語構造をどれだけうまく学習するかを測定するためのベンチマークです。そのため、音声およびスピーチインターフェース、機械翻訳、さらには DNA 配列や心拍数診断などの医療データを含む自然言語処理システムを構築するためのプロキシとして機能します。言語モデリングのベンチマークを改善し、同じ技術を使用してより優れた言語処理システムを構築することができます。

オムニドロー

Omniglot は、キリル文字 (ロシア語の書き言葉)、日本語、ヘブライ語などの実際の言語や、Tengwar (ロードオブザリングの書き言葉) などの人工音声を含む 50 種類のアルファベットの文字を認識できる手書き文字認識ベンチマークです。

上記の例は、モデルがすべての言語を同時に学習し、異なる言語の文字間の関係を活用できるマルチタスク学習を示しています。たとえば、ユーザーが画像を入力すると、システムは一致に基づいてさまざまな言語で意味を出力します。「これはラテン語ではX、日本語ではY、テンワール語ではZ、などです」。つまり、日本語、テンワール語、ラテン語の関係を使用して、どの文字が最も一致するかを判断します。これは、モデルが 1 つの言語のみでトレーニングされ、言語データセット間で同じ接続を作成できない単一タスク学習設定とは異なります。

Omniglot はデータセットの例ですが、言語あたりのデータは比較的少ないです。たとえば、ギリシャ文字は数個しかなく、大部分は日本語の文字です。言語間の関係性に関する知識を活用して解決策を見つけることができます。なぜこれが重要なのでしょうか?多くの現実世界のアプリケーションでは、ラベル付けされたデータの取得は法外な費用がかかったり危険であったりします (医療アプリケーション、農業、ロボット救助など)。そのため、類似または関連するデータセットとの関係を使用してモデルを自動的に設計することで、不足しているデータセットをある程度置き換え、研究能力を向上させることができます。これは、神経進化の力の素晴らしい実証でもあります。言語が互いに関連する方法は数多くあり、進化はそれらの学習を組み合わせる最良の方法を発見しました。

セレブマッチ

Celeb Match デモもマルチタスク学習に適用されますが、大規模なデータセットを使用します。このデモは、約 200,000 枚の有名人の画像で構成される CelebA データセットに基づいています。各画像のラベルは、「男性と女性」、「ひげの有無」など、40 個のバイナリ属性で構成されています。各属性は、システムが各属性を検出して識別できるようにガイドする「分類タスク」を生成します。楽しいアドオンとして、このタスクを実行するデモを作成しました。ユーザーは各属性の希望する度合いを設定でき、システムは進化したマルチタスク学習ネットワークに基づいて最も近い有名人を決定します。たとえば、現在の写真がブラッド・ピットの場合、ユーザーは「白髪」という属性を追加して、ブラッド・ピットに似ているが髪型が違う有名人を見つけることができます。

CelebA マルチタスク顔分類の分野では、Sentient は進化計算を使用してこれらの検出属性のネットワークを最適化し、3 つのモデル全体の誤差を 8% から 7.94% に削減することに成功しました。

この技術により、人、場所、物理的な世界のさまざまな属性を予測する能力において人工知能は大きく前進します。抽象的で学習された特徴に基づいて類似点を見つけるためにネットワークをトレーニングする代わりに、同様のセマンティクスと解釈可能性も実現します。

元記事: https://www.sentient.ai/blog/evolution-is-the-new-deep-learning/?spm=a2c4e.11153959.blogcont554768.14.7c4f381flMPfCF

<<: 語尾予測に基づく英語-ロシア語翻訳品質の向上方法

>>: 青いテスラモデルXが米国で中央分離帯に衝突し炎上