世界で最も先進的なニューラルネットワークモデルは何ですか?それは人間の脳に違いない。 人間の脳には860億個のニューロンがあります。ニューロンの組み合わせで形成されるニューラルネットワークは、性能において人工ニューラルネットワークを上回るだけでなく、驚くほど少ないエネルギーしか消費しません。 現在の AI システムは、できるだけ多くのニューロンをできるだけ小さなスペースに詰め込むことを目指して、多層ニューラル ネットワークを作成することで人間の脳を模倣しようとしています。 このアプローチによりパフォーマンスは向上しましたが、このような設計では大量の電力が必要になるだけでなく、出力結果も人間の脳に比べると劣ってしまいます。 推定によると、OpenAI はマイクロソフトのデータセンターで Nvidia GPU を使用して GPT-3 ニューラル ネットワークをトレーニングするために約 19 万キロワット時の電力を必要としており、これはデンマークの 126 世帯が 1 年間に使用する電力量に相当します。化石燃料によって生成される二酸化炭素量に換算すると、車で地球から月まで往復するのに相当します。 そして、ニューラル ネットワークの数と、膨大なデータセットを使用してニューラル ネットワークをトレーニングするために必要なハードウェアの量は、増加し続けています。 GPT を例にとると、GPT-3 にはすでに 1,750 億個のパラメータがあり、これは前身の GPT-2 の 100 倍に相当します。 この「大きいほど良い」というニューラル ネットワーク設計は、持続可能な科学的発展の概念とは明らかに一致していません。 ベルリン工科大学の学際的研究チームが最近、新しいタイプのニューラル「ネットワーク」を作成した。しかし、これをネットワークと呼ぶのは少々無理があります。なぜなら、このネットワークの目新しさは、ニューロンが 1 つしかないという点にあるからです。 研究者らは、あらゆる規模のディープニューラルネットワークを、複数の遅延フィードバックを持つ単一のニューロンループに折りたたむことができる新しい方法を提案した。この単一ニューロンのディープ ニューラル ネットワークには、単一の非線形性と適切に調整されたフィードバック信号のみが含まれており、スパース DNN を含む標準的なディープ ニューラル ネットワーク (DNN) を完全に表現し、DNN の概念を動的システムの実装に拡張できます。 Folded-in-time Fit-DNN とも呼ばれるこの新しいモデルは、ベンチマーク タスクのテストでもかなり優れたパフォーマンスを示しています。 一本の木だけでは森は作れないのでしょうか?従来のニューラル ネットワークでは、空間的に相互に接続するために複数のノードを適用する必要がありますが、単一のニューロン モデルは時間次元で拡散的に接続されます。 研究者らが考案した多層フィードフォワード DNN の完全な時間的折り畳みには、フィードバック制御の遅延ループを備えた単一のニューロンのみが必要です。非線形操作を時間的に順序付けることにより、任意の深さまたは幅の DNN を実装できます。 GPT-3 のような従来のニューラル ネットワークでは、結果を微調整するために各ニューロンに重み値が割り当てられています。しかし、このアプローチでは通常、より多くのニューロンが生成され、その結果、より多くのパラメータが生成され、より多くのパラメータによってのみ、より正確な結果が得られます。 しかし、ベルリン工科大学のチームは、異なる重み付けをしたニューロンを空間全体に分散させるのではなく、同じニューロンを異なる時間に異なる重み付けをすることで、同様の機能を実現できることを発見しました。 宴会のように、席を素早く切り替えて、さまざまなゲストがさまざまな部分を話しているふりをすることで、テーブルでの会話をシミュレートできます。 少し「多重人格」のように聞こえますが、この時間的拡張により、1 人の人間 (ニューロン) が、複数の人間でしかできないことを達成できるようになります。 先ほど「高速」な切り替えについて言及したところ、ベルリン チームは、この表現はすでに控えめな表現だと述べました。 実際、彼らのシステムはレーザーを使用してニューロン内の時間ベースのフィードバック ループをアクティブ化します。理論的には宇宙の限界に近い速度、つまり光速またはそれに近い速度でニューラル ネットワークを切り替えることができます。 研究者らによると、これが人工知能にとって何を意味するかというと、極めて大規模なニューラルネットワークを訓練するためのエネルギーコストが大幅に削減される可能性があるということだ。 これを達成するために、研究者たちは、システムの状態が一般形の微分方程式に従って連続時間で進化すると仮定しました。 ここで、x(t) は時刻 t におけるニューロンの状態を表します。f は非線形関数であり、そのパラメーター a(t) はデータ信号 J(t)、時間変動バイアス b(t)、および関数 Md(t) によって変調された遅延フィードバック信号 x(t - τd) を組み合わせたものです。異なる遅延長 τd の複数のループを明示的に考慮することができます。フィードバック ループにより、システムはいわゆる遅延動的システムになります。 直感的に言えば、Fit-DNN のフィードバック ループにより、ニューロンは非線形性 f をすでに通過した情報を再導入し、非線形性 f を複数回連鎖させることができます。従来の DNN はニューロンを層ごとに使用してトレーニング可能な表現を構築しますが、Fit-DNN は同じニューロンにフィードバック信号を繰り返し導入することで同じ目的を達成します。 各パスでは、時間とともに変化するバイアス b(t) と遅延線上の変調 Md(t) によって、システムの時間的変化が望ましい方法で情報を処理することが保証されます。データ信号 J(t) と出力 y を取得するには、両方の変数に対して適切な前処理または後処理操作が必要です。 Fit-DNN が機能的に多層ニューラル ネットワークと同等であることをさらに説明するために、Fit-DNN が複数の遅延ループを持つ単一ニューロンのダイナミクスを DNN に変換できることがわかります。 x(t) の時間発展は長さ T の時間間隔に分割でき、各時間間隔は隠れ層をシミュレートします。各間隔で、N 個のポイントを選択します。小さな時間間隔 θ を持つ等距離の時間グリッドが使用されます。 N 個のノードを持つ隠れ層の場合、θ = T / N を導出できます。各時間グリッドポイントtn=nθにおいて、システム状態x(tn)が独立変数として取られます。各時間グリッドポイントtnはノードを表し、x(tn)はその状態を表します。さらに、データ信号J(t)、オフセットb(t)、変調信号Md(t)は、ステップサイズθのステップ関数であると仮定することができます。 研究者らは、非常にスパースなネットワークとして、まずFit-DNNを画像ノイズ除去タスクに適用しました。強度と分散が1のガウスノイズが、0(白)から1(黒)の間の値を持つベクトルとして扱われるFashion-MNISTデータセットの画像に追加されました。結果のベクトルエントリはしきい値 0 と 1 でクリップされ、ノイズの多いグレースケール画像が得られます。ノイズ除去のタスクは、ノイズの多いバージョンから元の画像を再構築することです。 実験結果では、オリジナルの Fashion-MNIST 画像、そのノイズバージョン、および再構築された画像の例を比較します。回復効果がかなり良いことがわかります。 しかし、Fit-DNN にとっての本当の疑問は、時間的に繰り返される単一のニューロンが数十億のニューロンと同じ結果を生成できるかどうかです。 Fit-DNN と時間状態の計算能力を実証するために、研究者は MNIST40、Fashion-MNIST41、CIFAR-10、CIFAR-100、SVHN の 5 つの画像分類タスクを選択しました。 この実験では、各隠れ層のノード数を N = 50、100、200、400 として、上記のタスクにおける Fit-DNN のパフォーマンスを比較します。結果から、比較的単純な MNIST および Fashion-MNIST タスクでは単一のニューロンが高い精度を達成したことがわかります。ただし、より難しい CIFAR-10、CIFAR-100、および SVHN タスクの精度は比較的低くなります。 これらの結果は、現在の SOTA モデルによって設定されたパフォーマンス記録と比較できるものではありませんが、まったく異なる新しいアーキテクチャで達成されています。特に、ここでの Fit-DNN は、重み行列の利用可能な対角線の半分のみを使用します。テストされたタスクでは、N を増やすとパフォーマンスが明らかに向上します。 科学者たちは、さらなる開発により、このシステムは時間次元における「無限の数」の神経接続にまで拡張できると考えている。 こうしたシステムは実現可能であり、人間の脳を超えて世界で最も強力なニューラルネットワークになる可能性があり、人工知能の専門家はこれを「スーパーインテリジェンス」と呼んでいるという。 |
<<: 模型の列車の速度を上げるコツは何でしょうか?まず、この問題の第一原理を理解しましょう。
>>: コードを超高速で変更! GPT-3に編集機能とテキスト挿入機能が追加され、AIがあなたに代わって詩を書くことができる
機械学習は現在隆盛を極めていますが、機械学習を学習・研究し、実稼働環境で活用したい場合には、プラット...
経路探索アルゴリズムは、コンピュータグラフィックスや人工知能の分野で一般的に使用されるアルゴリズムの...
AI が IT 運用に直接影響を与えることができる分野を考えるとき、他のアプリケーションよりも際立っ...
Google は最近、検索ページの新しい機能である Google ナレッジグラフをリリースしました。...
過去2年間で、インターネット業界の人口ボーナスはピークに達し、成長率は鈍化したというのが業界の全会一...
プロジェクトを実行することが機械学習を学ぶ唯一の方法であり、興味深く価値のあるプロジェクトを見つける...
1寝耳に水! 11月15日、国からビッグニュースが発表されました!科学技術部は、新世代人工知能開発...
DA テクノロジーは、まず自己組織化特徴マッピングに基づくクラスタリング テクノロジーを適用します。...
IoT 対応デバイスの登場により、医療における遠隔モニタリングが可能になりました。ほぼすべての大手...
人工知能技術は企業のビジネスに応用され、夢から現実へと変わりました。実際、最近の O'Rei...
全能の GAN がまたひとつの丘を征服しました。近年、DeepMindが提案したBigGANなど、G...