ディープラーニングの次に来るものは何でしょうか?

[[343995]]

ビッグデータダイジェスト制作

出典: datasciencecentral

編集者: ミン

私たちは行き詰まっている、あるいは少なくとも停滞している。アルゴリズム、チップ、データ処理において、注目すべき大きな進歩がなかった年がいつだったか覚えている人はいますか? 数週間前に開催された Strata San Jose カンファレンスに行って、目を引くような新しい開発が見られなかったのは珍しいことでした。

以前にも報告したように、私たちは成熟段階に入ったようで、現在私たちの主な焦点は、すべての強力な新技術がうまく連携すること（コンバージェンスプラットフォーム）を確保すること、または大規模な VC 投資から同じ収益を上げることです。

[[343996]]

これに気づいたのは私だけではない。何人かの参加者と出展者も私に非常に似たようなことを言いました。そしてつい先日、さまざまな高度な分析プラットフォームの相対的なメリットを評価し、報告する価値のある違いはないという結論に達した著名な研究者のチームからメモを受け取りました。

なぜ、どこで私たちは困っているのでしょうか?

私たちが今いる場所は、実のところ悪くありません。過去 2 ～ 3 年間の当社の進歩は、ディープラーニングと強化学習の分野でした。ディープラーニングにより、音声、テキスト、画像、ビデオの処理において驚くべき能力がもたらされました。強化学習と組み合わせることで、ゲームプレイ、自律走行車、ロボット工学などにおいて大きな進歩を遂げました。

私たちは、チャットボットによる顧客とのやり取りによる大幅な節約、パーソナルアシスタントやAlexaなどの新しい個人用便利アプリケーション、アダプティブクルーズコントロール、事故回避ブレーキ、車線維持などの個人用自動車のレベル2自動化などに基づく商業的爆発の初期段階にあります。

Tensorflow、Keras、その他のディープラーニングプラットフォームはこれまで以上にアクセスしやすくなり、GPU のおかげでこれまで以上に効率的になりました。

ただし、既知の欠陥のリストにはまったく対処されていません。

ラベル付けされたトレーニングデータが多すぎます。
モデルのトレーニングに時間がかかりすぎたり、高価なリソースが多すぎたり、あるいはまったくトレーニングできない可能性があります。
ハイパーパラメータ、特にノードとレイヤーを囲むハイパーパラメータは、依然として謎に包まれています。自動化や、受け入れられている経験則さえも、依然として不明瞭です。
転移学習とは、複雑なものから単純なものへのみを意味し、ある論理システムから別の論理システムへ転移学習することではありません。

もっと長いリストを作ることもできると思います。私たちが問題に直面したのは、これらの大きな欠点に対処する際にでした。

何が私たちを止めるのでしょうか?

ディープニューラルネットワークでは、努力と投資を続ければ、これらの欠陥は克服できるというのが常識です。たとえば、80 年代や 00 年代から、ディープニューラルネットワークを機能させる方法はわかっていましたが、ハードウェアがなかっただけです。それが追いつけば、ディープニューラルネットワークと新しいオープンソースの精神が組み合わさって、この新しい分野が開拓されるでしょう。

あらゆる種類の研究には独自のダイナミクスがあります。特に、特定の方向に多くの時間とお金を投資すると、常にその方向に進んでいくことになります。それらのスキルの専門知識を培うために何年も費やしてきたなら、転職する気はないでしょう。

方向がどこであるべきか完全にはわからなくても、方向を変えてください。

時には、新しい方向が正確に何であるかがわからなくても、方向を変える必要があります。最近、カナダとアメリカの一流の AI 研究者がまさにそれを実行しました。彼らは騙されたと思って、基本的に最初からやり直す必要があると考えています。

この洞察は、1980年代後半にニューラルネットワークに関する研究の主流を立ち上げる上で重要な役割を果たしたジェフリー・ヒントン氏によって昨年秋に口頭で表明された。現在トロント大学名誉教授でグーグルの研究員でもあるヒントン氏は、DNNの中核となる手法であるバックプロパゲーションに対して「深い懐疑心」を抱いていると語った。ヒントン氏は、人間の脳が結論に達するのにラベル付けされたデータすべては必要ないと考え、「私の考えでは、このデータをすべて捨てて、もう一度やり直すべきだ」と述べた。

それを念頭に置いて、ここでは、確実に達成可能とほとんど達成不可能の間に位置するが、私たちが知っているディープニューラルネットワークの漸進的な改善ではない新しい方向性について簡単に説明します。

これらの説明は意図的に簡潔になっており、完全に理解するためには間違いなくさらに読み進めることになるでしょう。

DNNのように見えるがそうではないもの

Hinton のバックプロパゲーションに密接に関連する研究の 1 つでは、ノードとレイヤーの基本構造は有用であるが、接続と計算方法には大幅な変更が必要であると主張しています。

まず、ヒントン氏自身の新しい研究分野である CapsNet から始めるのが適切でしょう。これは、畳み込みニューラルネットワークによる画像分類に関連しています。簡単に言えば、問題は、畳み込みニューラルネットワークがオブジェクトの姿勢に敏感ではないことです。つまり、同じオブジェクトを認識したいが、位置、サイズ、向き、変形、速度、反射率、色相、テクスチャなどに違いがある場合は、それぞれの状況に応じたトレーニングデータを追加する必要があります。

畳み込みニューラルネットワークでは、この問題はトレーニングデータを大幅に増やしたり、最大プーリング層を追加したりすることで対処されますが、これにより一般化が可能になりますが、実際の情報が犠牲になります。

以下の説明は、Hackernoon による CapsNet に関する数多くの優れた技術的説明の 1 つです。

カプセルはネストされたニューラル層のセットです。通常のニューラルネットワークでは、レイヤーを追加し続けます。 CapsNet では、単一のレイヤー内にさらにレイヤーを追加します。言い換えると、1 つのニューラルレイヤーを別のニューラルレイヤー内にネストします。カプセル内のニューロンの状態は、画像内のエンティティの上記特性を捉えることができます。カプセルは、エンティティの存在を表すベクトルを出力します。ベクトルの方向はエンティティのプロパティを表します。このベクトルは、ニューラルネットワーク内のすべての可能な親に送信されます。予測ベクトルは、それ自身の重みと重み行列の乗算に基づいて計算されます。スカラー予測ベクトル積が最大となる親は、カプセルの結合度合いを高めます。残った親は結合度合いを減らします。このプロトコルを介したルーティング方法は、現在の最大プーリングメカニズムよりも優れています。

CapsNet は必要なトレーニングデータを大幅に削減し、初期テストでは優れた画像分類パフォーマンスを示しました。

多粒度カスケードフォレスト

2 月に、南京大学の新ソフトウェア技術国家重点研究室の Zhihua Zhou 氏と Ji Feng 氏による、Multi-Grained Cascade Forests と呼ばれる手法を実証した研究を取り上げました。彼らの研究論文によると、多粒度カスケードフォレストは、テキスト分類と画像分類の両方において、畳み込みニューラルネットワークや再帰型ニューラルネットワークよりも優れていることが多いことが示されています。メリットはかなり大きいです。

必要なのはトレーニングデータのごく一部だけです。
デスクトップ CPU デバイス上で実行され、GPU は必要ありません。
トレーニングも同様に高速で、多くの場合さらに高速であるため、分散処理に適しています。
ハイパーパラメータがはるかに少なく、デフォルト設定で良好なパフォーマンスを発揮します。
完全に不透明なディープニューラルネットの代わりに、わかりやすいランダムフォレストを活用します。

簡単に言うと、gcForest (Multi-Grained Cascade Forest) は、ディープネットのカスケード構造が保持され、不透明なエッジニューロンとノードニューロンが、完全にランダムなツリーグローブとペアになったランダムフォレストのグループに置き換えられた決定木アンサンブルメソッドです。 gcForest の詳細については、当社のオリジナル記事をご覧ください。

パイロとエドワード

Pyro と Edward は、ディープラーニングフレームワークと確率的プログラミングを融合した 2 つの新しいプログラミング言語です。 Pyro は Uber と Google の共同作業ですが、Edward はコロンビア大学出身で DARPA の資金提供を受けています。その結果、ディープラーニングシステムが予測や決定に対する信頼性を測定できるフレームワークが実現しました。

従来の予測分析では、ログ損失を適合度関数として使用し、自信はあるが間違った予測 (偽陽性) にペナルティを課すことで、この問題に対処する場合があります。今のところ、ディープラーニングに類似するものは存在しません。

たとえば、これを使用できるのは自動運転の車や飛行機で、これにより、制御は重大な決定や致命的な大惨事を引き起こす決定を下す前に、ある程度の自信や疑いを持つことができます。これは確かに、車に乗る前に自動運転の Uber が知っていてほしいことです。

Pyro と Edward はどちらも開発の初期段階にあります。

ディープウェブ方式とは異なり

私は、プラットフォームの中核に非常に珍しいアルゴリズムを持つ中小企業によく出会います。私が彼らに圧力をかけたほとんどの場合、彼らはあなたに何が起こっているのかを説明するのに十分な詳細を提供しようとしませんでした。この秘密性によってその有用性が無効になるわけではありませんが、ベンチマークや詳細が提供されるまで、内部で何が起こっているのかは正確にはわかりません。これらが最終的に公開されたら、私たちの将来の作業台になると考えてください。

現在、私が調査した最先端の非DNNアルゴリズムとプラットフォームは次のとおりです。

階層的時間記憶 (HTM)

階層的時間記憶 (HTM) は、スパース分散表現 (SDR) を使用して脳内のニューロンをモデル化し、スカラー予測 (商品、エネルギー、株価などの将来の値) と異常検出において CNN や RNN よりも優れた計算を実行します。

これは、Palm Pilot の伝説的人物である Jeff Hawkins 氏が彼の会社 Numenta に捧げたものです。ホーキンス氏は、DNN のようにレイヤーやノードで構造化するのではなく、脳機能に関する基礎研究に基づいた強力な AI モデルを追求しています。

HTM の特徴は、わずか 1,000 回の観測で非常に迅速にパターンを見つけられることです。これは、CNN または RNN をトレーニングするために必要な数十万または数百万の観測と比較すると大きな違いです。

さらに、パターン認識は教師なしであり、入力の変化に基づいてパターンの変化を識別し、一般化することができます。これにより、システムのトレーニングが非常に高速になるだけでなく、自己学習と適応も可能になり、データの変更やノイズによって混乱することがなくなります。

いくつかの注目すべき漸進的な改善

私たちは本当のゲームチェンジャーに焦点を当て始めていますが、言及する価値のある漸進的な改善の例が少なくとも 2 つあります。これらは明らかに、バックプロパゲーションの要素を備えた従来の CNN と RNN ですが、はるかに優れた機能を備えています。

（１）Google Cloud AutoMLを使用したネットワークプルーニング

Google と Nvidia の研究者は、ネットワークプルーニングと呼ばれるプロセスを使用して、出力に直接貢献しないニューロンを削除することで、ニューラルネットワークをより小さく、より効率的にしました。この進歩は、Google の新しい AutoML プラットフォームのパフォーマンスの大幅な改善として最近導入されました。

（２）トランスフォーマー

Transformer は、従来は CNN、RNN、LSTM の領域であった言語間翻訳などの言語処理に元々役立つ新しいアプローチです。このツールは、昨年の夏の終わりに Google Brain とトロント大学の研究者によってリリースされ、この英語/ドイツ語翻訳テストを含むさまざまなテストで劇的な精度の向上を示しました。

RNN の順次的な性質により、順次処理よりも並列処理に優れている GPU などの最新の高速コンピューティングデバイスを十分に活用することが難しくなります。 CNN は RNN よりも連続性が低くなりますが、CNN アーキテクチャでは、距離が増加するにつれて、入力の離れた部分からの情報を結合するために必要なステップ数も増加します。

精度の飛躍的進歩は、ステップ数を小さな一定数に大幅に削減する「自己注意機能」の開発によってもたらされました。各ステップで、自己注意メカニズムを適用して、それぞれの位置に関係なく、文内のすべての単語間の関係を直接モデル化します。

VC が言ったように、趣味を変える時期なのかもしれません。

関連レポート: https://www.datasciencecentral.com/profiles/blogs/what-c omes-after-deep-learning

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest（id: BigDataDigest）」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: MLタスクを効率的、迅速、正確に完了するにはどうすればよいでしょうか? 4つのAutoMLライブラリについて学びましょう

>>: ポートレート効果はこのように使用できますか? Baidu Brain Open Day が 4 つのシナリオで AI ポートレート特殊効果機能を公開

ブログ

ディープラーニングの次に来るものは何でしょうか?

調査：消費者の68％がスマート家電がプライベートな会話を盗聴できると考えている

大規模言語モデルのデコード

人工知能と IoT – 進化する 5 つのユースケース

AIアーティストの彫刻作品が、カメラアイがスパイ活動に関与しているとの疑いで税関に押収された？

強力な人工知能を制御できる者は、世界全体を制御することになるのでしょうか?

大スキャンダル？国内のAI専門家数十人が参加した論文が重大な盗作の疑いで告発される

推薦する

米国は中国のハイテク製品を全面的に禁止する「2021年戦略競争法」を提案した。

Google が 13GB の 3D スキャンデータセットを公開: 17 のカテゴリ、1,030 個の家庭用品

DeepMindは「Transformerは事前学習データを超えて一般化できない」と指摘しているが、疑問視する人もいる。

レーザービームが人間の声を偽装し、110メートル離れた場所からスマートスピーカーをハッキング。携帯電話、コンピューター、タブレットも影響を受ける

賈強淮: Ant大規模知識グラフの構築とその応用

現実は素晴らしい、Googleとコーネル大学が提案した実画像補完技術RealFill

将来の戦争において、AIは最も危険な兵器となるのでしょうか?

2023 年のエンタープライズ AI トレンドトップ 10

NSAが設計した暗号化アルゴリズムは停止された

Google は、DQN と同等で、より優れた一般化パフォーマンスを備えた 2 つの新しい強化学習アルゴリズムを実装しました。