ディープラーニングの次に来るものは何でしょうか?

ディープラーニングの次に来るものは何でしょうか?

[[343995]]

ビッグデータダイジェスト制作

出典: datasciencecentral

編集者: ミン

私たちは行き詰まっている、あるいは少なくとも停滞している。アルゴリズム、チップ、データ処理において、注目すべき大きな進歩がなかった年がいつだったか覚えている人はいますか? 数週間前に開催された Strata San Jose カンファレンスに行って、目を引くような新しい開発が見られなかったのは珍しいことでした。

以前にも報告したように、私たちは成熟段階に入ったようで、現在私たちの主な焦点は、すべての強力な新技術がうまく連携すること(コンバージェンス プラットフォーム)を確保すること、または大規模な VC 投資から同じ収益を上げることです。

[[343996]]

これに気づいたのは私だけではない。何人かの参加者と出展者も私に非常に似たようなことを言いました。そしてつい先日、さまざまな高度な分析プラットフォームの相対的なメリットを評価し、報告する価値のある違いはないという結論に達した著名な研究者のチームからメモを受け取りました。

なぜ、どこで私たちは困っているのでしょうか?

私たちが今いる場所は、実のところ悪くありません。過去 2 ~ 3 年間の当社の進歩は、ディープラーニングと強化学習の分野でした。ディープラーニングにより、音声、テキスト、画像、ビデオの処理において驚くべき能力がもたらされました。強化学習と組み合わせることで、ゲームプレイ、自律走行車、ロボット工学などにおいて大きな進歩を遂げました。

私たちは、チャットボットによる顧客とのやり取りによる大幅な節約、パーソナルアシスタントやAlexaなどの新しい個人用便利アプリケーション、アダプティブクルーズコントロール、事故回避ブレーキ、車線維持などの個人用自動車のレベル2自動化などに基づく商業的爆発の初期段階にあります。

Tensorflow、Keras、その他のディープラーニング プラットフォームはこれまで以上にアクセスしやすくなり、GPU のおかげでこれまで以上に効率的になりました。

ただし、既知の欠陥のリストにはまったく対処されていません。

  • ラベル付けされたトレーニング データが多すぎます。
  • モデルのトレーニングに時間がかかりすぎたり、高価なリソースが多すぎたり、あるいはまったくトレーニングできない可能性があります。
  • ハイパーパラメータ、特にノードとレイヤーを囲むハイパーパラメータは、依然として謎に包まれています。自動化や、受け入れられている経験則さえも、依然として不明瞭です。
  • 転移学習とは、複雑なものから単純なものへのみを意味し、ある論理システムから別の論理システムへ転移学習することではありません。

もっと長いリストを作ることもできると思います。私たちが問題に直面したのは、これらの大きな欠点に対処する際にでした。

何が私たちを止めるのでしょうか?

ディープ ニューラル ネットワークでは、努力と投資を続ければ、これらの欠陥は克服できるというのが常識です。たとえば、80 年代や 00 年代から、ディープ ニューラル ネットワークを機能させる方法はわかっていましたが、ハードウェアがなかっただけです。それが追いつけば、ディープ ニューラル ネットワークと新しいオープン ソースの精神が組み合わさって、この新しい分野が開拓されるでしょう。

あらゆる種類の研究には独自のダイナミクスがあります。特に、特定の方向に多くの時間とお金を投資すると、常にその方向に進んでいくことになります。それらのスキルの専門知識を培うために何年も費やしてきたなら、転職する気はないでしょう。

方向がどこであるべきか完全にはわからなくても、方向を変えてください。

時には、新しい方向が正確に何であるかがわからなくても、方向を変える必要があります。最近、カナダとアメリカの一流の AI 研究者がまさにそれを実行しました。彼らは騙されたと思って、基本的に最初からやり直す必要があると考えています。

この洞察は、1980年代後半にニューラルネットワークに関する研究の主流を立ち上げる上で重要な役割を果たしたジェフリー・ヒントン氏によって昨年秋に口頭で表明された。現在トロント大学名誉教授でグーグルの研究員でもあるヒントン氏は、DNNの中核となる手法であるバックプロパゲーションに対して「深い懐疑心」を抱いていると語った。ヒントン氏は、人間の脳が結論に達するのにラベル付けされたデータすべては必要ないと考え、「私の考えでは、このデータをすべて捨てて、もう一度やり直すべきだ」と述べた。

それを念頭に置いて、ここでは、確実に達成可能とほとんど達成不可能の間に位置するが、私たちが知っているディープ ニューラル ネットワークの漸進的な改善ではない新しい方向性について簡単に説明します。

これらの説明は意図的に簡潔になっており、完全に理解するためには間違いなくさらに読み進めることになるでしょう。

DNNのように見えるがそうではないもの

Hinton のバックプロパゲーションに密接に関連する研究の 1 つでは、ノードとレイヤーの基本構造は有用であるが、接続と計算方法には大幅な変更が必要であると主張しています。

まず、ヒントン氏自身の新しい研究分野である CapsNet から始めるのが適切でしょう。これは、畳み込みニューラル ネットワークによる画像分類に関連しています。簡単に言えば、問題は、畳み込みニューラル ネットワークがオブジェクトの姿勢に敏感ではないことです。つまり、同じオブジェクトを認識したいが、位置、サイズ、向き、変形、速度、反射率、色相、テクスチャなどに違いがある場合は、それぞれの状況に応じたトレーニング データを追加する必要があります。

畳み込みニューラル ネットワークでは、この問題はトレーニング データを大幅に増やしたり、最大プーリング層を追加したりすることで対処されますが、これにより一般化が可能になりますが、実際の情報が犠牲になります。

以下の説明は、Hackernoon による CapsNet に関する数多くの優れた技術的説明の 1 つです。

カプセルはネストされたニューラル層のセットです。通常のニューラル ネットワークでは、レイヤーを追加し続けます。 CapsNet では、単一のレイヤー内にさらにレイヤーを追加します。言い換えると、1 つのニューラル レイヤーを別のニューラル レイヤー内にネストします。カプセル内のニューロンの状態は、画像内のエンティティの上記特性を捉えることができます。カプセルは、エンティティの存在を表すベクトルを出力します。ベクトルの方向はエンティティのプロパティを表します。このベクトルは、ニューラル ネットワーク内のすべての可能な親に送信されます。予測ベクトルは、それ自身の重みと重み行列の乗算に基づいて計算されます。スカラー予測ベクトル積が最大となる親は、カプセルの結合度合いを高めます。残った親は結合度合いを減らします。このプロトコルを介したルーティング方法は、現在の最大プーリング メカニズムよりも優れています。

CapsNet は必要なトレーニング データを大幅に削減し、初期テストでは優れた画像分類パフォーマンスを示しました。

多粒度カスケードフォレスト

2 月に、南京大学の新ソフトウェア技術国家重点研究室の Zhihua Zhou 氏と Ji Feng 氏による、Multi-Grained Cascade Forests と呼ばれる手法を実証した研究を取り上げました。彼らの研究論文によると、多粒度カスケードフォレストは、テキスト分類と画像分類の両方において、畳み込みニューラルネットワークや再帰型ニューラルネットワークよりも優れていることが多いことが示されています。メリットはかなり大きいです。

  • 必要なのはトレーニング データのごく一部だけです。
  • デスクトップ CPU デバイス上で実行され、GPU は必要ありません。
  • トレーニングも同様に高速で、多くの場合さらに高速であるため、分散処理に適しています。
  • ハイパーパラメータがはるかに少なく、デフォルト設定で良好なパフォーマンスを発揮します。
  • 完全に不透明なディープ ニューラル ネットの代わりに、わかりやすいランダム フォレストを活用します。

簡単に言うと、gcForest (Multi-Grained Cascade Forest) は、ディープ ネットのカスケード構造が保持され、不透明なエッジ ニューロンとノード ニューロンが、完全にランダムなツリー グローブとペアになったランダム フォレストのグループに置き換えられた決定木アンサンブル メソッドです。 gcForest の詳細については、当社のオリジナル記事をご覧ください。

パイロとエドワード

Pyro と Edward は、ディープラーニング フレームワークと確率的プログラミングを融合した 2 つの新しいプログラミング言語です。 Pyro は Uber と Google の共同作業ですが、Edward はコロンビア大学出身で DARPA の資金提供を受けています。その結果、ディープラーニング システムが予測や決定に対する信頼性を測定できるフレームワークが実現しました。

従来の予測分析では、ログ損失を適合度関数として使用し、自信はあるが間違った予測 (偽陽性) にペナルティを課すことで、この問題に対処する場合があります。今のところ、ディープラーニングに類似するものは存在しません。

たとえば、これを使用できるのは自動運転の車や飛行機で、これにより、制御は重大な決定や致命的な大惨事を引き起こす決定を下す前に、ある程度の自信や疑いを持つことができます。これは確かに、車に乗る前に自動運転の Uber が知っていてほしいことです。

Pyro と Edward はどちらも開発の初期段階にあります。

ディープウェブ方式とは異なり

私は、プラットフォームの中核に非常に珍しいアルゴリズムを持つ中小企業によく出会います。私が彼らに圧力をかけたほとんどの場合、彼らはあなたに何が起こっているのかを説明するのに十分な詳細を提供しようとしませんでした。この秘密性によってその有用性が無効になるわけではありませんが、ベンチマークや詳細が提供されるまで、内部で何が起こっているのかは正確にはわかりません。これらが最終的に公開されたら、私たちの将来の作業台になると考えてください。

現在、私が調査した最先端の非DNNアルゴリズムとプラットフォームは次のとおりです。

階層的時間記憶 (HTM)

階層的時間記憶 (HTM) は、スパース分散表現 (SDR) を使用して脳内のニューロンをモデル化し、スカラー予測 (商品、エネルギー、株価などの将来の値) と異常検出において CNN や RNN よりも優れた計算を実行します。

これは、Palm Pilot の伝説的人物である Jeff Hawkins 氏が彼の会社 Numenta に捧げたものです。ホーキンス氏は、DNN のようにレイヤーやノードで構造化するのではなく、脳機能に関する基礎研究に基づいた強力な AI モデルを追求しています。

HTM の特徴は、わずか 1,000 回の観測で非常に迅速にパターンを見つけられることです。これは、CNN または RNN をトレーニングするために必要な数十万または数百万の観測と比較すると大きな違いです。

さらに、パターン認識は教師なしであり、入力の変化に基づいてパターンの変化を識別し、一般化することができます。これにより、システムのトレーニングが非常に高速になるだけでなく、自己学習と適応も可能になり、データの変更やノイズによって混乱することがなくなります。

いくつかの注目すべき漸進的な改善

私たちは本当のゲームチェンジャーに焦点を当て始めていますが、言及する価値のある漸進的な改善の例が少なくとも 2 つあります。これらは明らかに、バックプロパゲーションの要素を備えた従来の CNN と RNN ですが、はるかに優れた機能を備えています。

(1)Google Cloud AutoMLを使用したネットワークプルーニング

Google と Nvidia の研究者は、ネットワーク プルーニングと呼ばれるプロセスを使用して、出力に直接貢献しないニューロンを削除することで、ニューラル ネットワークをより小さく、より効率的にしました。この進歩は、Google の新しい AutoML プラットフォームのパフォーマンスの大幅な改善として最近導入されました。

(2)トランスフォーマー

Transformer は、従来は CNN、RNN、LSTM の領域であった言語間翻訳などの言語処理に元々役立つ新しいアプローチです。このツールは、昨年の夏の終わりに Google Brain とトロント大学の研究者によってリリースされ、この英語/ドイツ語翻訳テストを含むさまざまなテストで劇的な精度の向上を示しました。

RNN の順次的な性質により、順次処理よりも並列処理に優れている GPU などの最新の高速コンピューティング デバイスを十分に活用することが難しくなります。 CNN は RNN よりも連続性が低くなりますが、CNN アーキテクチャでは、距離が増加するにつれて、入力の離れた部分からの情報を結合するために必要なステップ数も増加します。

精度の飛躍的進歩は、ステップ数を小さな一定数に大幅に削減する「自己注意機能」の開発によってもたらされました。各ステップで、自己注意メカニズムを適用して、それぞれの位置に関係なく、文内のすべての単語間の関係を直接モデル化します。

VC が言ったように、趣味を変える時期なのかもしれません。

関連レポート: https://www.datasciencecentral.com/profiles/blogs/what-c ​​omes-after-deep-learning

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  MLタスクを効率的、迅速、正確に完了するにはどうすればよいでしょうか? 4つのAutoMLライブラリについて学びましょう

>>:  ポートレート効果はこのように使用できますか? Baidu Brain Open Day が 4 つのシナリオで AI ポートレート特殊効果機能を公開

ブログ    
ブログ    
ブログ    

推薦する

Chen Danqi 氏のグループによるマスク言語モデルに関する研究: 15% のマスク率は最適ではないが、40% は維持可能か?

少し前に、スローン財団は2022年度スローン研究賞の受賞者を発表しました。Chen Danqi、Fa...

...

ホンダのエンジニアはAIを活用して安全性と燃費規制を設計

[[378826]]本田技術研究所では、エキスパートナレッジシステムを活用して車体設計プロセスに A...

53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

[[424523]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

...

将来、人工知能に最も影響を受ける5つの業界!

人工知能の概念はますます普及しています。急速に発展する人工知能にとって、チェスの世界を席巻することは...

自動運転の 3 つの大きな問題点、つまり安全性に直接対処しますか?プレミアム?プライバシー漏洩?

2021年の上海モーターショーが終わったばかりですが、会場内外で自動運転が大きな注目を集めています...

AI人材の世界的な需要が急増、一部の職種では年間40万ドル近くを稼ぐ

AI業界の急速な発展に伴い、テクノロジー業界におけるAI人材の需要も高まっています。 USA Tod...

ByteDance、最大6.9倍のパフォーマンス向上を実現した大規模モデルトレーニングフレームワークveGiantModelをオープンソース化

背景近年、NLPの応用分野では大きな進歩がありました。Bert、GPT、GPT-3などの超大規模モデ...

データセンターから発電所まで: 人工知能がエネルギー利用に与える影響

人工知能 (AI) は急速に現代生活に欠かせないものとなり、産業を変革し、私たちの生活、仕事、コミュ...

...

...

...

エントリーレベルのデータベースアルゴリズム [パート 2]

前回の記事「エントリーレベルのデータベースのアルゴリズム [I]」では、いくつかのデータ アルゴリズ...

とても驚きました! GPT-4V錯視チャレンジ記録: 間違っているはずのものは間違っていない、間違っているはずのないものも間違っている

GPT-4V は視覚エラーマップに挑戦し、その結果は「衝撃的」でした。 「どちらの側が明るいですか」...