ディープラーニングの面接で知っておくべきこと

ディープラーニングの面接で知っておくべきこと

[[208646]]

この記事は、「ディープラーニングの面接で知っておくべきことは何ですか」という質問に対する回答です。

1. L0、L1、L2、L∞、フロベニウスノルムなど、一般的なノルムとその適用シナリオをいくつか挙げてください。

答え: p39-p40; および p230-p236 には正規化アプリケーションがあります

2. ベイズ確率と頻度主義確率、および統計における真のパラメータに関する仮定について簡単に説明します。

答え: p55

3. 確率密度の最良近似値

答え: p67: 上記3.10

4. シグモイド、relu、softplus、tanh、RBFとその応用シナリオについて簡単に紹介する

A: シグモイドとソフトプラスはp67にあります。すべてp193-p197にあります。

5. ヤコビ行列、ヘッセ行列とディープラーニングにおけるその重要性

答え: p86-p92

6. KLダイバージェンスは情報理論における直感的な量を測定する

答え: p74

7. ソフトマックスにおける処理方法などの数値計算におけるオーバーフローとアンダーフローの問題

答え: p80-p81

8. 行列の固有値に関連する条件数(悪条件条件)と、勾配爆発および勾配拡散との関係は何ですか?

答え: p82;

9. 勾配ベースの最適化問題において、勾配が 0 のゼロ境界点が局所的最大値/大域的最小値か鞍点かをどのように判断するか? ヘッセ行列の条件数と勾配降下法の関係

答え: p86-p92

10. KTT法と制約付き最適化問題、アクティブ制約の定義

答え: p93-p95

11. モデル容量、表現容量、有効容量、最終容量の概念

答え: p111;p113;p114;p115

12. 正則化における重み減衰と特定の条件下での事前知識の追加との等価性

答え: p119; p138

13. ガウス分布が広く使われている理由

答え: p63-p64

14.***尤度推定におけるKLダイバージェンスの最小化と分布間のクロスエントロピーの最小化の関係

答え: p132

15. 線形回帰問題において、ガウス事前重みを用いたMAPベイズ推定と重み減衰および正則化の関係

答え: p138-p139

16. スパース表現、低次元表現、独立表現

答え: p147

17. マップ(勾配?)最適化に基づいて最小化できないコスト関数とその特徴をいくつか挙げてください。

答え: p155の一番上の段落

18. ディープ ニューラル ネットワークでは、隠れ層が導入され、トレーニング問題の凸性は放棄されます。これにはどのような意味がありますか?

答え: p191-192

19. 特定の区間における関数の飽和度と滑らかさが勾配学習に与える影響

答え: p160

20. 勾配爆発に対するいくつかの解決策

答え: p302

21.*** MLP の近似特性

答え: p198

22. フィードフォワードネットワークにおける深さと幅の関係と表現能力の違い

答え: p200-p201

23. クロスエントロピー損失はシグモイドおよびソフトマックス出力を持つモデルのパフォーマンスを向上させるのに、平均二乗誤差損失を使用すると多くの問題が発生するのはなぜですか。シグモイドの代わりに区分線形隠れ層を使用することの長所と短所

答え: p226; p226

24. 表現学習の開発の本来の意図は何ですか?そしてその典型的な例であるオートエンコーダを紹介してください。

答え: p3-p4;p4

25. 正規化のプロセスで、重みにのみペナルティを適用し、バイアスにはペナルティを適用しないのはなぜですか?

答え: p230

26. ディープラーニングニューラルネットワークにおいて、すべての層で同じ重み減衰を使用することの長所と短所を検討する

答え: p230

27. 正規化プロセス中に、ヘッセ行列の重み減衰と固有値の関係、および勾配拡散と勾配爆発との関係がいくつかある。

答え: p231-234

28. L1/L2正則化とガウス事前分布/対数事前分布によるMAPベイズ推論の関係

答え: p234-p237

29. 不足制約とは何ですか? ほとんどの正規化により、不足制約下の不足決定問題が反復プロセスで収束できるのはなぜですか?

答え: p239

30. モデルのトレーニング中に入力(隠れユニット/重み)に分散の小さいノイズを追加することを検討する理由と、それが正規化とどのように関係するか

答え: p240-p243

31. 共有パラメータの概念と深層学習におけるその広範な影響

答え: p245; p253

32. ドロップアウトとバギング統合法の関係、ドロップアウトの重要性とそれがなぜ強力なのか

答え: p258-p268

33. バッチ勾配降下法におけるバッチサイズと各種更新の安定性の関係

答え: p279

34. 深層学習における病的状態、鞍点、勾配爆発、勾配拡散を回避する方法

答え: p282-p293

35. SGDと学習率選択法、運動量付きSGDが悪条件ヘッセ行列に与える影響と確率的勾配の分散

答え: p294; p296-p300

36. 重みの初期化における様々なネットワーク構造における重みサイズの影響、およびいくつかの初期化方法、バイアスの初期化

答え: 重みを初期化: p301-p305; バイアスを初期化: p305-p306

37. 適応学習率アルゴリズム: AdaGrad、RMSProp、Adam およびその他のアルゴリズム

答え: AdaGrad:p307; RMSProp:p307-p308; Adam:p308-p309

38. 2次近似法:ニュートン法、共役勾配法、BFGSなど

答え: ニュートン法: p310-p313; 共役勾配法: p313-p316; BFGS: p316-p317

39.高次最適化アルゴリズムにおけるヘッセ行列標準化の重要性

答え: p318-p321

40. 畳み込みネットワークにおける並進等価性の理由、畳み込みの一般的な形式

答え: 並進等価性: p338-p339; 畳み込みの一般的な形式: p347-p358

41.プーリングの重要性

答え: p342-p347

42. リカレントニューラルネットワークの一般的な依存関係ループ関係、一般的な入力と出力、および対応するアプリケーションシナリオ

答え: p378-p395

43. seq2seq、gru、lstm などの原理

答え: seq2seq:p396-p397; gru:p411-p412; lstm:p408-p411

44. ディープラーニングにおけるサンプリングの重要性

答え: p469-p471

45. オートエンコーダと線形因子モデル、PCA、ICA などの関係。

答え: オートエンコーダーと線形因子モデル: p489-p490; PCA: p490-p491; ICA: p491-p493

46. ディープラーニングにおけるオートエンコーダの重要性、および一般的な変換とアプリケーション

回答: 重要性: p502-p503; 一般的なバリエーション: p503-p508; p509-p512; p521-p524 応用: p515-p520; p524-p525

47. 制限ボルツマンマシンが広く応用されている理由

答え: p460: さらに詳しく知りたい人は、この文に注目してください: これらのモデルが成功した理由の分析については、Mohamed et al. (2012b) を参照してください。

48. 安定分布とマルコフ連鎖

答え: p595-p598

49. ギブスサンプリングの原理

答え: p599

50.パーティション関数は計算が難しい場合がよくあります。

答え: p605、p606***

51. 複数のパラメータ推定値の関連性と相違点: MLE/MAP/ベイズ

答え: P134-P139

52. 半教師あり学習の考え方と深層学習への応用

答え: p541-p546

53. 異なるデータソースにおけるCNNのチャネルの意味の例を挙げてください。

答え: p360-p362

54. NLP、音声、画像などの分野におけるディープラーニングの応用とよく使われるモデル

答え: p452-p485

55. word2vecとgloveの比較

回答: GloVe と word2vec の違いは何ですか? ; GloVe と Word2vec はディープラーニングと呼べるでしょうか? これら 2 つのモデルのレベルは、実は非常に浅いです。http://clic.cimec.unitn.it/marco/publications/acl2014/baroni-etal-countpredict-acl2014.pdf この質問の回答が見つからなかったので、Quora と Zhihu で関連する質問を探したほか、Quora の回答で言及されている論文も探しました。 (もし本の中でそれを見つけた人がいたら、批判して訂正してください)

56.ディープラーニングのいくつかのシナリオで注意メカニズムが広く使用されているのはなぜですか?

答え: p475-p476

57. ワイド&ディープモデルにおけるワイド&ディープの紹介

回答: https://arxiv.org/pdf/1606.07792.pdf この質問の答えは本の中になかったので、元の論文を探しました。論文の図1に詳細な紹介があります。 (もし本の中でそれを見つけたら、批判して訂正してください)

58. カーネル回帰とRBFネットワークの関係

答え: p142

59.LSTM 構造導出はなぜ RNN よりも優れているのでしょうか?

答え: p408-p411

60. ディープラーニングにおけるオーバーフィッティングの一般的な解決策または構造設計

回答: p230-p268; 含まれるもの: パラメータ ノルム ペナルティ (パラメータ ノルム ペナルティ); データセット拡張 (データセット拡張); 早期停止 (早期終了); パラメータ タイイングとパラメータ共有 (パラメータ バインディングとパラメータ共有); バギングとその他のアンサンブル メソッド (バギングとその他の統合メソッド); ドロップアウト。バッチ正規化もあります。

61. ベイズモデルの有効なパラメータデータはデータセットのサイズに応じて自動的に調整されることをどのように理解すればよいでしょうか?

回答: ノンパラメトリック モデルについて: p115-p116。ノンパラメトリック モデルは特定の確率モデルに依存せず、パラメーターは無限次元であり、データ セットのサイズによって、モデルをモデル化するために使用するパラメーターの数が増えたり減ったりするかどうかが決まります。 (本の中に正確な答えは見つかりませんでした。より良い答えをお持ちの場合は、私に連絡して修正してください。)

<<:  教師なしニューラル機械翻訳: 単一言語コーパスのみを使用する

>>:  Google Brain エンジニアの講演: TensorFlow とディープラーニング

ブログ    
ブログ    
ブログ    

推薦する

Google が史上最強の人間の脳の「地図」を公開、3D ニューロンの「森」がオンラインで閲覧可能に

シナプスはニューラルネットワークの「橋」です。人間の脳には 860 億個のニューロンがあり、あるニュ...

ドローンは将来のスマートシティで重要な役割を果たすだろう

「スマートシティ」という概念は何十年も前から存在していたが、その最新版では、住民の生活を向上させるた...

...

グラフィカルな説明 | Linux メモリリサイクル LRU アルゴリズム

[[421791]]メモリは、オペレーティング システムにとって非常に重要なリソースです。オペレーテ...

...

この記事では人工知能とは何かを徹底的に解説します!

人工知能 (AI) は、自然科学のさまざまな分野を網羅しており、主に特定の種類の知的な人間の活動をモ...

JDデジタルJDDコンペティションの優勝者が発表されました

現在、私たちはAIとビッグデータの急速な発展の時期を迎えています。これらの最先端技術は産業界に力を与...

自動運転が原因でしょうか?上海の地下鉄で乗客がホームの網戸に挟まれて死亡した。この悲劇の責任は誰にあるのだろうか?

1月22日午後、上海地下鉄15号線で重大事故が発生した。千安路駅のプラットホームで、乗客が電車から...

ビル・ゲイツ:この伝染病は[諸刃の剣]であり、人工知能はエイズとCOVID-19を治すと期待されています!

序文:科学技術界の頂点に立つビル・ゲイツ氏は、2015年にTEDで「今後数十年のうちに、核戦争よりも...

モバイル AI でよりスマートなアプリを構築

モバイル AI は、すでにペースが速いモバイル アプリ開発の世界に混乱をもたらしています。 2020...

ChatGPTの最強の対戦相手が実際のテストでWen Xin Yi Yanに敗れました!

編纂者:王睿平校正 | Yan Zheng著作権侵害、プライバシー侵害、度重なる訴訟により、Chat...

...

AIデザイナー「ルバン」のコア技術が明らかに:1秒間に8,000枚のポスターをデザインする方法とは?

[[228895]] AI は囲碁のゲームを変え、今度はポスターのデザインを変えています。アリババ...

AIを使って死後の意識を蘇らせることは信頼できるのか?デジタル不滅には経済計算が必要

十分なデータがあれば、愛する人が亡くなった後でも、その人の意識を生かし続けることができます。それは何...

CMU のポスドクらが NLP データ処理ツールを発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...