ディープラーニングの面接で知っておくべきこと

[[208646]]

この記事は、「ディープラーニングの面接で知っておくべきことは何ですか」という質問に対する回答です。

1. L0、L1、L2、L∞、フロベニウスノルムなど、一般的なノルムとその適用シナリオをいくつか挙げてください。

答え: p39-p40; および p230-p236 には正規化アプリケーションがあります

2. ベイズ確率と頻度主義確率、および統計における真のパラメータに関する仮定について簡単に説明します。

答え: p55

3. 確率密度の最良近似値

答え: p67: 上記3.10

4. シグモイド、relu、softplus、tanh、RBFとその応用シナリオについて簡単に紹介する

A: シグモイドとソフトプラスはp67にあります。すべてp193-p197にあります。

5. ヤコビ行列、ヘッセ行列とディープラーニングにおけるその重要性

答え: p86-p92

6. KLダイバージェンスは情報理論における直感的な量を測定する

答え: p74

7. ソフトマックスにおける処理方法などの数値計算におけるオーバーフローとアンダーフローの問題

答え: p80-p81

8. 行列の固有値に関連する条件数（悪条件条件）と、勾配爆発および勾配拡散との関係は何ですか？

答え: p82;

9. 勾配ベースの最適化問題において、勾配が 0 のゼロ境界点が局所的最大値/大域的最小値か鞍点かをどのように判断するか? ヘッセ行列の条件数と勾配降下法の関係

答え: p86-p92

10. KTT法と制約付き最適化問題、アクティブ制約の定義

答え: p93-p95

11. モデル容量、表現容量、有効容量、最終容量の概念

答え: p111;p113;p114;p115

12. 正則化における重み減衰と特定の条件下での事前知識の追加との等価性

答え: p119; p138

13. ガウス分布が広く使われている理由

答え: p63-p64

14.***尤度推定におけるKLダイバージェンスの最小化と分布間のクロスエントロピーの最小化の関係

答え: p132

15. 線形回帰問題において、ガウス事前重みを用いたMAPベイズ推定と重み減衰および正則化の関係

答え: p138-p139

16. スパース表現、低次元表現、独立表現

答え: p147

17. マップ（勾配？）最適化に基づいて最小化できないコスト関数とその特徴をいくつか挙げてください。

答え: p155の一番上の段落

18. ディープニューラルネットワークでは、隠れ層が導入され、トレーニング問題の凸性は放棄されます。これにはどのような意味がありますか?

答え: p191-192

19. 特定の区間における関数の飽和度と滑らかさが勾配学習に与える影響

答え: p160

20. 勾配爆発に対するいくつかの解決策

答え: p302

21.*** MLP の近似特性

答え: p198

22. フィードフォワードネットワークにおける深さと幅の関係と表現能力の違い

答え: p200-p201

23. クロスエントロピー損失はシグモイドおよびソフトマックス出力を持つモデルのパフォーマンスを向上させるのに、平均二乗誤差損失を使用すると多くの問題が発生するのはなぜですか。シグモイドの代わりに区分線形隠れ層を使用することの長所と短所

答え: p226; p226

24. 表現学習の開発の本来の意図は何ですか？そしてその典型的な例であるオートエンコーダを紹介してください。

答え: p3-p4;p4

25. 正規化のプロセスで、重みにのみペナルティを適用し、バイアスにはペナルティを適用しないのはなぜですか?

答え: p230

26. ディープラーニングニューラルネットワークにおいて、すべての層で同じ重み減衰を使用することの長所と短所を検討する

答え: p230

27. 正規化プロセス中に、ヘッセ行列の重み減衰と固有値の関係、および勾配拡散と勾配爆発との関係がいくつかある。

答え: p231-234

28. L1/L2正則化とガウス事前分布/対数事前分布によるMAPベイズ推論の関係

答え: p234-p237

29. 不足制約とは何ですか? ほとんどの正規化により、不足制約下の不足決定問題が反復プロセスで収束できるのはなぜですか?

答え: p239

30. モデルのトレーニング中に入力（隠れユニット/重み）に分散の小さいノイズを追加することを検討する理由と、それが正規化とどのように関係するか

答え: p240-p243

31. 共有パラメータの概念と深層学習におけるその広範な影響

答え: p245; p253

32. ドロップアウトとバギング統合法の関係、ドロップアウトの重要性とそれがなぜ強力なのか

答え: p258-p268

33. バッチ勾配降下法におけるバッチサイズと各種更新の安定性の関係

答え: p279

34. 深層学習における病的状態、鞍点、勾配爆発、勾配拡散を回避する方法

答え: p282-p293

35. SGDと学習率選択法、運動量付きSGDが悪条件ヘッセ行列に与える影響と確率的勾配の分散

答え: p294; p296-p300

36. 重みの初期化における様々なネットワーク構造における重みサイズの影響、およびいくつかの初期化方法、バイアスの初期化

答え: 重みを初期化: p301-p305; バイアスを初期化: p305-p306

37. 適応学習率アルゴリズム: AdaGrad、RMSProp、Adam およびその他のアルゴリズム

答え: AdaGrad:p307; RMSProp:p307-p308; Adam:p308-p309

38. 2次近似法：ニュートン法、共役勾配法、BFGSなど

答え: ニュートン法: p310-p313; 共役勾配法: p313-p316; BFGS: p316-p317

39.高次最適化アルゴリズムにおけるヘッセ行列標準化の重要性

答え: p318-p321

40. 畳み込みネットワークにおける並進等価性の理由、畳み込みの一般的な形式

答え: 並進等価性: p338-p339; 畳み込みの一般的な形式: p347-p358

41.プーリングの重要性

答え: p342-p347

42. リカレントニューラルネットワークの一般的な依存関係ループ関係、一般的な入力と出力、および対応するアプリケーションシナリオ

答え: p378-p395

43. seq2seq、gru、lstm などの原理

答え: seq2seq:p396-p397; gru:p411-p412; lstm:p408-p411

44. ディープラーニングにおけるサンプリングの重要性

答え: p469-p471

45. オートエンコーダと線形因子モデル、PCA、ICA などの関係。

答え: オートエンコーダーと線形因子モデル: p489-p490; PCA: p490-p491; ICA: p491-p493

46. ディープラーニングにおけるオートエンコーダの重要性、および一般的な変換とアプリケーション

回答: 重要性: p502-p503; 一般的なバリエーション: p503-p508; p509-p512; p521-p524 応用: p515-p520; p524-p525

47. 制限ボルツマンマシンが広く応用されている理由

答え: p460: さらに詳しく知りたい人は、この文に注目してください: これらのモデルが成功した理由の分析については、Mohamed et al. (2012b) を参照してください。

48. 安定分布とマルコフ連鎖

答え: p595-p598

49. ギブスサンプリングの原理

答え: p599

50.パーティション関数は計算が難しい場合がよくあります。

答え: p605、p606***

51. 複数のパラメータ推定値の関連性と相違点: MLE/MAP/ベイズ

答え: P134-P139

52. 半教師あり学習の考え方と深層学習への応用

答え: p541-p546

53. 異なるデータソースにおけるCNNのチャネルの意味の例を挙げてください。

答え: p360-p362

54. NLP、音声、画像などの分野におけるディープラーニングの応用とよく使われるモデル

答え: p452-p485

55. word2vecとgloveの比較

回答: GloVe と word2vec の違いは何ですか? ; GloVe と Word2vec はディープラーニングと呼べるでしょうか? これら 2 つのモデルのレベルは、実は非常に浅いです。http://clic.cimec.unitn.it/marco/publications/acl2014/baroni-etal-countpredict-acl2014.pdf この質問の回答が見つからなかったので、Quora と Zhihu で関連する質問を探したほか、Quora の回答で言及されている論文も探しました。（もし本の中でそれを見つけた人がいたら、批判して訂正してください）

56.ディープラーニングのいくつかのシナリオで注意メカニズムが広く使用されているのはなぜですか?

答え: p475-p476

57. ワイド&ディープモデルにおけるワイド&ディープの紹介

回答: https://arxiv.org/pdf/1606.07792.pdf この質問の答えは本の中になかったので、元の論文を探しました。論文の図1に詳細な紹介があります。（もし本の中でそれを見つけたら、批判して訂正してください）

58. カーネル回帰とRBFネットワークの関係

答え: p142

59.LSTM 構造導出はなぜ RNN よりも優れているのでしょうか?

答え: p408-p411

60. ディープラーニングにおけるオーバーフィッティングの一般的な解決策または構造設計

回答: p230-p268; 含まれるもの: パラメータノルムペナルティ (パラメータノルムペナルティ); データセット拡張 (データセット拡張); 早期停止 (早期終了); パラメータタイイングとパラメータ共有 (パラメータバインディングとパラメータ共有); バギングとその他のアンサンブルメソッド (バギングとその他の統合メソッド); ドロップアウト。バッチ正規化もあります。

61. ベイズモデルの有効なパラメータデータはデータセットのサイズに応じて自動的に調整されることをどのように理解すればよいでしょうか?

回答: ノンパラメトリックモデルについて: p115-p116。ノンパラメトリックモデルは特定の確率モデルに依存せず、パラメーターは無限次元であり、データセットのサイズによって、モデルをモデル化するために使用するパラメーターの数が増えたり減ったりするかどうかが決まります。（本の中に正確な答えは見つかりませんでした。より良い答えをお持ちの場合は、私に連絡して修正してください。）

<<: 教師なしニューラル機械翻訳: 単一言語コーパスのみを使用する

>>: Google Brain エンジニアの講演: TensorFlow とディープラーニング

ディープラーニングの面接で知っておくべきこと

ベアリングポイント調査 - 2022 年の 5 つのテクノロジートレンド

人工知能時代の機械の未来

データセンター管理者は AI と ML の爆発的な増加にどのように備えればよいのでしょうか?

あなたの将来の子供はどんな風になるでしょうか？このAIミニプログラムは海外のDouyinアプリで大人気となり、数え切れないほどのネットユーザーが感動して涙しました！

よく使われるソートアルゴリズムの比較と分析

不正行為防止スパムテキスト認識のためのZhihuのディープラーニング実践の詳細な説明

清華大学と北京大学がケンブリッジ大学を上回り、Googleがリストを独占、百度が中国企業をリード、ICML2020ランキングが発表

推薦する

2030 年の汎用人工知能 (AGI) の見通しはどうなるでしょうか?

今後数年間の人工知能研究が避けられない3つの重要な問題

NLPユニコーンが作業と生産を停止したと報告されました！ 10億人民元を調達した後も収益を上げるのは依然として困難であり、大型モデルブームの中で生き残ることはさらに困難である。

iPhoneで初めての機械学習モデルを構築する方法

2019年にロボット分野で注目すべき5つのトレンド

ついに誰かが教師あり学習を明確にした

私の目が支配者です！ 80億のパラメータを備えたOtterHDは、清明節のラクダを数えるのに役立ちます。南洋理工大学の中国チームによって作成されました

Evil GPT に新たなメンバーが加わりました: Dark Web には 3,000 を超えるサブスクリプションがあり、発行者の正体は依然として謎のままです。

人工知能について、2020年に研究すべきトップ10のトレンド

AIチップとは何ですか?人々が知っておくべきことすべて

AI投資から利益を得るための3つの鍵

Baidu PaddlePaddleがHuawei Kirinと提携し、中国のAIの道を歩む

手動でラベルを付ける必要はありません。シドニー大学の中国チームは、「GPT自己教師付きラベリング」パラダイムを提案しました。これは、ラベリングのコスト、バイアス、評価の問題を完全に解決します。