AI算法笔试题模拟-深度学习基础
2025-09-15
📘 模块三:深度学习(30题)
神经网络基础(1–6)
Q1. 反向传播算法主要基于:
- A. 动态规划
- B. 链式法则
- C. 牛顿法
- D. EM 算法
✅ 答案:B
Q2. 在前馈神经网络中,如果隐藏层数量过少,主要问题是:
- A. 容易过拟合
- B. 容易欠拟合
- C. 梯度消失
- D. 计算量过大
✅ 答案:B
Q3. Dropout 的主要作用是:
- A. 加快训练速度
- B. 减少过拟合
- C. 降低偏差
- D. 增加模型复杂度
✅ 答案:B
Q4. Batch Normalization 的主要作用是:
- A. 减少梯度消失/爆炸
- B. 增加模型容量
- C. 减少训练数据量
- D. 降低模型大小
✅ 答案:A
Q5. Softmax 函数的输出性质是:
- A. 可以为负数
- B. 和为 1
- C. 任意实数
- D. 独立分布
✅ 答案:B
Q6. 在分类问题中,输出层常用的激活函数是:
- A. Sigmoid
- B. Tanh
- C. Softmax
- D. ReLU
✅ 答案:C
卷积神经网络 CNN(7–12)
Q7. 在 CNN 中,感受野的大小主要由以下因素决定:
- A. 卷积核大小、stride、网络层数
- B. 学习率和正则化
- C. 损失函数
- D. 批量大小
✅ 答案:A
Q8. 若输入为 32×32,卷积核大小 5×5,stride=1,padding=0,则输出大小为:
- A. 28 × 28
- B. 29 × 29
- C. 30 × 30
- D. 32 × 32
✅ 答案:A (32−5+1=28)
Q9. 在 CNN 中使用池化(Pooling)的主要目的不包括:
- A. 降低维度
- B. 提高平移不变性
- C. 提高分辨率
- D. 防止过拟合
✅ 答案:C
Q10. 以下哪种卷积方式参数最少?
- A. 普通卷积
- B. 深度可分离卷积(Depthwise Separable)
- C. 空洞卷积(Dilated)
- D. 转置卷积
✅ 答案:B
Q11. ResNet 引入残差结构的主要目的是:
- A. 加快训练速度
- B. 避免梯度消失/退化问题
- C. 减少参数量
- D. 提高卷积核大小
✅ 答案:B
Q12. GoogLeNet 中引入 Inception 模块的主要思想是:
- A. 多尺度卷积并行
- B. 使用残差连接
- C. 使用循环网络
- D. 直接堆叠卷积层
✅ 答案:A
循环神经网络 RNN / LSTM(13–17)
Q13. RNN 的主要缺点是:
- A. 无法处理序列数据
- B. 参数太少
- C. 容易梯度消失或爆炸
- D. 只能做分类
✅ 答案:C
Q14. LSTM 相比 RNN 的主要改进是:
- A. 使用卷积结构
- B. 引入门控机制
- C. 参数减少
- D. 更深的网络结构
✅ 答案:B
Q15. LSTM 中的遗忘门(Forget Gate)的作用是:
- A. 决定输入多少信息进入记忆
- B. 决定保留多少历史信息
- C. 决定最终输出多少信息
- D. 决定学习率大小
✅ 答案:B
Q16. GRU 相比 LSTM 的主要优势是:
- A. 参数更少,计算更快
- B. 表达能力更强
- C. 不需要门控
- D. 不会过拟合
✅ 答案:A
Q17. 在语言建模任务中,常用的损失函数是:
- A. MSE
- B. Hinge Loss
- C. Cross-Entropy
- D. KL 散度
✅ 答案:C
Transformer 与 Attention(18–22)
Q18. Transformer 的 self-attention 机制中,输出是:
- A. QKT 后 softmax
- B. softmax(QKT/dk)V
- C. QKT+V
- D. QVT
✅ 答案:B
Q19. 在多头注意力机制中,多头的作用是:
- A. 提高并行化效率
- B. 提高模型表达能力
- C. 降低计算复杂度
- D. 减少参数量
✅ 答案:B
Q20. Transformer 中的位置编码 (Positional Encoding) 作用是:
- A. 提供词向量初始化
- B. 让模型具备序列顺序信息
- C. 减少计算量
- D. 增加参数
✅ 答案:B
Q21. BERT 属于:
- A. 自回归模型
- B. 自编码模型
- C. 强化学习模型
- D. 生成对抗模型
✅ 答案:B
Q22. GPT 训练目标是:
- A. 预测被 Mask 的词
- B. 下一个词预测(自回归)
- C. 图像分类
- D. 强化学习策略优化
✅ 答案:B
优化器与训练技巧(23–27)
Q23. SGD 的主要缺点是:
- A. 计算量大
- B. 震荡且收敛慢
- C. 参数过多
- D. 不适合非凸优化
✅ 答案:B
Q24. Adam 优化器结合了:
- A. 动量 + 自适应学习率
- B. SGD + 正则化
- C. 牛顿法 + SGD
- D. BatchNorm + 动量
✅ 答案:A
Q25. 学习率衰减 (Learning Rate Decay) 的作用是:
- A. 防止过拟合
- B. 提高精度并稳定收敛
- C. 减少参数量
- D. 增加模型复杂度
✅ 答案:B
Q26. Early Stopping 的主要作用是:
- A. 防止过拟合
- B. 减少训练时间
- C. 减少内存占用
- D. 提高收敛速度
✅ 答案:A
Q27. 大 batch 训练的主要问题是:
- A. 梯度估计噪声大
- B. 泛化性能差
- C. 学习率过小
- D. 无法使用 GPU
✅ 答案:B
参数量与复杂度(28–30)
Q28. 全连接层参数量计算公式为:
- A. 输入维度 × 输出维度
- B. 输入维度 × 输出维度 + 输出维度
- C. 输入维度 + 输出维度
- D. 输入维度 × 输出维度 × BatchSize
✅ 答案:B (加上 bias)
Q29. CNN 中一个卷积层的参数量计算公式是:
- A. 卷积核宽 × 高
- B. 核宽 × 高 × 输入通道数 × 输出通道数 (+ bias)
- C. 输入维度 × 输出维度
- D. 核数 × 输入维度
✅ 答案:B
Q30. Transformer 中 self-attention 的计算复杂度(序列长度为 n)是:
- A. O(n)
- B. O(n log n)
- C. O(n²)
- D. O(n³)
✅ 答案:C