AI算法笔试题模拟-深度学习基础-2
2025-09-15
📘 模块三:深度学习扩展题(50题)
神经网络基础(1–8)
Q1. 神经网络中使用非线性激活函数的主要原因是:
- A. 降低计算复杂度
- B. 提高数值稳定性
- C. 提供非线性表示能力
- D. 增加参数数量
✅ 答案:C
Q2. Sigmoid 激活函数在大数值输入时的主要问题是:
- A. 过拟合
- B. 梯度消失
- C. 梯度爆炸
- D. 不收敛
✅ 答案:B
Q3. ReLU 激活函数的主要优势是:
- A. 恒等函数
- B. 缓解梯度消失
- C. 提高计算复杂度
- D. 无法稀疏
✅ 答案:B
Q4. Batch Normalization 主要作用是:
- A. 减少过拟合
- B. 加快训练并稳定梯度
- C. 增加非线性
- D. 增加网络深度
✅ 答案:B
Q5. Dropout 的作用是:
- A. 增加模型复杂度
- B. 减少过拟合
- C. 增加训练速度
- D. 增加参数数量
✅ 答案:B
Q6. 参数共享主要体现在:
- A. 全连接层
- B. 卷积层
- C. 池化层
- D. Softmax 层
✅ 答案:B
Q7. 在反向传播中,链式法则的作用是:
- A. 保证梯度为正
- B. 将梯度逐层传播
- C. 归一化梯度
- D. 随机更新梯度
✅ 答案:B
Q8. 权重初始化 Xavier 方法主要针对:
- A. Sigmoid/Tanh 激活
- B. ReLU 激活
- C. Softmax
- D. 恒等函数
✅ 答案:A
CNN 与计算机视觉(9–18)
Q9. 卷积层相比全连接层的优势是:
- A. 参数更少,利用局部连接和权重共享
- B. 参数更多,更灵活
- C. 训练更慢
- D. 只能处理一维数据
✅ 答案:A
Q10. 池化层的主要作用是:
- A. 增加参数数量
- B. 降低计算复杂度并增强平移不变性
- C. 增加特征维度
- D. 防止梯度消失
✅ 答案:B
Q11. 卷积神经网络中,padding 的作用是:
- A. 增加计算量
- B. 保持特征图大小
- C. 减小通道数
- D. 防止梯度消失
✅ 答案:B
Q12. 卷积神经网络中,感受野的大小决定了:
- A. 网络层数
- B. 输入特征覆盖范围
- C. 输出通道数
- D. 池化方式
✅ 答案:B
Q13. ResNet 使用残差连接的主要目的是:
- A. 增加非线性
- B. 缓解梯度消失,便于训练更深的网络
- C. 增加参数量
- D. 减少训练数据
✅ 答案:B
Q14. Inception 结构的特点是:
- A. 使用多种卷积核并行提取特征
- B. 使用残差连接
- C. 使用注意力机制
- D. 使用循环网络
✅ 答案:A
Q15. MobileNet 的主要优化点是:
- A. 使用大卷积核
- B. 使用深度可分离卷积减少计算量
- C. 使用稀疏连接
- D. 使用循环结构
✅ 答案:B
Q16. 卷积层的参数规模公式是:
- A. k×k×cin×cout
- B. k+cin
- C. cin+cout
- D. k×cout
✅ 答案:A
Q17. Batch Normalization 的归一化是针对:
- A. 每个样本的所有特征
- B. 每个 mini-batch 的每个特征维度
- C. 整个训练集
- D. 随机特征子集
✅ 答案:B
Q18. 卷积神经网络中,Global Average Pooling 常用于:
- A. 替代全连接层
- B. 增加卷积核大小
- C. 减少训练速度
- D. 增加梯度消失
✅ 答案:A
RNN 与序列模型(19–28)
Q19. RNN 在长序列训练中的主要问题是:
- A. 过拟合
- B. 梯度消失或爆炸
- C. 参数过少
- D. 不支持反向传播
✅ 答案:B
Q20. LSTM 中引入门控机制的目的是:
- A. 增加参数
- B. 缓解梯度消失
- C. 减少时间复杂度
- D. 增加非线性
✅ 答案:B
Q21. LSTM 的遗忘门作用是:
- A. 选择性遗忘部分历史信息
- B. 增加梯度
- C. 减少参数量
- D. 控制输出大小
✅ 答案:A
Q22. GRU 相比 LSTM 的主要优势是:
- A. 结构更简单,参数更少
- B. 训练更慢
- C. 收敛更差
- D. 更容易过拟合
✅ 答案:A
Q23. 在序列建模中,teacher forcing 的作用是:
- A. 随机丢弃输入
- B. 在训练时用真实标签作为下一步输入
- C. 使用残差连接
- D. 增加正则化
✅ 答案:B
Q24. 双向 RNN 的主要优势是:
- A. 更快训练
- B. 利用前后文信息
- C. 增加参数更少
- D. 无需反向传播
✅ 答案:B
Q25. Attention 机制的作用是:
- A. 将所有输入平均化
- B. 动态聚合输入特征,提升长程依赖建模能力
- C. 增加梯度消失
- D. 简化计算
✅ 答案:B
Q26. Transformer 取代 RNN 的主要优势是:
- A. 并行计算能力强
- B. 参数更少
- C. 不依赖注意力机制
- D. 自动稀疏化
✅ 答案:A
Q27. 在 Transformer 中,多头注意力的作用是:
- A. 增加训练速度
- B. 捕捉不同子空间的表示
- C. 减少参数
- D. 增加正则化
✅ 答案:B
Q28. Transformer 中位置编码的作用是:
- A. 增加正则化
- B. 引入序列顺序信息
- C. 减少参数
- D. 增加深度
✅ 答案:B
优化器与训练技巧(29–38)
Q29. SGD 的主要特点是:
- A. 每次使用全量数据
- B. 每次使用一个小批次数据更新参数
- C. 使用二阶导数
- D. 无法收敛
✅ 答案:B
Q30. Momentum 的作用是:
- A. 增加方差
- B. 加速收敛并减少震荡
- C. 增加学习率
- D. 防止过拟合
✅ 答案:B
Q31. Adam 优化器结合了:
- A. Momentum + RMSProp
- B. SGD + Momentum
- C. Nesterov + RMSProp
- D. Dropout + SGD
✅ 答案:A
Q32. 学习率过大会导致:
- A. 收敛更快
- B. 震荡或发散
- C. 正则化增强
- D. 泛化更好
✅ 答案:B
Q33. 学习率衰减的作用是:
- A. 提高收敛稳定性
- B. 增加梯度消失
- C. 增加参数量
- D. 降低泛化能力
✅ 答案:A
Q34. Warmup 学习率调度主要用于:
- A. 减少早期训练不稳定
- B. 增加过拟合
- C. 增加梯度爆炸
- D. 降低 batch size
✅ 答案:A
Q35. Early Stopping 的作用是:
- A. 防止过拟合
- B. 提高收敛速度
- C. 增加参数量
- D. 减少训练数据
✅ 答案:A
Q36. Batch Size 过小的影响是:
- A. 梯度估计噪声大
- B. 收敛更稳定
- C. 内存占用高
- D. 训练更慢但更稳
✅ 答案:A
Q37. Batch Size 过大可能导致:
- A. 泛化能力下降
- B. 梯度估计更噪声
- C. 收敛更快且更好
- D. 参数更少
✅ 答案:A
Q38. Label Smoothing 的作用是:
- A. 增加 overfitting
- B. 缓解过拟合,改善泛化
- C. 提高学习率
- D. 增加梯度爆炸
✅ 答案:B
生成模型与其他(39–50)
Q39. 自编码器 (Autoencoder) 的目标是:
- A. 将输入直接复制到输出
- B. 学习输入数据的低维表示
- C. 监督学习分类
- D. 使用强化学习
✅ 答案:B
Q40. 变分自编码器 (VAE) 的关键改进是:
- A. 使用 GAN
- B. 使用概率潜在空间
- C. 使用卷积核
- D. 使用注意力机制
✅ 答案:B
Q41. VAE 的损失函数包含:
- A. 重构误差 + KL 散度
- B. MSE + 交叉熵
- C. KL 散度 + Softmax
- D. 仅重构误差
✅ 答案:A
Q42. GAN 的主要目标是:
- A. 最大化生成器损失
- B. 最小化判别器损失
- C. 生成器与判别器对抗训练
- D. 仅使用生成器训练
✅ 答案:C
Q43. GAN 训练中的主要问题是:
- A. 模型无法收敛
- B. 模式崩塌(mode collapse)
- C. 判别器不收敛
- D. 生成器无梯度
✅ 答案:B
Q44. WGAN 引入 Wasserstein 距离的主要好处是:
- A. 提高生成样本多样性
- B. 减少梯度消失
- C. 增加收敛速度
- D. 增加参数
✅ 答案:B
Q45. 自注意力机制在图像生成中的优势是:
- A. 增加局部依赖
- B. 捕捉长程依赖
- C. 减少计算
- D. 增加非线性
✅ 答案:B
Q46. BERT 的预训练任务包括:
- A. Masked Language Model + Next Sentence Prediction
- B. Seq2Seq + GAN
- C. Attention + Dropout
- D. RNN + CNN
✅ 答案:A
Q47. GPT 的主要特点是:
- A. 双向 Transformer 编码器
- B. 单向 Transformer 解码器
- C. RNN + 注意力
- D. CNN + 注意力
✅ 答案:B
Q48. 自监督学习的核心思想是:
- A. 使用少量标签数据
- B. 从数据本身构造监督信号
- C. 使用强化学习
- D. 使用人工标注
✅ 答案:B
Q49. Contrastive Learning (对比学习) 的目标是:
- A. 最大化相似样本的距离
- B. 最小化相似样本的距离、最大化不相似样本的距离
- C. 提高准确率
- D. 增加标签数量
✅ 答案:B
Q50. SimCLR 使用的关键技巧是:
- A. GAN
- B. 数据增强 + 对比损失
- C. Transformer
- D. 卷积核加深
✅ 答案:B