浙江大学
  1. 在变量选择过程中,下列哪些方法可用于检查模型的性能?( )

  2. A:多重变量用于同一个模型 B:交叉验证 C:模型的可解释性 D:特征的信息
    答案:多重变量用于同一个模型###特征的信息###交叉验证
  3. 在一个线性回归模型中增加新的变量,下列说法不正确的是?( )

  4. A:R^2减小,调整的R^2增大 B:R^2和调整的R^2都减小 C:R^2不变,调整的R^2增大 D:R^2和调整的R^2都增大
    答案:R^2减小,调整的R^2增大###R^2和调整的R^2都减小###R^2不变,调整的R^2增大###R^2和调整的R^2都增大
  5. 下列属于SVM核函数的有:( )

  6. A:高斯核函数; B:多项式核函数; C:logistic核函数; D:线性核函数
    答案:多项式核函数;;高斯核函数;;线性核函数
  7. 以下属于传统机器学习方法,属于神经网络方法的有:( )

  8. A:CNN; B:K-means; C:朴素贝叶斯; D:SVM; 
    答案:SVM;###K-means;###朴素贝叶斯;
  9. 下面不属于过拟合解决方法的有:________。( )

  10. A:损失函数加正则化项; B:批规范化 batch normalizatin; C:增加测试样本数量; D:加dropout层;
    答案:加dropout层;###损失函数加正则化项;###批规范化 batch normalizatin;
  11. 下列哪种算法可以用神经网络构建?( )

  12. A:线性回归 B:逻辑回归 C:K-NN最近邻算法 D:K-mean聚类算法
    答案:线性回归###K-mean聚类算法###逻辑回归
  13. 下列可以用隐马尔可夫模型来分析的是?( )

  14. A:基因序列数据 B:小说数据 C:股价数据 D:电影评论数据
    答案:股价数据###电影评论数据###基因序列数据###小说数据
  15. 在建立线性回归模型时,3对变量(Var1和Var2,Var2和Var3,Var3和Var1)之间的相关性分别为-0.98,0.45和1.23。我们可以从中推断出什么?( )

  16. A:Var3和Var1之间的相关系数为1.23是不可能的 B:Var1和Var2之间相关性较高 C:Var1和Var2之间相关性较低 D:由于Var1和Var2之间相关性较高,因此存在多重共线性,应该移除这两个变量
    答案:Var1和Var2之间相关性较高###由于Var1和Var2之间相关性较高,因此存在多重共线性,应该移除这两个变量###Var3和Var1之间的相关系数为1.23是不可能的
  17. 下面哪一项 用决策树法训练大量数据集不会节约时间?( )

  18. A:增加树的深度 B:减少树的个数 C:增加学习率 D:减少树的深度
    答案:减少树的个数###增加学习率###增加树的深度
  19. 下列关于牛顿法描述正确的是( )

  20. A:二阶收敛,收敛速度快 B:牛顿法是局部收敛的,当初十点选择不当时,往往导致不收敛 C:牛顿法是一种迭代算法,每一步都需要求解目标函数的Hessian矩阵的逆矩阵, D:函数要求苛刻(二阶连续可微,汉森矩阵可逆)
  21. 当数据集中样本类别不均衡时,常采用哪些方法来解决?( )

  22. A:升采样 B:降采样 C:人造数据 D:更换分类算法
  23. 一个回归模型存在多重共线问题。在不损失过多信息的情况下,你该怎么做:( )

  24. A:移除相关变量可能会导致信息的丢失,为了保留这些变量,我们可以使用岭回归(ridge)或lasso等回归方法对模型进行惩罚 B:我们可以计算方差膨胀因子(variance inflation factor)来检查存在的多重共线性并采取相应的措施 C:移除共线的两个变量其中一个 D:移除共线的两个变量
  25. 下述领域中可以用机器学习来参与解决的为_______。( )

  26. A:机器翻译; B:图像分类; C:语音识别; D:视频动作定位;
  27. 以下哪种方法可以减少数据集中的特征?( )

  28. A:使用“后向”搜索 B:使用“前向”搜索 C:根据相关表提出相关性高的特征 D:我们把模型中的所有特征都训练一次,得到测试中模型的精确性。每次取一个特征,对测试数据集的特征值进行清洗,并且对测试数据进行预测,然后评估模型。若模型的精确性提高,则移除次特征。
  29. 感知器是模拟生物神经元行为的机器,有与生物神经元相对应的部件,下面属于模拟生物神经元的部件为:___________。( )

  30. A:偏置; B:输入输出; C:激活函数; D:权重;
  31. 下列关于主成分分析法( )说法正确的是?(ABD)

  32. A:要选出方差最小的作为主成分 B:要选出方差最大的作为主成分 C:主成分分析法可用于低维数据的可视化处理 D:进行主成分分析之前要对数据进行中心化
  33. 如何在“无监督学习”中使用聚类算法?( )

  34. A:在应用无监督学习之前不能将样本划分为不同的簇 B:先将样本划分为不同的簇,然后分别在不同的簇上使用无监督学习 C:在应用无监督学习前可将不同的簇看成不同的特征 D:在应用无监督学习之前不能将不同的簇看成不同的特征
  35. 在决策树中,用作分裂节点的information gain说法正确的是( )

  36. A:较小不纯度的节点可以通过熵辨别 B:较小不纯度的节点需要更多的信息来区分总体 C:信息增益更加倾向于选择有较多取值的属性 D:信息增益可以使用熵得到
  37. 下列哪种说法是不正确的?( )

  38. A:模型越复杂,训练错误越低 B:一个精度高的机器学习模型通常是一个好的分类器 C:模型越复杂,测试错误越低 D:一个精度低的机器学习模型分类效果一定很差
  39. 下列关于梯度树提升说法正确的是?( )

  40. A:当分裂所需最小样本数增加时,模型拟合过度 B:降低拟合个体学习器样本的分数可以减少偏差 C:降低拟合个体学习器样本的分数可以降低方差 D:当分裂所需最小样本数增加时,模型拟合不足
  41. 假设在庞大的数据集上使用Logistic回归模型。可能遇到一个问题,logistics回归需要很长时间才能训练。增加学习率,增加迭代次数可以提高训练速度。( )

  42. A:对 B:错
  43. 如果一个训练模型在测试集上精度达到100%,那么在另一个测试集上精度能否也达到100%( )

  44. A:对 B:错
  45. 牛顿法是用来对函数求根的。( )

  46. A:错 B:对
  47. 泛化错误是和过拟合相对应的一个概念。( )

  48. A:对 B:错
  49. 逻辑回归在训练的过程当中,如果有很多的特征高度相关或者说有一个特征重复了100遍,会让分类器的准确率降低。( )

  50. A:错 B:对
  51. 在梯度下降训练的过程中,在训练样本上收敛的参数,并不一定在测试集上最优。。( )

  52. A:错 B:对
  53. 对于未标记的训练样本进行学习,以发现这些样本中的结构知识,该学习方法称为:监督学习。( )

  54. A:错 B:对
  55. 神经元网络是在计算机上把虚拟的神经元排列成图状,模拟真正的神经细胞之间的电信号。借此实现大脑从各式各样的数据中提取本质概念的功能。( )

  56. A:对 B:错
  57. 运用主成分分析法(PCA)降维,朴素贝叶斯分类器的属性条件独立性假设总是成立的,因为由各个主成分之间正交可推出它们不相关。( )

  58. A:错 B:对
  59. 有监督学习根据输出类型又可以分为回归和分类两类。( )

  60. A:对 B:错
  61. Hinge Loss 0-1 损失函数是逻辑回归的损失函数。( )

  62. A:对 B:错
  63. 有监督学习是利用一组已知输入x 和输出y 的数据来学习模型的参数,使得模型预测的输出标记和真实标记尽可能的一致。( )

  64. A:错 B:对
  65. 经验风险最小化原则很容易导致模型在训练集上错误率很低,但是在未知数据上错误率很高。( )

  66. A:错 B:对
  67. SVM 是一个面向数据的分类算法,它的目标是为确定一个分类超平面,从而将不同的数据分隔开,其需要确定分类超平面两侧的两组属于不同类别的支撑点,使得这两组点可以得到最大的物理间隔。( )

  68. A:错 B:对
  69. 深度学习的需要满足的主要需求在于计算资源要大、数据要多、算法效率要好。( )

  70. A:对 B:错
  71. 在梯度下降训练的过程中,我们开发集来测试每一次迭代的参数在验证集上是否最优。( )

  72. A:对 B:错
  73. 欧氏距离,是最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,。( )

  74. A:错 B:对
  75. 过拟合问题往往是由于训练数据少和噪声造成的。( )

  76. A:错 B:对
  77. 深度学习是由在计算机上模拟人类神经回路的神经元网络技术发展而来。。( )

  78. A:错 B:对
  79. 在模型训练过程中,进行梯度下降法进行参数更新时,使用学习率这个参数来控制参数变化的快慢。( )

  80. A:对 B:错
  81. 梯度下降算法的正确步骤应该是什么?对于下述的1-5按正确顺序排序 _______(        )1.计算预测值和真实值之间的误差2.重复迭代,直至得到网络权重的最佳值3.把输入传入网络,得到输出值4.用随机值初始化权重和偏差5.对每一个产生误差的神经元,调整相应的(权重)值以减小误差

  82. A:1, 2, 3, 4, 5  B:3, 2, 1, 5, 4 C:5, 4, 3, 2, 1  D:4, 3, 1, 5, 2
  83. SoftMax 回归是Logistic 回归的多类推广,在SoftMax 回归中,机器学习模型预测目标为每一个类别的_____概率。( )

  84. A:条件; B:先验; C:联合; D:后验;
  85. 卷积神经网络(Convolutional Neural Networks,CNN)是一种前馈神经网络。卷积神经网络是受生物学上_________的机制而提出的。( )

  86. A:非线性激活; B:感受野; C:条件反射; D:线性激活;
  87. 在构建一个基于决策树模型时,使用信息增益information gain作为决策树节点属性选择的标准,以下图片中哪一个属性具信息增益最大:( )

  88. A:Windy B:Temperature C:Humidity D:Outlook
  89. 为了避免梯度爆炸或消失问题,提出了______( )

  90. A:长短时记忆神经网络 B:随机梯度下降 C:卷积神经网络 D:其余选项都不正确
  91. 点击率的预测是一个数据比例不平衡问题(比如训练集中样本呈阴性的比例为99%,阳性的比例是1%),如果我们用这种数据建立模型并使得训练集的准确率高达99%。我们可以得出结论是:( )

  92. A:无法评价模型 B:模型不好,我们应建一个更好的模型 C:其余选项都不正确 D:模型的准确率非常高,我们不需要进一步探索
  93. 支持向量机模型,选择RBF函数作为kernel后,对gamma(函数自带参数)画散点图,如果忘记在图上标记gamma值,以下哪一个选项可以解释下图的gamma值(图1,2,3从左向右,gamma值分别为g1、g2、g3)?( )

  94. A:g1 > g2 > g3 B:g1 <= g2 <= g3 C:g1 < g2 < g3 D:g1 >= g2 >= g3
  95. 以下哪一种方法最适合在n(n>1)维空间中做异常点检测。( )

  96. A:正态分布图; B:马氏距离; C:盒图; D:散点图;
  97. 在使用对应正则化项减少参数空间的同时,_______范数的引入通常会使得参数有一定稀疏性,因此在很多算法中也经常使用。( )

  98. A:L4; B:L2; C:L1; D:L0;
  99. 一般来说,为了解决过拟合问题,会在经验风险最小化的原则上加入参数的正则化,_______的正则化会用来减少参数空间,避免过拟合。( )

  100. A:L1; B:L2; C:L3; D:L0;
  101. 经验风险最小化原则很容易导致模型在训练集上错误率很低,但是在未知数据上错误率很高。这就是所谓的_____。( )

  102. A:样本不足; B:正则化; C:过拟合; D:欠拟合;
  103. 下列是常见的交叉验证法:a.自助法(bootstrapping)b.留一法(Leave-One-Out)c.5折交叉验证d.2次5折交叉验证样本量为1000时,根据所需的执行时间排列上述四种方法:( )

  104. A:a>b>c>d B:d>a>b>c C:b>d>c>a D:b>c>d>a
  105. 门限循环单元(Gated Recurrent Unit,GRU)是一种比LSTM更加简化的版本。在LSTM中,输入门和遗忘门是互补关系,因为同时用两个门比较冗余。GRU将输入门与和遗忘门合并成一个门:_______( )

  106. A:更新门; B:重置门; C:记忆门; D:输出门;
  107. softplus函数,定义为 。softplus 函数可以看作是rectifier 函数的平滑版本,以下不属于softplus 函数特性的为_________。( )

  108. A:宽兴奋边界; B:单侧抑制; C:ABC均不对; D:稀疏激活性;
  109. 逻辑回归与多元回归分析有哪些不同?( )

  110. A:逻辑回归回归系数的评估 B:逻辑回归有较高的拟合效果 C:逻辑回归预测某事件发生的概率 D:其余选项全选
  111. 图片是训练数据集(样本非常少)的快照(属性x、y分别用“+” 和 “o”表示),设定kNN的k=1,那么留一法交叉验证的误差是( )

  112. A:其余选项均不正确 B:100% C:0 到 100% D:0%
  113. 循环神经网络通过使用带自反馈的神经元,____________。( )

  114. A:可以处理可变长度的序列; B:只能够处理固定长度的序列; C:对于序列中元素的数目有限制 D:对于序列的最大长度有限制;
  115. 对于一个图像识别任务(在一张照片里找出一只猫),下面哪种神经网络可以更好地解决这个问题( )

  116. A:卷积神经网络; B:多层感知机; C:感知机; D:循环神经网络;
  117. 对于一个语音识别任务(识别用户说的话),下面哪种神经网络可以更好地解决这个问题?( )

  118. A:卷积神经网络; B:循环神经网络; C:多层感知机; D:感知机;
  119. 如果使用sigmoid作为神经网络激活函数,由于在BP算法中,误差从输出层反向传播时,在每一层都要乘以该层激活函数的导数,所以可能会遇到前面层比后面层梯度变化更小且慢得多的情况,这种情况被称为__________。( )

  120. A:梯度上升; B:梯度下降; C:梯度爆炸; D:梯度消失;

温馨提示支付 ¥5.00 元后可查看付费内容,请先翻页预览!
点赞(2) dxwkbang
返回
顶部