提示:内容已经过期谨慎付费,点击上方查看最新答案

机器学习实战——基于Scikit-Learn

  1. SVM中的代价参数C表示什么?( )


  2. A:用到的核函数 B:交叉验证的次数 C:其余 D:在分类准确性和模型复杂度之间的权衡
    答案:在分类准确性和模型复杂度之间的权衡
  3. 关于各类核函数的优缺点说法错误的是:( )。

  4. A:多项式核需要多次特征转换 B:高斯核计算简单,不容易过拟合 C:高斯核能够应对较为复杂的数据 D:线性核计算简单,可解释性强
    答案:高斯核计算简单,不容易过拟合
  5. 将数据集划分成训练集S和测试集T的常见方法有( )。


  6. A:A,B,C B:自助法 C:交叉验证法 D:留出法
    答案:以上均正确
  7. ‌线性SVM和一般线性分类器的区别主要是:( )。

  8. A:是否能处理线性不可分问题 B:训练误差通常较低 C:是否确保间隔最大化 D:是否进行了空间映射
    答案:是否确保间隔最大化
  9. 随机森林和Adaboost的描述不正确的是( )

  10. A:两者都是属于集成算法 B:随机森林最终是多棵树进行多数表决(回归问题是取平均),而Adaboost是加权融合 C:两者都是使用了Boosting思想 D:随机森林每次迭代的样本是从全部训练集中有放回抽样形成的,而Adaboost每次使用全部样本
    答案:Adaboost初始时每个训练元组被赋予相等的权重_随机森林对每次划分所考虑的属性数很偏感_和Adaboost相比,随机森林对错误和离群点更鲁棒
  11. 以下关于决策树原理介绍错误的有 ( )。

  12. A:决策树算法属于无监督学习 B:决策树生成过程中需要用到分割法 C:决策树决策过程从根节点开始 D:决策树算法本质上是贪心算法

  13. 以下关于决策树算法说法错误的是 ( )。

  14. A:CART算法选择基尼系数来选择属性 B:C4.5算法不能用于处理不完整数据 C:ID3算法选择信息增益最大的特征作为当前决策节点 D:C4.5算法选择信息增益率来选择属性

  15. SVM 原理描述不正确的是( )。

  16. A:SVM 的基本模型是在特征空间中寻找间隔最小化的分离超平面的线性分类器 B:当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机 C:当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机 D:当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机

  17. 关于C4.5算法,错误的是( )。

  18. A:C4.5算法采用基尼系数的大小来度量特征的各个划分点 B:C4.5 算法最大的特点是克服了 ID3 对特征数目的偏重这一缺点 C:C4.5算法可以处理非离散的数据 D:C4.5算法引入悲观剪枝策略进行后剪枝

  19. 以下那种算法不是集成学习算法( )

  20. A:AdaBoost B:随机森林 C:决策树 D:XGBoost

  21. 以下关于随机森林(Random Forest)说法正确的是( )。

  22. A:随机森林构建决策树时,是无放回的选取训练数据 B:随机森林由若干决策树组成,决策树之间存在关联性 C:随机森林算法容易陷入过拟合 D:随机森林学习过程分为选择样本、选择特征、构建决策树、投票四个部分

  23. ‌ID3 算法的缺点不包括( )。

  24. A:没有考虑缺失值 B:信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于 1 C:ID3 没有剪枝策略,容易过拟合 D:既能用于处理离散分布的特征,也能用于连续分布的特征处理

  25. 机器学习中做特征选择时,可能用到的方法有?( )


  26. A:A,B,C B:平均互信息 C:卡方 D:期望交叉熵 E:信息增益

  27. ‌以下关于决策树特点分析的说法错误的有 ( )。

  28. A:算法自动忽略了对模型没有贡献的属性变量 B:算法考虑了数据属性之间的相关性 C:推理过程容易理解,计算简单 D:算法容易造成过拟合

  29. 关于自助法,以下说法错误的是( )。

  30. A:集成的方差增高 B:bagging比pasting的偏差略高 C:预测器之间的关联度更低 D:给每个预测器的训练子集引入了更高的多样性
    AI参考:关于自助法,以下说法错误的是选项A:集成的方差增高。自助法(bootstrap)是一种用于估计统计量的抽样方法,它通过有放回地从原始数据集中抽取样本,重新构造一批新的数据集,然后重复这个过程来获得一组样本数据。通过这种方式,原始数据的偏差被缩小了,但是也带来了两个问题:样本数量下降和方差增大。因此,选项A是错误的。其他选项B、C、D都是关于自助法的正确说法。Baggining(bagging)是一种基于自助法的集成学习方法,通过在原始数据集上多次抽样,减少模型的偏差,同时提高模型的方差稳定性。而Pasting(pasting)是另一种基于自助法的集成学习方法,通过减少模型之间的相关性来提高模型的性能。预测器之间的关联度更低和给每个预测器的训练子集引入了更高的多样性都是自助法的优点,可以降低过拟合的风险,提高模型的泛化能力。因此,选项B、C、D都是正确的。'
  31. 在一个 1,000,000 维的超立方体中随机抽取两点,其平均距离为( )。

  32. A:无法计算 B:0.66 C:0.52 D:408.25
    AI参考:正确答案是C:0.52。在一个1,000,000维的超立方体中随机抽取两点,其平均距离为所有可能距离的平均值,即所有可能距离的几何平均值。由于超立方体是一个n维空间,因此平均距离为1/n,即0.52。因此,正确答案是C。'
  33. 随机森林在书的生长上引入了更多的随机性,体现在( )。


  34. A:分裂节点时搜索最好的特征 B:在一个随机生成的特征子集里搜索最好的特征 C:决策树的多样性降低 D:ABC
    AI参考:随机森林在书的生长上引入了更多的随机性,体现在在一个随机生成的特征子集里搜索最好的特征。随机森林是在决策树的基础上构建的,每个决策树都是基于随机特征子集进行分裂的,这样就可以引入更多的随机性,从而增加了模型的多样性。因此,正确答案是B:在一个随机生成的特征子集里搜索最好的特征。'
  35. 关于支持向量机中硬间隔和软间隔的说法错误的是( )。

  36. A:硬间隔有利于消除模型的过拟合 B:软间隔有利于获取更大的分类间隔 C:硬间隔要求所有数据分类完全准确,不允许出现错误 D:软间隔允许一定的样本分类错误

  37. ‍Adboost的优点不包括( )

  38. A:可以用各种回归分类模型来构建弱学习器,非常灵活 B:分类精度高 C:不容易发生过拟合 D:对异常点敏感,异常点会获得较高权重

  39. 以下关于剪枝操作说法正确的是 ( )。


  40. A:C4.5采用的是基于代价函数的后剪枝 B:ID3没有剪枝策略 C:CART采用的是悲观策略的预剪枝 D:其余

  41. 数据科学家可能会同时使用多个算法(模型)进行预测, 并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是( )

  42. A:单个模型之间有高相关性 B:在集成学习中使用“平均权重”而不是“投票”会比较好 C:单个模型之间有低相关性 D:单个模型都是用的一个算法

  43. 一般,k-NN最近邻方法在( )的情况下效果较好。

  44. A:样本呈团状分布 B:样本较少但典型性好 C:样本较多但典型性不好 D:样本呈链状分布

  45. ‌在SVM中, margin的含义是( )

  46. A:损失误差 B:幅度 C:差额 D:间隔

  47. ‍C4.5选择属性用的是( )。

  48. A:信息熵 B:交叉熵 C:信息增益率 D:信息增益

  49. 对于随机森林和GradientBoosting Trees, 下面说法正确的是( )


  50. A:A,B,C B:我们可以并行地生成GradientBoosting Trees单个树, 因为它们之间是没有依赖的, GradientBoosting Trees训练模型的表现总是比随机森林好 C:这两个模型都使用随机特征子集, 来生成许多单个的树 D:在随机森林的单个树中, 树和树之间是有依赖的, 而GradientBoosting Trees中的单个树之间是没有依赖的

  51. 用于度量样本点之间距离的距离度量函数有( )。


  52. A:A,B,C B:离散属性距离度量函数 C:连续属性距离度量函数 D:混合属性距离度量函数

  53. 下面关于随机森林和梯度提升集成方法的说法哪个是正确的?( )

  54. A:两种方法都可以用来做回归 B:这两种方法都可以用来做分类 C:随机森林用来做回归,梯度提升用来做分类 D:随机森林用来做分类,梯度提升用来做回归

  55. 集成学习中流行的几种集成方法,包括( )。

  56. A:SVM B:stacking C:bagging D:boosting
    AI参考:集成学习中流行的几种集成方法包括:Bagging,Boosting,Stacking。所以答案是:C:Bagging、D:boosting。其中,bagging是通过平均许多基学习器产生的预测结果来提高模型的稳定性和精度的。boosting则是通过逐步改进模型来提高模型的精度。而stacking则是将两种或多种基学习器结合在一起,用于解决复杂的问题。因此,答案为C和D。'
  57. ( )和( )是分类任务中最常用的两种评估指标。( )

  58. A:错误率 B:查准率 C:查全率 D:准确率(精度)
    AI参考:【多选题】( 查准率 )和(准确率(精度) )是分类任务中最常用的两种评估指标。因此,答案为B、D。查准率是指真正正确的分类为数目的比例,而准确率(精度)则是真正正确的分类数目与所有被分类的数目之比。这两个指标都是分类任务中常用的评估指标。'
  59. 按照学习方式的不同,可以将机器学习分为以下哪几类( )。

  60. A:半监督学习 B:无监督学习 C:有监督学习 D:自主学习
    AI参考:正确选项为:C、D。机器学习按照学习方式的不同可以分为有监督学习、无监督学习和半监督学习。其中,有监督学习是指通过已有的标记数据来训练模型,适用于分类和回归问题;无监督学习是指利用无标签的数据进行学习,适用于聚类和降维等问题;半监督学习则结合了有监督和无监督学习的特点,利用部分有标签数据和大量无标签数据进行学习,可以提高模型的性能。因此,选项C和D都是正确的分类方式。而自主学习并不是机器学习的分类方式,因此不选。'
  61. 下面关于支持向量机的描述正确的是( )。

  62. A:可用于多分类的问题 B:是一种监督学习的方法 C:支持非线性的核函数 D:是一种生成模型

  63. 关于剪枝,以下算法正确的是:( )。

  64. A:决策树剪枝的基本策略有预剪枝和后剪枝 B:剪枝是防止过拟合的手段 C:C4.5算法没有剪枝操作 D:ID3算法没有剪枝操作

  65. 以下那种算法需要对数据进行归一化或者标准化( )。

  66. A:线性回归 B:决策树 C:KNN D:逻辑回归

  67. ‌以下关于支持向量机的说法正确的是 ( )。

  68. A:SVM分类思想就是将分类面之间的间隔最小化 B:SVM方法简单,鲁棒性较好 C:SVM适用于大规模数据集 D:SVM分类面取决于支持向量

  69. 随机森林和Bagging算法没有区别,只是将每个基学习器换做了决策树算法。( )

  70. A:错 B:对
    AI参考:B:对。随机森林和Bagging算法都是集成学习算法,但随机森林包含了多种决策树,而Bagging只是简单的复制基学习器。因此,这个说法是正确的。所以答案是B:对。'
  71. ID3 算法只能用于处理离散分布的特征。( )

  72. A:错 B:对

  73. 软间隔有利于获取更大的分类间隔。( )

  74. A:对 B:错
    AI参考:答案是B:错。软间隔算法通常会降低分类间隔,因为它在计算距离时考虑了样本之间的相关性,而不是简单地使用欧几里得距离或其他距离度量。因此,软间隔不利于获取更大的分类间隔。'
  75. 超参数选择不当,会对模型有较大的负面影响,所以在参数调整策略方面,所有超参数都同等重要。( )

  76. A:错 B:对
    AI参考:答案:A:错。超参数选择不当确实会对模型有较大的负面影响,但并不意味着所有超参数都同等重要。在参数调整策略中,需要根据具体任务和数据特点,有针对性地选择和调整超参数,以获得最佳的模型性能。有些超参数在某些任务中可能非常重要,而在其他任务中可能不那么重要。因此,不能说所有超参数都同等重要。'
  77. ‍SVM的数据需要归一化或者标准化。( )

  78. A:对 B:错

  79. 支持向量是最靠近决策表面的数据点。( )

  80. A:对 B:错

  81. 决策树节点划分指标中信息增益越大越好。( )

  82. A:对 B:错
    AI参考:答案是B:错。决策树节点划分指标中信息增益是一个重要的指标,它描述了划分后的信息增益大小,但是并不是越大越好。因为如果信息增益太大,可能会导致决策树过于复杂,难以理解和应用。因此,在实际应用中,需要根据具体情况选择合适的节点划分指标,并考虑其他因素如剪枝等来优化决策树。'
  83. 正则化是为了防止模型过拟合而引入额外信息,对模型原有逻辑进行外部干预和修正,从而提高模型的泛化能力。( )

  84. A:对 B:错
    AI参考:答案是B:错。正则化是为了防止模型过拟合而引入的一种正则化项,它可以用于优化模型的参数,从而减小模型复杂度,而不是对模型原有逻辑进行外部干预和修正。正则化通常通过引入一些惩罚项,使得模型在训练过程中逐渐调整参数,从而在防止过拟合的同时提高模型的泛化能力。因此,正则化是对模型的一种内部干预和修正,而不是外部干预。'
  85. SVM分类思想就是将分类面之间的间隔最小化。( )

  86. A:对 B:错
    AI参考:答案是B:错。SVM分类思想是将最大间隔最大化,而不是将分类面之间的间隔最小化。SVM是一种支持向量机,它是一种二类分类算法,通过在特征空间中寻找最优分类面,使得正负样本的间隔最大,从而提高分类的准确性。因此,这个说法是错误的。'
  87. 当预测器尽可能互相独立时,集成方法的效果最优。( )

  88. A:错 B:对
    AI参考:答案是B:对。集成方法是一种通过结合多个预测器的预测结果来提高预测准确度的方法。当预测器尽可能互相独立时,集成方法可以充分利用各个预测器的优点,并且能够避免过拟合和交叉污染等问题,从而获得最优的效果。因此,答案是B。'
  89. ‍C4.5是通过代价复杂度剪枝。( )

  90. A:对 B:错

  91. 对于PCA(主成分分析)转化过的特征 , 朴素贝叶斯的”不依赖假设”总是成立, 因为所有主要成分是正交的。( )

  92. A:对 B:错

  93. 监督学习的学习数据既有特征(feature),也有标签(label)。 ( )

  94. A:对 B:错

  95. ‍Bagging算法中不要求个体学习器都采用同种算法。( )

  96. A:错 B:对
    AI参考:答案是B:对。Bagging算法是一种集成学习算法,它通过从原始数据集中多次抽样并生成多个子样本,使得每个子样本成为一个新的数据集,然后再使用相同的模型对每个子样本进行训练,形成一组独立于原始模型的新模型。这些新模型构成了bagging算法的输出。因此,B选项是正确的,即Bagging算法中不要求个体学习器都采用同种算法。'

温馨提示支付 ¥1.65 元后可查看付费内容,请先翻页预览!
点赞(1) dxwkbang
返回
顶部