AI参考:关于自助法，以下说法错误的是选项A：集成的方差增高。自助法（bootstrap）是一种用于估计统计量的抽样方法，它通过有放回地从原始数据集中抽取样本，重新构造一批新的数据集，然后重复这个过程来获得一组样本数据。通过这种方式，原始数据的偏差被缩小了，但是也带来了两个问题：样本数量下降和方差增大。因此，选项A是错误的。其他选项B、C、D都是关于自助法的正确说法。Baggining（bagging）是一种基于自助法的集成学习方法，通过在原始数据集上多次抽样，减少模型的偏差，同时提高模型的方差稳定性。而Pasting（pasting）是另一种基于自助法的集成学习方法，通过减少模型之间的相关性来提高模型的性能。预测器之间的关联度更低和给每个预测器的训练子集引入了更高的多样性都是自助法的优点，可以降低过拟合的风险，提高模型的泛化能力。因此，选项B、C、D都是正确的。'

在一个 1,000,000 维的超立方体中随机抽取两点，其平均距离为（）。

AI参考:正确答案是C：0.52。在一个1,000,000维的超立方体中随机抽取两点，其平均距离为所有可能距离的平均值，即所有可能距离的几何平均值。由于超立方体是一个n维空间，因此平均距离为1/n，即0.52。因此，正确答案是C。'

随机森林在书的生长上引入了更多的随机性，体现在（）。

内容已经隐藏，点击付费后查看

AI参考:随机森林在书的生长上引入了更多的随机性，体现在在一个随机生成的特征子集里搜索最好的特征。随机森林是在决策树的基础上构建的，每个决策树都是基于随机特征子集进行分裂的，这样就可以引入更多的随机性，从而增加了模型的多样性。因此，正确答案是B：在一个随机生成的特征子集里搜索最好的特征。'

关于支持向量机中硬间隔和软间隔的说法错误的是（）。

内容已经隐藏，点击付费后查看

‍Adboost的优点不包括（）

内容已经隐藏，点击付费后查看

以下关于剪枝操作说法正确的是（）。

内容已经隐藏，点击付费后查看

数据科学家可能会同时使用多个算法（模型）进行预测，并且最后把这些算法的结果集成起来进行最后的预测（集成学习），以下对集成学习说法正确的是（）

内容已经隐藏，点击付费后查看

一般，k-NN最近邻方法在（）的情况下效果较好。

内容已经隐藏，点击付费后查看

‌在SVM中, margin的含义是（）

内容已经隐藏，点击付费后查看

‍C4.5选择属性用的是（）。

内容已经隐藏，点击付费后查看

对于随机森林和GradientBoosting Trees, 下面说法正确的是（）

内容已经隐藏，点击付费后查看

用于度量样本点之间距离的距离度量函数有（）。

内容已经隐藏，点击付费后查看

下面关于随机森林和梯度提升集成方法的说法哪个是正确的?（）

内容已经隐藏，点击付费后查看

集成学习中流行的几种集成方法，包括（）。

AI参考:集成学习中流行的几种集成方法包括：Bagging，Boosting，Stacking。所以答案是：C：Bagging、D：boosting。其中，bagging是通过平均许多基学习器产生的预测结果来提高模型的稳定性和精度的。boosting则是通过逐步改进模型来提高模型的精度。而stacking则是将两种或多种基学习器结合在一起，用于解决复杂的问题。因此，答案为C和D。'

（）和（）是分类任务中最常用的两种评估指标。（）

AI参考:【多选题】（查准率）和（准确率（精度））是分类任务中最常用的两种评估指标。因此，答案为B、D。查准率是指真正正确的分类为数目的比例，而准确率（精度）则是真正正确的分类数目与所有被分类的数目之比。这两个指标都是分类任务中常用的评估指标。'

按照学习方式的不同，可以将机器学习分为以下哪几类（）。

AI参考:正确选项为：C、D。机器学习按照学习方式的不同可以分为有监督学习、无监督学习和半监督学习。其中，有监督学习是指通过已有的标记数据来训练模型，适用于分类和回归问题；无监督学习是指利用无标签的数据进行学习，适用于聚类和降维等问题；半监督学习则结合了有监督和无监督学习的特点，利用部分有标签数据和大量无标签数据进行学习，可以提高模型的性能。因此，选项C和D都是正确的分类方式。而自主学习并不是机器学习的分类方式，因此不选。'

下面关于支持向量机的描述正确的是（）。

内容已经隐藏，点击付费后查看

关于剪枝，以下算法正确的是：（）。

内容已经隐藏，点击付费后查看

以下那种算法需要对数据进行归一化或者标准化（）。

内容已经隐藏，点击付费后查看

‌以下关于支持向量机的说法正确的是（）。

内容已经隐藏，点击付费后查看

随机森林和Bagging算法没有区别,只是将每个基学习器换做了决策树算法。（）

内容已经隐藏，点击付费后查看

AI参考:B:对。随机森林和Bagging算法都是集成学习算法，但随机森林包含了多种决策树，而Bagging只是简单的复制基学习器。因此，这个说法是正确的。所以答案是B:对。'

ID3 算法只能用于处理离散分布的特征。（）

内容已经隐藏，点击付费后查看

软间隔有利于获取更大的分类间隔。（）

AI参考:答案是B：错。软间隔算法通常会降低分类间隔，因为它在计算距离时考虑了样本之间的相关性，而不是简单地使用欧几里得距离或其他距离度量。因此，软间隔不利于获取更大的分类间隔。'

超参数选择不当，会对模型有较大的负面影响，所以在参数调整策略方面，所有超参数都同等重要。（）

AI参考:答案：A：错。超参数选择不当确实会对模型有较大的负面影响，但并不意味着所有超参数都同等重要。在参数调整策略中，需要根据具体任务和数据特点，有针对性地选择和调整超参数，以获得最佳的模型性能。有些超参数在某些任务中可能非常重要，而在其他任务中可能不那么重要。因此，不能说所有超参数都同等重要。'

‍SVM的数据需要归一化或者标准化。（）

内容已经隐藏，点击付费后查看

支持向量是最靠近决策表面的数据点。（）

内容已经隐藏，点击付费后查看

决策树节点划分指标中信息增益越大越好。（）

AI参考:答案是B：错。决策树节点划分指标中信息增益是一个重要的指标，它描述了划分后的信息增益大小，但是并不是越大越好。因为如果信息增益太大，可能会导致决策树过于复杂，难以理解和应用。因此，在实际应用中，需要根据具体情况选择合适的节点划分指标，并考虑其他因素如剪枝等来优化决策树。'

正则化是为了防止模型过拟合而引入额外信息，对模型原有逻辑进行外部干预和修正，从而提高模型的泛化能力。（）

AI参考:答案是B:错。正则化是为了防止模型过拟合而引入的一种正则化项，它可以用于优化模型的参数，从而减小模型复杂度，而不是对模型原有逻辑进行外部干预和修正。正则化通常通过引入一些惩罚项，使得模型在训练过程中逐渐调整参数，从而在防止过拟合的同时提高模型的泛化能力。因此，正则化是对模型的一种内部干预和修正，而不是外部干预。'

SVM分类思想就是将分类面之间的间隔最小化。（）

AI参考:答案是B：错。SVM分类思想是将最大间隔最大化，而不是将分类面之间的间隔最小化。SVM是一种支持向量机，它是一种二类分类算法，通过在特征空间中寻找最优分类面，使得正负样本的间隔最大，从而提高分类的准确性。因此，这个说法是错误的。'

当预测器尽可能互相独立时，集成方法的效果最优。（）

AI参考:答案是B：对。集成方法是一种通过结合多个预测器的预测结果来提高预测准确度的方法。当预测器尽可能互相独立时，集成方法可以充分利用各个预测器的优点，并且能够避免过拟合和交叉污染等问题，从而获得最优的效果。因此，答案是B。'

‍C4.5是通过代价复杂度剪枝。（）

内容已经隐藏，点击付费后查看

对于PCA(主成分分析)转化过的特征 , 朴素贝叶斯的”不依赖假设”总是成立, 因为所有主要成分是正交的。（）

内容已经隐藏，点击付费后查看

监督学习的学习数据既有特征（feature），也有标签（label）。（）

内容已经隐藏，点击付费后查看

‍Bagging算法中不要求个体学习器都采用同种算法。（）

AI参考:答案是B：对。Bagging算法是一种集成学习算法，它通过从原始数据集中多次抽样并生成多个子样本，使得每个子样本成为一个新的数据集，然后再使用相同的模型对每个子样本进行训练，形成一组独立于原始模型的新模型。这些新模型构成了bagging算法的输出。因此，B选项是正确的，即Bagging算法中不要求个体学习器都采用同种算法。'

温馨提示支付 ￥1.65 元后可查看付费内容,请先翻页预览!

微信支付

点赞(1) dxwkbang

本文分类：智慧树知到期末考试答案2023春
本文标签：机器学习实战——基于Scikit-Learn
浏览次数：166 次浏览
发布日期：2023-12-16 18:42:11

上一篇 > 交通管理与控制期末考试答案2023春
下一篇 > 教育学期末考试答案2023春

机器学习实战——基于Scikit-Learn期末考试答案2023春

机器学习实战——基于Scikit-Learn

机器学习实战——基于Scikit-Learn章节测试课后答案2024春

机器学习实战——基于Scikit-Learn期末答案和章节题库2024春

机器学习实战——基于Scikit-Learn期末考试答案2023春

机器学习实战——基于Scikit-Learn期末答案2023秋

机器学习实战——基于Scikit-Learn答案2023秋

机器学习实战——基于Scikit-Learn答案2023

机器学习实战——基于Scikit-Learn期末考试答案题库2024秋