⬆️⬆️⬆️本课程2024最新同名章节期末答案⬆️⬆️

数据挖掘期末答案2023秋

80 阅读 0 评论 5 点赞

1.对于神经网络的说法, 下面正确的是： ( )
(1)增加神经网络层数, 可能会增加测试数据集的分类错误率
(2) 减少神经网络层数, 总是能减小测试数据集的分类错误率
(3) 增加神经网络层数, 总是能减小训练数据集的分类错误率
A:（1）和（3） B:（1） C:（2） D:（1）和（2）
答案:AI参考:正确答案是：（A）和（3）。\n\n解释：神经网络是一种复杂模型，可以有很多不同的变种，层数是其最重要的特性之一。当增加神经网络层数时，可以提高模型的表现能力，因此在理论上会降低训练数据集的分类错误率，而有些情况下，虽然可能不会明显改善分类效果，但是也能够减少测试数据集的分类错误率。因此，（1）和（3）都是正确的。而减少神经网络层数可能会降低模型的表现能力，因此不能总是减小测试数据集的分类错误率，（2）不正确。所以答案为A。'
2.关于数据的属性，下列说法错误的是
A:所有员工的ID是标称型的属性 B:长度是比率型的数值属性 C:区间型的数值属性的差值是有意义的 D:区间型的数值属性的比率是有意义的
答案:AI参考:关于数据的属性，下列说法错误的是B:长度是比率型的数值属性。\n\n比率型数值属性通常用于描述数值之间的相对大小关系，如员工工资的差距等。而长度属性通常用于描述数值的绝对大小，如员工人数、年龄范围等。因此，选项B中的“长度是比率型的数值属性”是不正确的。其他选项A、C、D都是正确的，其中A和D描述了区间型数值属性的特点和意义，C则说明了区间型数值属性的差值是有意义的。'
3.有关多元线性回归分析的叙述中正确的是
A:各选项都不对 B:因变量与多个自变量呈现多项式关系 C:自变量与多个因变量呈现线性关系 D:因变量与多个自变量呈现线性关系
答案:AI参考:有关多元线性回归分析的叙述中正确的是：D:因变量与多个自变量呈现线性关系。\n\n多元线性回归分析是一种统计方法，用于分析因变量与多个自变量之间的线性关系。在这个过程中，因变量与多个自变量呈现线性关系，即它们之间的函数关系是线性的。虽然自变量和因变量之间可能存在非线性的关系，但在多元线性回归分析中，我们通常假设它们是线性的。因此，选项D是正确的描述。'
4.下列哪个描述是正确的？
A:分类和聚类都是无指导的学习 B:分类是有指导的学习，聚类是无指导的学习 C:分类和聚类都是有指导的学习 D:分类是无指导的学习，聚类是有指导的学习
答案:AI参考:答案是B：分类是有指导的学习，聚类是无指导的学习。\n\n分类是有指导的学习，需要明确的目标和已知的类别标签，通过观察样本的特征进行学习并分类到相应的类别中。而聚类是无指导的学习，不需要明确的类别标签，通过观察样本的特征自动将其归到相似的群体中。因此，B选项是正确的。'
5.如果用hash树存储3-项集{abc},{bde},{def},采用hash函数h(p)=p mod 3，那么哪两个项集能存储在同一个分支？
A:{abc}{bde} B:{abc}{def} C:{bde}{def}
答案:AI参考:选项C：{bde}{def} 能够存储在同一个分支。\n\n原因如下：\n\n假设将所有项集存储在一个 Hash 树的根节点下，节点i的位置是由该节点的所有子节点的 Hash 值计算出来的，这些子节点的位置关系会随着父节点的递归，使得父子节点的 Hash 值不断增大，即：每个节点只会沿着同一侧路径继续插入下去。因此，只要父子节点的 Hash 值相同，它们就一定会在同一侧。\n\n对于题目中的三个项集，它们的 Hash 值分别为 0、2 和 3。对于项集 {abc} 和 {bde}，它们的 Hash 值都在父节点的右侧（2 > 0），所以它们能够存储在同一个分支；而对于项集 {def} 和 {bde}，它们的 Hash 值在父节点的左侧（3 < 2），所以它们无法存储在同一个分支。\n\n因此，正确答案是选项C：{bde}{def} 能够存储在同一个分支。'
6.在一次试验中，测得（x，y）的四组值分别是（1，2），（2，3），（3，4），（4，5），则y与x之间的回归方程是
A:y=2x+1 B:y=x+1 C:y=x+2 D:y=x-1
答案:AI参考:答案选B，因为在一组试验中，值之间的数量比较多，但具体的数在研究的意义不是很大，此时我们需要观察数字变化的规律。题干中的（1，2），（2，3），（3，4），（4，5）两两成对，所研究的量分别处于相对的量级，满足回归直线方程研究的意义，只有选项B中的斜率为正。其他的均不能很好表达两者的关系。\n即在这四组值当中我们就可以看出来选B：y=x+1 。因为这些数里面，第一个数字都比第二个数字大一所以整体来说的话y都会比x大一也就是加了1的关系。'
7.对于决策树，下列说法正确的是
A:信息增益用于建立决策树时没有任何缺陷 B: 当应用不平衡样本建立决策树时，不但要关注准确率，还要关注灵敏度 C: 对样本不平衡问题建立决策树时，不需要关注所有样本的准确率 D:过拟合的决策树不影响分类性能
答案:AI参考:正确选项是B: 当应用不平衡样本建立决策树时，不但要关注准确率，还要关注灵敏度。\n\n决策树是一种常用的分类算法，其优点包括易于理解和实现，并且能够直观地展示分类结果。然而，决策树也存在一些缺点，如过度拟合和欠拟合，以及样本不平衡问题。\n\n对于选项A，信息增益是决策树算法中常用的一个特征选择方法，但在某些情况下，它可能会导致决策树过于简单或过于复杂，从而导致过度拟合或欠拟合。\n\n对于选项C，对样本不平衡问题建立决策树时，也需要关注所有样本的准确率，尤其是少数类样本的准确率。\n\n对于选项D，过拟合的决策树会影响分类性能，因为它可能导致模型对训练数据和测试数据的分类性能都较差。\n\n只有选项B是正确的，因为它强调了在应用不平衡样本建立决策树时，需要同时关注准确率和灵敏度。这是因为不平衡样本可能会导致某些类别在决策树中的生长速度过快，从而影响分类性能。为了解决这个问题，需要同时关注准确率和灵敏度，以确保决策树的分类性能更加稳定和可靠。'
8.以下是4对频繁2项集，找出不能连接的项集对
A:{a d} {c e} B:{a d} {a e} C:{c d} {c e} D:{ b e} {b f}
答案:AI参考:这个问题的答案是C:{c d} {c e}。因为选项A和B中的项集对{a d}和{c e}和{a d}和{a e}都是可以连接的，而选项D中的项集对{b e}和{b f}也是可以连接的。然而，选项C中的项集对{c d}和{c e}是不能连接的，因为它们包含相同的元素c，重复的元素是不能连接的。因此，选项C是唯一不能连接的项集对。'
9.下列关于属性类别描述正确的是？
A:用于描述ID的值是1，2，3等数值时，该ID是数值属性 B:标称属性含有序数信息 C:区间属性的比率是没有意义的 D:数值属性可以离散成分类属性
答案:AI参考:正确选项是：A:用于描述ID的值是1，2，3等数值时，该ID是数值属性；D:数值属性可以离散成分类属性。\n\n解释：\n\nA选项描述的是数值属性，即属性值是数值类型的，例如ID的值是1，2，3等数值时。B选项描述的是标称属性，标称属性包含有序数信息，比如性别标签"男","女", "其他"。C选项描述的是区间属性，区间属性的比率是有意义的，描述了不同区间之间数值的比例关系。所以不正确。\n\n对于D选项，数值属性可以被离散化或者分类化，例如年龄可以被离散化为几个不同的年龄段。所以D选项是正确的。\n\n因此，A和D是本题中的正确选项。'
10.下面是构成卷积神经网络的组成部分的是？
A:n个卷积层和池化层的组合组成 B:输出：一个全连结的多层感知机分类器构成 C:输入层
答案:AI参考:正确选项是A:n个卷积层和池化层的组合组成。\n\n卷积神经网络（Convolutional Neural Networks，简称CNN）是一种深度学习模型，主要由卷积层、池化层（或叫下采样层）和全连接层（或叫密集层）组成。其中，卷积层用于提取输入数据的局部特征，池化层用于降低数据的维度，提高模型的泛化能力。因此，选项A中的n个卷积层和池化层的组合组成是构成卷积神经网络的正确组成部分。选项B中的多层感知机分类器是输出层的一种，而选项C中的输入层是所有神经网络模型都有的组成部分，但不是卷积神经网络的组成部分。'
11.下列哪些是序数属性？
A:成绩{优，良，中，差} B:矿石硬度{高，中，低} C:性别{男，女} D:产品类别{电子产品，非电子产品}