1.对于神经网络的说法, 下面正确的是: ( )
(1)增加神经网络层数, 可能会增加测试数据集的分类错误率
(2) 减少神经网络层数, 总是能减小测试数据集的分类错误率
(3) 增加神经网络层数, 总是能减小训练数据集的分类错误率
A:(1)和 (3) B:(1) C:(2) D:(1)和 (2)
答案:AI参考:正确答案是:(A)和(3)。\n\n解释:神经网络是一种复杂模型,可以有很多不同的变种,层数是其最重要的特性之一。当增加神经网络层数时,可以提高模型的表现能力,因此在理论上会降低训练数据集的分类错误率,而有些情况下,虽然可能不会明显改善分类效果,但是也能够减少测试数据集的分类错误率。因此,(1)和(3)都是正确的。而减少神经网络层数可能会降低模型的表现能力,因此不能总是减小测试数据集的分类错误率,(2)不正确。所以答案为A。'
2.关于数据的属性,下列说法错误的是
A:所有员工的ID是标称型的属性 B:长度是比率型的数值属性 C:区间型的数值属性的差值是有意义的 D:区间型的数值属性的比率是有意义的
答案:AI参考:关于数据的属性,下列说法错误的是B:长度是比率型的数值属性。\n\n比率型数值属性通常用于描述数值之间的相对大小关系,如员工工资的差距等。而长度属性通常用于描述数值的绝对大小,如员工人数、年龄范围等。因此,选项B中的“长度是比率型的数值属性”是不正确的。其他选项A、C、D都是正确的,其中A和D描述了区间型数值属性的特点和意义,C则说明了区间型数值属性的差值是有意义的。'
3.有关多元线性回归分析的叙述中正确的是
A:各选项都不对 B:因变量与多个自变量呈现多项式关系 C:自变量与多个因变量呈现线性关系 D:因变量与多个自变量呈现线性关系
答案:AI参考:有关多元线性回归分析的叙述中正确的是:D:因变量与多个自变量呈现线性关系。\n\n多元线性回归分析是一种统计方法,用于分析因变量与多个自变量之间的线性关系。在这个过程中,因变量与多个自变量呈现线性关系,即它们之间的函数关系是线性的。虽然自变量和因变量之间可能存在非线性的关系,但在多元线性回归分析中,我们通常假设它们是线性的。因此,选项D是正确的描述。'
4.下列哪个描述是正确的?
A:分类和聚类都是无指导的学习 B:分类是有指导的学习,聚类是无指导的学习 C:分类和聚类都是有指导的学习 D:分类是无指导的学习,聚类是有指导的学习
答案:AI参考:答案是B:分类是有指导的学习,聚类是无指导的学习。\n\n分类是有指导的学习,需要明确的目标和已知的类别标签,通过观察样本的特征进行学习并分类到相应的类别中。而聚类是无指导的学习,不需要明确的类别标签,通过观察样本的特征自动将其归到相似的群体中。因此,B选项是正确的。'
5.如果用hash树存储3-项集{abc},{bde},{def},采用hash函数h(p)=p mod 3,那么哪两个项集能存储在同一个分支?
A:{abc}{bde} B:{abc}{def} C:{bde}{def}
答案:AI参考:选项C:{bde}{def} 能够存储在同一个分支。\n\n原因如下:\n\n假设将所有项集存储在一个 Hash 树的根节点下,节点i的位置是由该节点的所有子节点的 Hash 值计算出来的,这些子节点的位置关系会随着父节点的递归,使得父子节点的 Hash 值不断增大,即:每个节点只会沿着同一侧路径继续插入下去。因此,只要父子节点的 Hash 值相同,它们就一定会在同一侧。\n\n对于题目中的三个项集,它们的 Hash 值分别为 0、2 和 3。对于项集 {abc} 和 {bde},它们的 Hash 值都在父节点的右侧(2 > 0),所以它们能够存储在同一个分支;而对于项集 {def} 和 {bde},它们的 Hash 值在父节点的左侧(3 < 2),所以它们无法存储在同一个分支。\n\n因此,正确答案是选项C:{bde}{def} 能够存储在同一个分支。'
6.在一次试验中,测得(xy)的四组值分别是(12),(23),(34),(45),则yx之间的回归方程是
A:y=2x+1 B:y=x+1 C:y=x+2 D:y=x-1
答案:AI参考:答案选B,因为在一组试验中,值之间的数量比较多,但具体的数在研究的意义不是很大,此时我们需要观察数字变化的规律。题干中的(1,2),(2,3),(3,4),(4,5)两两成对,所研究的量分别处于相对的量级,满足回归直线方程研究的意义,只有选项B中的斜率为正。其他的均不能很好表达两者的关系。\n即在这四组值当中我们就可以看出来选B:y=x+1 。因为这些数里面,第一个数字都比第二个数字大一所以整体来说的话y都会比x大一也就是加了1的关系。'
7.对于决策树,下列说法正确的是
A:信息增益用于建立决策树时没有任何缺陷 B: 当应用不平衡样本建立决策树时,不但要关注准确率,还要关注灵敏度 C: 对样本不平衡问题建立决策树时,不需要关注所有样本的准确率 D:过拟合的决策树不影响分类性能
答案:AI参考:正确选项是B: 当应用不平衡样本建立决策树时,不但要关注准确率,还要关注灵敏度。\n\n决策树是一种常用的分类算法,其优点包括易于理解和实现,并且能够直观地展示分类结果。然而,决策树也存在一些缺点,如过度拟合和欠拟合,以及样本不平衡问题。\n\n对于选项A,信息增益是决策树算法中常用的一个特征选择方法,但在某些情况下,它可能会导致决策树过于简单或过于复杂,从而导致过度拟合或欠拟合。\n\n对于选项C,对样本不平衡问题建立决策树时,也需要关注所有样本的准确率,尤其是少数类样本的准确率。\n\n对于选项D,过拟合的决策树会影响分类性能,因为它可能导致模型对训练数据和测试数据的分类性能都较差。\n\n只有选项B是正确的,因为它强调了在应用不平衡样本建立决策树时,需要同时关注准确率和灵敏度。这是因为不平衡样本可能会导致某些类别在决策树中的生长速度过快,从而影响分类性能。为了解决这个问题,需要同时关注准确率和灵敏度,以确保决策树的分类性能更加稳定和可靠。'
8.以下是4对频繁2项集,找出不能连接的项集对
A:{a d} {c e} B:{a d} {a e} C:{c d} {c e} D:{ b e} {b f}
答案:AI参考:这个问题的答案是C:{c d} {c e}。因为选项A和B中的项集对{a d}和{c e}和{a d}和{a e}都是可以连接的,而选项D中的项集对{b e}和{b f}也是可以连接的。然而,选项C中的项集对{c d}和{c e}是不能连接的,因为它们包含相同的元素c,重复的元素是不能连接的。因此,选项C是唯一不能连接的项集对。'
9.下列关于属性类别描述正确的是?
A:用于描述ID的值是1,2,3等数值时,该ID是数值属性 B:标称属性含有序数信息 C:区间属性的比率是没有意义的 D:数值属性可以离散成分类属性
答案:AI参考:正确选项是:A:用于描述ID的值是1,2,3等数值时,该ID是数值属性;D:数值属性可以离散成分类属性。\n\n解释:\n\nA选项描述的是数值属性,即属性值是数值类型的,例如ID的值是1,2,3等数值时。B选项描述的是标称属性,标称属性包含有序数信息,比如性别标签"男","女", "其他"。C选项描述的是区间属性,区间属性的比率是有意义的,描述了不同区间之间数值的比例关系。所以不正确。\n\n对于D选项,数值属性可以被离散化或者分类化,例如年龄可以被离散化为几个不同的年龄段。所以D选项是正确的。\n\n因此,A和D是本题中的正确选项。'
10.下面是构成卷积神经网络的组成部分的是?
A:n个卷积层和池化层的组合组成 B:输出:一个全连结的多层感知机分类器构成 C:输入层
答案:AI参考:正确选项是A:n个卷积层和池化层的组合组成。\n\n卷积神经网络(Convolutional Neural Networks,简称CNN)是一种深度学习模型,主要由卷积层、池化层(或叫下采样层)和全连接层(或叫密集层)组成。其中,卷积层用于提取输入数据的局部特征,池化层用于降低数据的维度,提高模型的泛化能力。因此,选项A中的n个卷积层和池化层的组合组成是构成卷积神经网络的正确组成部分。选项B中的多层感知机分类器是输出层的一种,而选项C中的输入层是所有神经网络模型都有的组成部分,但不是卷积神经网络的组成部分。'
11.下列哪些是序数属性?
A:成绩{优,良,中,差} B:矿石硬度{高,中,低} C:性别{男,女} D:产品类别{电子产品,非电子产品}

12.卷积网与循环网可以实现的功能包括
A:行为预测 B:机器翻译 C:看图说话 D:预测 13.CF树的参数--空间阈值越大,树越( )。
A:小 B:不受影响 C:大 14.为建立分类模型而被分析的数据对象组成的( )。
A:数据表 B:训练数据集 C:测试数据集 D:数据库 15.聚类特征CF有个特性,即可以( )。
A:求和 B:求差值 C:求方差 D:求积 16.PAM算法中,每当重新分配发生时,替换的总代价是数据集S中的每个对象到新中心点的距离变化的( )。
A:累加和 B:最大值 C:累乘积 D:最小值 17.k-means算法中,簇中心不再发生变化就等价于簇内差异函数w(C)的值达到( )。
A:最大 B:最小 C:平均值 18.数据可视化方法。( )
A:直方图 B:柱状图 C:散点图 D:箱线图 19.下列说法正确的是 ( )
A:K-means++能够解决初始点影响聚类效果的问题 B:K中心点能够解决有离群点的聚类问题 C:K-means算法能够解决有离群点的聚类问题 D:K-modes能够解决离散数据的聚类问题 20.数据对象的别名是。( )
A:元组 B:样品 C:维度 D:实例 E:对象 21.

数据集成需要解决的问题( )


A:模式集成 B:各项都有错误 C:实体识别 D:数据冲突检测 22.Inception V2版本修改Inception的内部计算逻辑提高网络的表达能力。
A:对 B:错 23.两个点之间的距离可以计算,而簇之间的距离不能计算。
A:错 B:对 24.ID采用整数表示时,不能看作分类属性。
A:错误 B:正确 25.贝叶斯网络不能用于分类。
A:错 B:对 26.在聚类分析中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
A:对 B:错 27.密度聚类算法对半径参数是敏感的。
A:正确 B:错误 28.支持度小于等于置信度。
A:错误 B:正确 29.星型模型和雪花型模型仅包括一个事实表。
A:错 B:对 30.聚类探索数据的内在结构,而分类是建立属性和类别之间的映射关系。
A:正确 B:错误 31.支持度和置信度均大于指定阈值的关联规则一定是有意义的。
A:错误 B:正确 32.贝叶斯网络是一种定性描述变量间依赖关系的模型。
A:对 B:错 33.K-中心点算法使用簇间中心距离,而不是最大距离。
A:错 B:对 34.贝叶斯网络中每个节点的条件概率定量描述了变量间的依赖程度。
A:对 B:错 35.离群点可能是有意义的数据。
A:对 B:错 36.信息熵为0时,不确定性最大。
A:错 B:对 37.数据划分是决策树分类的重要思想,信息增益度量了属性节点对样本的划分效果。
A:对 B:错 38.FP算法中构建FP树的目的是存储候选项集。
A:错误 B:正确 39.关联规则的前项和后项组成的项集可以是不频繁的。
A:错 B:对 40.K-Means算法使用簇间均值距离,而不是中心距离。
A:正确 B:错误 41.与划分聚类相比,K-means算法对离群点是不敏感的。
A:错误 B:正确 42.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?
A:关联规则发现   B:聚类 C:自然语言处理 D:分类 43.设3项集是{a,b,c}是频繁项集,则下列一定是频繁项集的是
A:{c,d} B:{a,b} C:{a,d} D:{b,d} 44.在ID3算法中信息增益是指
A:条件熵减少的程度最大 B:信息的增加效益 C:熵增加的程度最大 D:信息的溢出程度 45.设有一个回归方程为y=3-2x,则变量x增加一个单位时
A:y平均减少2.5个单位 B:y平均减少2个单位 C:y平均增加2.5个单位 D:y平均增加2个单位 46.Apriori算法Hash树中存储的是
A:剪枝后的候选项集合 B:剪枝前的候选项集合 C:所有3项集 D:频繁项集 47.选出如下是OLAP多维数据分析的操作
A:钻取 B:转换 C:旋转 D:切片和切块 48.CF树的参数--空间阈值τ用于限制( )。
A:叶节点的大小 B:非叶节点的大小 C:叶节点里的子簇的大小 49.下列哪个算法属于密度聚类算法?( )。
A:K-modes B:DIANA C:DBSCAN D:PAM 50.DBSCAN算法对噪声和离群点非常敏感。 ( )
A:对 B:错 51.OLAP就是数据挖掘。( )
A:错误 B:正确 52.数据挖掘的对象可以是任何类型的数据源。( )
A:错误 B:正确 53.分裂的层次聚类算法采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。( )
A:错 B:对 54.分类阶段要做的工作是分类规则的评估和分类规则的应用。( )
A:错误 B:正确 55.数据挖掘就是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。( )
A:错 B:对 56.数据挖掘只能应用在数据库上。( )
A:对 B:错 57.即使是同一个数据集,如果k选择不同,k-means算法聚类结果可能完全不一样。( )
A:错误 B:正确 58.数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。( )
A:错误 B:正确 59.给定全局项集I和交易数据集D,对于I的非空项集I1,若其支持度小于或等于最小支持度阈值,则称I1为频繁项集。( )
A:错误 B:正确 60.AGNES算法仅可用于规模相对较小的数据集。( )
A:错 B:对 61.凝聚的层次聚类算法代表算法是DIANA算法。( )
A:正确 B:错误 62.k-prototype算法可以对离散与数值属性两种混合的数据进行聚类。( )
A:错误 B:正确 63.CF树是随着数据点的插入而动态创建的,因此该方法是增量的。( )
A:错 B:对 64.特征提取要兼顾特征的全面性和独立性。( )
A:错误 B:正确 65.噪声和离群点给聚类过程带来的影响之一,是会产生空簇。( )
A:错误 B:正确 66.可以把数据分析分为以下4个层次:数据统计,OLAP,数据挖掘,大数据。( )
A:正确 B:错误 67.凝聚的层次聚类算法是一种自底向上的策略,初始时先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。( )
A:错 B:对 68.k-modes 算法实现了对离散数据的快速聚类。( )
A:对 B:错 69.数据挖掘所得到的信息应具有先知,有效和实用三个特征。( )
A:错 B:对 70.人从出生到长大的过程中,是如何认识事物的,下列说法错误的是( )
A:聚类过程 B:先分类,后聚类 C:先聚类,后分类 D:分类过程 71.下面哪个属于数据的属性类型:( )
A:区间 B:序数 C:相异 D:标称 72.下面哪种情况会影响K-means聚类的效果?( )
A:数据点呈圆形状分布 B:数据中有异常点存在 C:数据点呈非凸形状分布 D:数据点密度分布不均 73.数据挖掘的预测建模任务主要包括哪几大类问题? ( )
A:模式匹配 B:回归 C:模式发现 D:分类 74.数据缩减主要包括如下 ( )
A:降数据 B:降维 C:数据压缩 D:分类 75.决策树的父节点和子节点的熵的大小关系是什么,下列说法错误的是( )
A:决策树的父节点更大 B:两者相等 C:子节点的熵更大 D:根据具体情况而定 76.下面哪些数据挖掘算法不需要做数据归一化处理:( )
A:线性回归 B:决策树 C:朴素贝叶斯 D:K均值 77.下面哪些属于基于划分的聚类算法。( )
A:K-means B:K-modes C:K中心点 D:K-means++ 78.简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,下列哪些不属于这种聚类类型( )
A:非互斥聚类 B:划分聚类 C:模糊聚类 D:层次聚类 79.在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有( )
A:使用属性的平均值填充空缺值 B:忽略元组 C:使用最可能的值填充空缺值 D:使用与给定元组属同一类的所有样本的平均值 E:使用一个全局常量填充空缺值 80.数据清理中,处理缺失值的方法是( )
A:成对删除 B:整例删除 C:估算 D:变量删除 81.那种数据变换的方法将数据沿概念分层向上汇总( )
A:数据概化 B:规范化 C:平滑 D:聚集 82.哪种图形显示方法常用于描述两个变量间的依赖模式?( )
A:分位数图 B:LOESS曲线 C:散布图 D:直方图 83.下列哪一种操作实现了和神经网络中Dropout类似的效果?( )
A:堆叠(Stacking) B:Boosting C:其余选项都不正确 D:Bagging 84.分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于(  )问题。
A:关联规则挖掘 B:分类与回归 C:时序预测 D:聚类分析 85.下列哪一项属于特征学习算法(representation learning algorithm)?( )
A:都不属于 B:神经网络 C:K近邻算法 D:随机森林 86.增加卷积核的大小对于改进卷积神经网络的效果是必要的吗?( )
A:不知道 B:没听说过 C:是 D:否 87.( )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。
A:数据归约 B:数据变换 C:数据清洗 D:数据集成 88.下列几种数据挖掘功能中,( )被广泛的应用于股票价格走势分析( )
A:关联分析 B:演变分析 C:分类和预测 D:聚类分析 89.下列哪个描述是正确的?( )
A:分类是无指导的学习,聚类是有指导的学习 B:分类和聚类都是无指导的学习 C:分类和聚类都是有指导的学习  D:分类是有指导的学习,聚类是无指导的学习 90.购物篮分析的核心是( )
A:挖掘关联规则 B:统计热销商品 C:收集购物篮数据 D:优化商品摆放位置 91.设X={1,2,3}是频繁项集,则可由X产生( )个关联规则。( )
A:5 B:4 C:6 D:7 92.以下哪个指标不是表示对象间的相似度和相异度。( )
A:Manhattan距离 B:Minkowski距离 C:Eula距离 D:Euclidean距离 93.下面哪种数据预处理技术可以用来平滑数据,消除数据噪声? ( )
A:数据清理 B:数据集成 C:数据归约 D:数据变换 94.聚类质量评估系数仅衡量“覆盖面”的度量指标是( )。 
A:轮廓系数 B:召回率 C:F值 D:正确率 95.下面关于数据粒度的描述不正确的是: ( )
A:粒度是指数据仓库小数据单元的详细程度和级别; B:粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.分析和处理更灵活,且没有固定的模式 C:数据综合度越高,粒度也就越大,级别也就越高; D:数据越详细,粒度就越小,级别也就越高; 96.检测一元正态分布中的离群点,属于异常检测中的基于(  )的离群点检测。
A:统计方法 B:邻近度 C:聚类技术 D:密度 97.对于分类任务,我们不是将神经网络中的随机权重初始化,而是将所有权重设为零。下列哪项是正确的?( )
A:神经网络模型可以训练,但所有的神经元最终将识别同样的事情 B:没有任何问题,神经网络模型将正常训练 C:神经网络模型不会进行训练,因为没有净梯度变化 D:这些均不会发生 98.下面关于支持向量机(SVM)的描述错误的是?( )
A:是一种监督式学习的方法 B:可用于多分类的问题 C:支持非线性的核函数 D:是一种生成式模型 99.如果我们使用的学习率太大该怎么办?( )
A:不确定 B:网络将收敛 C:网络将无法收敛 100.根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( )
A:分类和预测 B:演变分析 C:关联分析 D:概念描述 101.可用作数据挖掘分析中的关联规则算法有( )。
A:决策树、对数回归、关联模式  B:K均值法、SOM神经网络  C:Apriori算法、FP-Tree算法   D:RBF神经网络、K均值法、决策树 102.下面那种数据挖掘方法可以用来检测孤立点?( )
A:分类和预测 B:演变分析 C:概念描述 D:聚类分析 103.根据关联分析中所涉及的抽象层,可以将关联规则分类为: ( )
A:单层关联规则 B:布尔关联规则 C:多层关联规则 D:多维关联规则 104.什么是影响神经网络的深度选择的因素?( )
A:神经网络的类型,例如:多层感知机(Multi-Layer Perceptrons, MLP),卷积神经网络(Convolutional Neural Networks, CNN) B:输入数据 C:输出函数映射 D:学习率 E:计算能力,即硬件和软件能力 105.基本的聚类方法可以分为(  ) 
A:密度方法 B:划分方法 C:层次方法 D:网格方法 106.神经网络模型(Neural Network)因受人类大脑的启发而得名,神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个输出。请问下列关于神经元的描述中,哪几项是正确的?( )
A:每个神经元可以有多个输入和多个输出 B:每个神经元可以有多个输入和一个输出 C:每个神经元可以有一个输入和多个输出 D:每个神经元可以有一个输入和一个输出 107.Apriori算法所面临的主要的挑战包括: ( )
A:会产生大量的候选项集 B:会消耗大量的内存 C:对候选项集的支持度计算非常繁琐 D:要对数据进行多次扫描 108.二元变量可以使用( )来衡量相异度。 
A:欧氏距离 B:Jaccard系数 C:简单匹配系数 D:平均偏差 109.数据清理的目的是处理数据中的( )
A:空缺值 B:不一致数据 C:敏感数据 D:噪声数据 110.增大卷积核的大小必然会提高卷积神经网络的性能。( )
A:对 B:错 111.数据规范化指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。( )
A:对 B:错 112.1`、如果增加多层感知机(Multilayer Perceptron)的隐层层数,测试集的分类错误会减小。( )
A:错 B:对 113.在监督学习任务中,输出层中的神经元的数量应该与类的数量(其中类的数量大于2)匹配。( )
A:错 B:对 114.DIANA算法是典型的分裂层次聚类方法。( )
A:错 B:对 115.支持向量机的准确率一定没有神经网络的好。( )
A:对 B:错 116.提升卷积核(convolutional kernel)的大小会显著提升卷积神经网络的性能。( )
A:错 B:对 117.聚类分析可以看作是一种非监督的分类。( )
A:对 B:错 118.轮廓系数衡量聚类质量好坏的思想是比较数据点的簇内和簇间距离。( )
A:对 B:错 119.K-Medians聚类过程中初始质心是随机选取的。( )
A:错 B:对 120.相异性矩阵反应了数据项之间的相似性。( )
A:错 B:对 121.聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。 ( )
A:错误 B:正确 122.孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。  ( )
A:正确 B:错误 123.Y = ax^2 + bx + c(二次多项式)这个方程可以用具有线性阈值的单个隐层的神经网络表示。( )
A:正确 B:错误 124.决策树方法通常用于关联规则挖掘。( )
A:对 B:错 125.给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。( )
A:对 B:错 126.一维空间的7个点1 2 3 8 9 10 25,根据划分方法聚类质量评价准则,设置k为2时,(1,2,3)(8,9,10,25)聚类的系数E值为34.5。( )
A:对 B:错 127.所谓特征选择,是指从数据中,选择有代表性的属性。 ( )
A:对 B:错 128.假设两只股票A和B具有在1个星期的以下值:(2,5),(3,8),(5,10),(4,11),(6,14)。如果股票都受到同行业的趋势,他们的价格协方差是1.2。( )
A:错 B:对 129.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。( )
A:对 B:错 130.数据库中某属性缺失值比较多时,数据清理可以采用忽略元组的方法。( )
A:错 B:对 131.样品是数据对象的别名。 ( )
A:错 B:对 132.数据清洗即将来自多个数据源的数据组合成一个连贯的数据源。( )
A:对 B:错 133.对于决策树,某一属性划分的一个分支中包含C1类别的数据有3条,C2类别的数据有3条,请计算该属性划分时,该分支的数据基尼GINI值为0.5。( )
A:错 B:对 134.对于决策树,某一属性划分的一个分支中包含C1类别的数据有0条,C2类别的数据有6条,请计算该属性划分时,该分支的数据基尼GINI值为0.5。( )
A:对 B:错 135.序数类型数据的可以计算其均值。( )
A:对 B:错 136.一所学校里面有 60% 的男生(boy),40% 的女生(girl) 。男生总是穿长裤(pants),女生则一半穿长裤一半穿裙子。随机选取一个穿长裤的学生,他(她)是女生的概率是0.5。( )
A:错 B:对 137.属性的别名也可称为实例。( )
A:错 B:对 138.数据预处理主要包括数据清洗、数据集成、数据规约、数据变换和离散化四个步骤。( )
A:错 B:对 139.对于决策树,某一属性划分的一个分支中包含C1类别的数据有0条,C2类别的数据有6条,请计算该属性划分时,该分支的数据信息熵值为0。( )
A:错 B:对 140.在logistic分类中,L1正则化和L2正则化的引入为了解决训练过拟合的问题。( )
A:对 B:错 141.将原始数据进行维度规约,数值规约属于频繁模式挖掘步骤的任务。( )
A:错 B:对 142.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。 ( )
A:错 B:对 143.数据可视化方法主要包括直方图、柱状图、箱线图、散点图等方法。( )
A:错 B:对 144.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。( )
A:对 B:错 145.下面哪种情况不会影响K-means聚类的效果?( )
A:数据点密度分布不均 B:数据点呈非凸形状分布 C:数据中有异常点存在 D:数据点呈圆形状分布 146.一组数据的最小值为12,000,最大值为98,000,利用最小最大规范化将数据规范到[0,1],则73,000规范化的值为:( )
A:0.845 B:0.716 C:0.612 D:0.513 147.数据库中某属性缺失值比较多时,数据清理采用的方法( )
A:各项说法均有误 B:盒状图法 C:忽略元组 D:平均值填充 148.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:( )
A:26.8 B:27.9 C:22.6 D:18.3 149.运用云计算、数据挖掘以及模糊识别等人工智能技术,对海量的数据和信息进行分析和处理,对物体实施智能化的控制,指的是( )
A:互联网 B:全面感知 C:可靠传递 D:智能处理 150.身高和体重分别是什么类型 ( )
A:身高离散、体重离散 B:身高离散、体重连续 C:身高连续、体重连续 D:身高连续、体重离散 151.数据挖掘算法主要有聚类算法、关联算法、决策树算法和回归分析等,各种算法用于解决不同的实际问题,某分行拟通过对县域机构数量与存款市场竞争力的相关性分析,进 而建立两者之间的函数表达式,用新思维拓展县域市场,提升县域存款的市场竞争力。则可以采用的是:( )
A:决策树算法 B:关联算法 C:聚类分析 D:回归分析 152.哪一项是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。( )
A:质心 B:离群点 C:边界点 D:核心点 153.Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:( )
A:各类别的先验概率P是相等的 B:特征变量X的各个维度是类别条件独立随机变量 C:以0为均值,sqr(2)/2为标准差的正态分布 D:P(X|C)是高斯分布 154.标称类型数据的可以实现数学计算 ( )
A:均值 B:众数 C:中位数 D:方差 155.印度电影《宝莱坞机器人之恋》中的机器人七弟采用的智能算法最有可能是以下哪一种( )
A:穷举算法 B:神经网络 C:遗传算法 D:模拟退火 156.“飞机必须飞得比山高”表示( )
A:知识 B:信息 C:数据 D:智慧 157.在无人驾驶时,希望程序能够根据路况决策汽车的方向盘的旋转角度,那么该任务是?( )
A:分类 B:聚类 C:回归 D:降维 158.某超市研究销售纪录数据后发现,买面包的人很大概率也会购买牛奶,这种属于数据挖掘的哪类问题:( )
A:聚类 B:关联规则发现 C:自然语言处理 D:分类 159.将原始数据进行维度规约,数值规约是在以下哪个步骤的任务?( )
A:分类与预测 B:频繁模式挖掘 C:数据流挖掘 D:数据预处理 160.时间序列合适的建模方法有:( )。
A:一元时间序列 B:离散型时间序列 C:序列的分布规律 D:多元时间序列 E:连续型时间序列 161.下列哪些算法属于层次聚类算法?( )。
A:CURE B:Agnes C:BIRCH D:DIANA 162.BIRCH算法的主要缺点有( )。
A:聚类的结果可能和真实的类别分布不同 B:对高维特征的数据聚类效果不好 C:无法识别噪声数据 D:BIRCH算法在整个过程中一旦中断,一切必须从头再来 163.AprioriSome算法的优缺点( )。
A:适用于任何数据集 B:AprioriSome会产生比较多的候选,可能在回溯阶段前就占满内存。 C:AprioriSome跳跃式计算候选,会在某种程度上减少遍历数据集次数 D:对于较低的支持度,数据集中有较长的大序列的情况下,采用AprioriSome比较好。 164.GSP算法存在的问题( )。
A:只适用于小规模数据集 B:对长序列模式的处理效率比较低 C:需要对序列数据集进行多次扫描 D:当序列数据集比较大时,容易生成庞大的候选序列 165.DBSCAN算法的优点有( )。
A:能够识别出噪声点 B:可以发现任意形状的簇 C:对于数据集中样本的顺序不敏感 D:不需要事先知道要形成的簇的数量 166.噪声数据(不正确的值)的成因有( )。
A:数据收集工具的问题 B:数据输入时的人为/计算机错误 C:其他 D:数据传输中产生的错误 167.下列哪些是分类算法?( )。
A:ID3 B:DIANA C:C4.5 D:KNN 168.多维数据模型最典型的数据模式包括( )。
A:星型模式 B:雪花模式 C:网状模式 D:事实星座模式 169.可以用来刻画簇间距离的有( )( )。
A:最大距离 B:平均距离 C:中心距离 D:最小距离 170.处理空缺值的主要方法有( )。
A:使用一个全局常量填补空缺值 B:使用与给定元组属同一类的所有样本的平均值。 C:使用属性的平均值填补空缺值。 D:忽略元组 171.朴素贝叶斯分类器对什么数据具有较好的分类效果( )。
A:离散数据 B:连续数据 C:函数依赖的数据 D:完全独立的数据 172.数据挖掘是从具有什么特点的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 ( )
A:海量的 B:模糊的 C:不完全的 D:有噪声的 173.可以用来刻画簇内距离的有( )( )。
A:簇的内径 B:簇的直径 C:簇的中心距离和 D:簇的平均距离 174.AprioriSome算法可以看作是AprioriAll算法的改进,具体过程分为两个阶段:( )。
A:凝聚 B:分裂 C:回溯阶段 D:前推阶段 175.分箱方法有( )。
A:按箱中值平滑 B:按箱平均值平滑 C:按箱边界平滑 D:聚类 176.数据不一致性的成因:( )。
A:人为 B:机器 C:不同的数据源 D:违反了函数依赖性 177.数据归约的策略有( )。
A:数据立方体聚集 B:维归约 C:数据压缩 D:数值归约 178.KNN算法的优缺点( )。
A:KNN对于随机分布的数据集分类效果较差,对于类内间距小,类间间距大的数据集分类效果好,而且对于边界不规则的数据效果较好。 B:K值的选取非常重要 C:KNN对于样本不均衡的数据效果不好,需要进行改进 D:KNN算法是最简单有效的分类算法,且容易实现 179.互联网本身具有什么样的特征,这种属性特征给数据搜集、整理、研究带来了革命性的突破。 ( )
A:互动性 B:数字化 C:共享 D:快速性

温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(5) dxwkbang
返回
顶部