1. ID3算法在分裂节点处将信息增益作为分裂准则进行特征选择,递归地构建决策树。( )

  2. 答案:对
  3. 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。( )

  4. 答案:对
  5. 聚类就是把一些对象划分为多个组或者聚簇,从而使同组内对象间比较相似而不同组对象间差异大。( )

  6. 答案:对
  7. 人的血型属于标称属性。( )

  8. 答案:对
  9. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。( )

  10. 答案:对
  11. 从大规模的数据中抽取或挖掘出感兴趣的知识或模式的过程或方法叫做数据挖掘。( )

  12. 答案:对
  13. 可信度是对关联规则的准确度的衡量。( )

  14. 答案:对
  15. 设最小支持度阈值为30%,最小置信度阈值为70%,如果一个项集的支持度为50%,则该项集是频繁项集。( )

  16. 答案:对
  17. 分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。( )

  18. 答案:对
  19. 数据仓库系统的主要应用是联机分析处理。( )

  20. 答案:对

  21. 答案:对
  22. 若一个对象不属于任何簇,那么该对象是基于聚类的离群点。( )
  23. 用于分类的离散化方法之间的根本区别在于是否使用类信息。( )
  24. 在挖掘闭模式算法中,直接搜索闭频繁项集,并对结果进行剪枝是最常用的方法,其中剪枝的策略不包括项合并和子项集剪枝。( )
  25. 关联规则挖掘任务主要分为频繁项集的产生和关联规则的产生两个子任务。( )
  26. 数据分析的定义:数据分析就是对数据进行分析。专业的说法,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。( )
  27. 层次聚类仅局限与基于距离,不能基于密度或空间。( )
  28. 酒店的星级属于数值属性( )
  29. 总平方和TSS表示因变量的n个观察值与其均值的误差的总和。( )
  30. 数据变换是通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。( )
  31. 处理缺失数据的方法是( )
  32. 下列属于数据预处理任务的是( )
  33. 数据归约技包括( )
  34. 数据归约策略包括( )。
  35. 下列不属于数据挖掘任务的是( )。
  36. 关于数据分析与数据挖掘,以下说法正确的是( )
  37. 决策树中包含的结点是( )。
  38. 数据变换的类型包括( )
  39. 以下关于随机森林算法的分析中正确的是( )
  40. 关于数据的图形显示,说法正确的是( )
  41. 要称之为强关联规则,需要规则同时满足( )。
  42. 离群点的检测方法可以分为( )
  43. 下面关于离群点的分析正确的是( )
  44. 下列关于离群点与噪声的说法,错误的是( )。
  45. 以下属于标称属性的是( )
  46. 抽样方法包括( )
  47. 聚类分析中最常用的距离有( )
  48. 数据挖掘可以应用于以下哪些场景( )
  49. 下列数据变换类型及方法正确的是( )
  50. 分类模型的误差包括( )。
  51. 下列关系中不具有相关关系的是( )。
  52. 假定用于分析的数据包含属性age,数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。已知age的标准偏差为12.94年,使用z-score规范化对age值35进行转换,转换后得到的值( )
  53. 计算p1(2,1,4,10)和p2(3,0,3,8)两个对象之间的曼哈顿距离( )。
  54. 光年所属的属性类别是( )
  55. 目的是缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果的是( )
  56. 以下哪个聚类算法不属于基于网格的聚类算法( )
  57. 下面属于维归约常用的线性代数技术的有( )
  58. 给定两个对象的元组x=(4,3,5,1)与y=(1,6,7,3),它们之间的余弦相似度为( )(结果保留两位小数)。
  59. KDD是( )
  60. ( )是指分类器/回归器正确地预测新的或先前未见过的数据的属性值/类标号的能力。
  61. 回归分析中使用的距离是点到直线的垂直坐标距离,最小二乘准则是指( )。
  62. 不同时刻的气温属于( )数据
  63. 假定用于分析的数据包含属性age,数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。对age值35进行小数定标规范化转换,转换后的值为( )
  64. 以下哪个算法是分类算法( )
  65. 下列变量之间的关系是函数关系的是( )。
  66. 离群点分为全局离群点,( )。
  67. 离群点又被称为异常值,它的本质是( )。
  68. 离群点等同于噪声数据。( )
  69. 如果一个对象不强属于任何簇,那么该对象是( )。
  70. 基于近邻的离群点检测方法包括( )。
  71. 不和谐检验需要检查两个假设:工作假设和备择假设。( )
  72. 与其他观测值的差别如此之大,以至于怀疑他是由不同的机制产生的,且是一个观测值的是( )。
  73. 一个对象的离群点得分是该对象周围密度的逆。这是基于( )的离群点定义
  74. 通过基于密度的局部离群点检测就能在样本空间数据分布不均匀的情况下也可以准确发现离群点。( )
  75. 给定一个数据集,数据对象的一个子集作为整体显著偏离整个数据集,数据对象的这个子集称为集体离群点。( )
  76. 关联规则的支持度公式为( )。
  77. Aprior算法包括连接和剪枝两个基本步骤。( )
  78. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题( )。
  79. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。( )
  80. 下列几种数据挖掘功能中被广泛的用于购物篮分析的是( )。
  81. 大型数据库中的关联规则挖掘包含找出所有频繁项集和由频繁项集产生强关联规则两个过程。( )
  82. 下列关于FP-growth算法优缺点的表述中,正确的有( )。
  83. 具有较高的支持度的项集具有较高的置信度。( )
  84. 基于密度的聚类方法可以发现任意形状的簇。( )
  85. 数据挖掘对聚类的典型要求包括( )。
  86. 聚类质量评估的主要任务不包括( )
  87. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。( )
  88. 基于( )的聚类方法是基于距离判断数据对象相似度的聚类。
  89. DBSCAN算法能够很好的区分原始数据的形状,但受限于用户指定的参数。( )
  90. K-中心点算法采用簇中对象的平均值作为参考点。( )
  91. 数据的哪些特性对聚类分析具有很强的影响( )。
  92. 下面哪种距离度量方法为欧几里得距离( )。
  93. DIANA算法中,定义两个数据点之间的平均距离的为( )。
  94. 决策树是用样本的属性作为树的结构,用样本属性的取值作为树分支的结点。( )
  95. 决策树分类的主要包括( )。
  96. 惰性学习法的“惰性”体现在它不急于在收到测试对象之前构造分类模型。( )
  97. 下列哪些是朴素贝叶斯分类的优缺点( )。
  98. ID3算法无法避免过拟合问题,而C4.5算法则可以避免。( )
  99. KNN的主要思想是计算每个训练数据(每个训练数据都有一个唯一的类别标识)到待分类元组的距离,取和待分类元组距离最近的k个训练数据集,k个数据中哪个类别的训练数据占多数,则待分类元组就属于那个类别。( )
  100. 某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为ŷ=8.25x+60.13,下列叙述正确的是( )。
  101. 回归分析的步骤顺序为( )。① 进行相关分析 ②建立预测模型 ③ 确定变量 ④ 确定预测值 ⑤ 计算预测误差。
  102. F检验运用服从F分布的统计量或方差比作为统计检验,通过显著性水平检验度量回归方程的线性关系是否显著。( )
  103. 在回归分析中,检验线性相关显著性常用的三种检验方法,包含( )。
  104. 某块农田粮食的产量与施肥量之间的关系为不确定性关系。( )
  105. 多元线性回归是研究处理两个变量之间关系的最简单模型。( )
  106. 下列关系中具有相关关系的是( )。
  107. 应用回归预测法时,即使变量之间不存在相关关系,也可以对这些变量应用回归预测法。( )
  108. ( )是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。
  109. 回归分析按照涉及变量的多少,分为( )。
  110. 我们要进行数据预处理,是因为原始数据大多都是( )。
  111. 将原始数据进行集成、变换、维度归约、数值归约是在以下哪个步骤的任务( )。
  112. 在使用分箱法实现特征离散化时,可以用每个箱中的中位数或平均数替换箱中所有的值。( )
  113. 数据归约就是指对数据集进行简化表示。( )
  114. 数据预处理的任务包括数据清理、数据集成、数据规约和数据泛化。( )
  115. 数据清理包括以下哪些处理( )。
  116. 假设12个销售价记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内( )。
  117. 在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各方法中正确的有( )。
  118. 数据规范化方法包括( )。
  119. 噪声是指被测量的变量产生的错误或误差。( )
  120. 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是( )。
  121. 余弦相似性利用向量空间中两个向量夹角的余弦值来衡量两个个体间的差异。余弦值越接近0,夹角越大,向量之间匹配越大。余弦值越接近1,夹角越小,向量之间匹配越小。( )
  122. 已知点X的空间坐标为(3,4,2),点Y的空间坐标为(1,6,1),则X和Y的欧几里得距离是( )。
  123. 分散度量趋势包含( )。
  124. 军衔所属的属性类型为( )。
  125. 中心趋势度量包括( )。
  126. 二元属性的相异性有两种,一种是对称的二元相异属性,一种是非对称的二元相异属性。( )
  127. 属性可以分为标称属性、二元属性、序数属性和数值属性四类。( )
  128. 考虑数据集{12 24 33 24 55 68 26},其四分位数极差是( )。
  129. 离散属性总是具有有限个值。( )
  130. 下列属于数据挖掘任务的是( )。
  131. 下列关于模式识别的相关说法中错误的是( )。
  132. 下列有关离群点的分析错误的是( )。
  133. 下面不属于数据分析和挖掘的类型的是( )。
  134. 事务数据库的每个记录代表一个事务。( )
  135. 目前数据分析和数据挖掘面临的挑战性问题包括( )。
  136. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。( )
  137. 常见的机器学习方法包含( )。
  138. 无监督学习可以在没有标记的数据集上进行学习。( )
  139. 离群点是指全局或者局部范围内偏离一般水平的观测对象。( )
温馨提示支付 ¥5.00 元后可查看付费内容,请先翻页预览!
点赞(5) dxwkbang
返回
顶部