1. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数( )。

  2. 答案:对
  3. 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。( )

  4. 答案:错
  5. 具有较高的支持度的项集具有较高的置信度。( )

  6. 答案:错
  7. 数据规范化能够提高逻辑回归算法参数学习的效率。( )

  8. 答案:对
  9. 逻辑回归正则化主要包括L1正则化和L2正则化。( )

  10. 答案:对
  11. 经典的逻辑回归可以解决非线性的分类问题。( )

  12. 答案:错
  13. logistic回归对噪声敏感。( )

  14. 答案:对
  15. 下面说法正确的是  ( )

  16. 答案:K-means++能够解决初始点影响聚类效果的问题###K中心点能够解决有离群点的聚类问题###K-modes能够解决离散数据的聚类问题
  17. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )

  18. 答案:聚类
  19. 决策树的父节点和子节点的熵的大小关系是什么?( )

  20. 答案:子节点的熵更大
  21. 采用决策树分类算法,连续数据如何处理?( )

  22. 答案:连续数据离散化###选择最佳划分点分裂
  23. 以下哪个算法是分类算法( )
  24. 一个决策树包括如下哪些要素( )
  25. 决策树中不包含一下哪种结点, ( )
  26. 贝叶斯分类器对离群点敏感。( )
  27. 可以利用概率统计方法估计数据的分布参数,再进一步估计待测试数据的概率,以此来实现贝叶斯分类。( )
  28. 朴素贝叶斯分类器的朴素之处在于:( )
  29. 考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为 ( )
  30. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? ( )
  31. 假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:( )
  32. 所谓高维数据,指的是数据属性很多。( )
  33. 相关系数用来度量标称属性数据的相关性。( )
  34. 卡方测试用来度量离散标称属性数据的相关性。 ( )
  35. 欧式距离用来度量连续数值属性数据的相似性。 ( )
  36. 杰卡德系数用来度量非对称的二进制属性的相似性。 ( )
  37. 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是: ( )
  38. “飞机无法飞过高山”表示: ( )
  39. “8,000米是飞机飞行最大高度”与“10,000米的高山”表示: ( )
  40. 人从出生到长大的过程中,是如何认识事物的? ( )
  41. “8,000”和“10,000”表示: ( )
  42. 通过基于密度的局部离群点检测就能在样本空间数据分布不均匀的情况下也可以准确发现离群点。( )
  43. 不和谐检验需要检查两个假设:工作假设和备择假设。( )
  44. 给定一个数据集,数据对象的一个子集作为整体显著偏离整个数据集,数据对象的这个子集称为集体离群点。( )
  45. 离群点等同于噪声数据。( )
  46. 基于近邻的离群点检测方法包括( )。
  47. 离群点分为全局离群点,( )。
  48. 如果一个对象不强属于任何簇,那么该对象是( )。
  49. 离群点又被称为异常值,它的本质是( )。
  50. 一个对象的离群点得分是该对象周围密度的逆。这是基于( )的离群点定义
  51. 与其他观测值的差别如此之大,以至于怀疑他是由不同的机制产生的,且是一个观测值的是( )。
  52. 大型数据库中的关联规则挖掘包含找出所有频繁项集和由频繁项集产生强关联规则两个过程。( )
  53. Aprior算法包括连接和剪枝两个基本步骤。( )
  54. 下列关于FP-growth算法优缺点的表述中,正确的有( )。
  55. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题( )。
  56. 关联规则的支持度公式为( )。
  57. 下列几种数据挖掘功能中被广泛的用于购物篮分析的是( )。
  58. K-中心点算法采用簇中对象的平均值作为参考点。( )
  59. DBSCAN算法能够很好的区分原始数据的形状,但受限于用户指定的参数。( )
  60. 基于密度的聚类方法可以发现任意形状的簇。( )
  61. 数据的哪些特性对聚类分析具有很强的影响( )。
  62. 数据挖掘对聚类的典型要求包括( )。
  63. 下面哪种距离度量方法为欧几里得距离( )。
  64. 聚类质量评估的主要任务不包括( )
  65. 基于( )的聚类方法是基于距离判断数据对象相似度的聚类。
  66. DIANA算法中,定义两个数据点之间的平均距离的为( )。
  67. 惰性学习法的“惰性”体现在它不急于在收到测试对象之前构造分类模型。( )
  68. KNN的主要思想是计算每个训练数据(每个训练数据都有一个唯一的类别标识)到待分类元组的距离,取和待分类元组距离最近的k个训练数据集,k个数据中哪个类别的训练数据占多数,则待分类元组就属于那个类别。( )
  69. ID3算法无法避免过拟合问题,而C4.5算法则可以避免。( )
  70. 决策树是用样本的属性作为树的结构,用样本属性的取值作为树分支的结点。( )
  71. 下列哪些是朴素贝叶斯分类的优缺点( )。
  72. 决策树分类的主要包括( )。
  73. 某块农田粮食的产量与施肥量之间的关系为不确定性关系。( )
  74. 应用回归预测法时,即使变量之间不存在相关关系,也可以对这些变量应用回归预测法。( )
  75. F检验运用服从F分布的统计量或方差比作为统计检验,通过显著性水平检验度量回归方程的线性关系是否显著。( )
  76. 多元线性回归是研究处理两个变量之间关系的最简单模型。( )
  77. 在回归分析中,检验线性相关显著性常用的三种检验方法,包含( )。
  78. 下列关系中具有相关关系的是( )。
  79. ( )是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。
  80. 回归分析按照涉及变量的多少,分为( )。
  81. 某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为ŷ=8.25x+60.13,下列叙述正确的是( )。
  82. 回归分析的步骤顺序为( )。① 进行相关分析 ②建立预测模型 ③ 确定变量 ④ 确定预测值 ⑤ 计算预测误差。
  83. 在使用分箱法实现特征离散化时,可以用每个箱中的中位数或平均数替换箱中所有的值。( )
  84. 数据归约就是指对数据集进行简化表示。( )
  85. 噪声是指被测量的变量产生的错误或误差。( )
  86. 数据预处理的任务包括数据清理、数据集成、数据规约和数据泛化。( )
  87. 在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各方法中正确的有( )。
  88. 数据清理包括以下哪些处理( )。
  89. 将原始数据进行集成、变换、维度归约、数值归约是在以下哪个步骤的任务( )。
  90. 假设12个销售价记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内( )。
  91. 数据规范化方法包括( )。
  92. 我们要进行数据预处理,是因为原始数据大多都是( )。
  93. 余弦相似性利用向量空间中两个向量夹角的余弦值来衡量两个个体间的差异。余弦值越接近0,夹角越大,向量之间匹配越大。余弦值越接近1,夹角越小,向量之间匹配越小。( )
  94. 属性可以分为标称属性、二元属性、序数属性和数值属性四类。( )
  95. 二元属性的相异性有两种,一种是对称的二元相异属性,一种是非对称的二元相异属性。( )
  96. 离散属性总是具有有限个值。( )
  97. 分散度量趋势包含( )。
  98. 中心趋势度量包括( )。
  99. 已知点X的空间坐标为(3,4,2),点Y的空间坐标为(1,6,1),则X和Y的欧几里得距离是( )。
  100. 考虑数据集{12 24 33 24 55 68 26},其四分位数极差是( )。
  101. 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是( )。
  102. 军衔所属的属性类型为( )。
  103. 无监督学习可以在没有标记的数据集上进行学习。( )
  104. 离群点是指全局或者局部范围内偏离一般水平的观测对象。( )
  105. 事务数据库的每个记录代表一个事务。( )
  106. 目前数据分析和数据挖掘面临的挑战性问题包括( )。
  107. 常见的机器学习方法包含( )。
  108. 下列关于模式识别的相关说法中错误的是( )。
  109. 下列有关离群点的分析错误的是( )。
  110. 下面不属于数据分析和挖掘的类型的是( )。
  111. 下列属于数据挖掘任务的是( )。
温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(7) dxwkbang
返回
顶部