山东农业工程学院
  1. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。( )

  2. A:对 B:错
    答案:A:对
  3. K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。( )

  4. A:对 B:错
    答案:B:错
  5. Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 ( )

  6. A:对 B:错
    答案:A:对
  7. 链式MapReduce计算中,对任意一个MapReduce作业,Map和Reduce阶段可以有无限个Mapper,但Reducer只能有一个。( )

  8. A:对 B:错
    答案:A:对
  9. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。( )

  10. A:对 B:错
    答案:B:错
  11. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。( )

  12. A:错 B:对
    答案:B:对
  13. 定量属性可以是整数值或者是连续值。( )

  14. A:错 B:对
    答案:B:对
  15. Secondary namenode就是namenode出现问题时的备用节点。( )

  16. A:对 B:错
    答案:错
  17. 离散属性总是具有有限个值。( )

  18. A:对 B:错
    答案:B:错
  19. Raid1是备份量极高的Raid策略,相应的他的保护能力也很强。( )

  20. A:错 B:对
  21. 一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。( )

  22. A:错 B:对
  23. 云计算就是软件在云端无所不在、无限强大的计算,也叫网络化计算或网格计算。( )

  24. A:对 B:错
  25. 如果规则 不满足置信度阈值,则形如 的规则一定也不满足置信度阈值,其中 是X的子集。( )

  26. A:错 B:对
  27. HBase对于空(NULL)的列,不需要占用存储空间。( )

  28. A:错 B:对
  29. 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。( )

  30. A:对 B:错
  31. 数据仓库在技术上的工作过程是: ( )

  32. A:数据的抽取
    B:数据仓库设计
    C:存储和管理
    D:数据的表现
  33. 下面列出的条目中,哪些是数据仓库的基本特征: ( )

  34. A:数据仓库是面向事务的
    B:数据仓库是面向主题的
    C:数据仓库的数据是反映历史变化的
    D:数据仓库的数据是相对稳定的
    E:数据仓库的数据是集成的
  35. 下列关于脏数据的说法中,正确的是( )。

  36. A:数据不完整
    B:编码不统一
    C:与实际业务关系不大
    D:格式不规范
    E:意义不明确
  37. 大数据的应用能够实现一场新的革命,提高综合管理水平的原因是( )。

  38. A:从单兵作战走向联合共享型管理
    B:从柜台式管理走向全天候管理
    C:从被动反应走向主动预见型管理
    D:从粗放化管理走向精细化管理
  39. ( )都属于簇有效性的监督度量。

  40. A:轮廓系数
    B:共性分类相关系数
    C:熵
    D:F度量
  41. 下面属于数据集的一般特性的有:( )

  42. A:分辨率
    B:维度
    C:相异性
    D:稀疏性
    E:连续性
  43. ( )这些数据特性都是对聚类分析具有很强影响的。

  44. A:规模
    B:噪声和离群点
    C:高维性
    D:稀疏性
  45. 数据挖掘算法的组件包括:( )

  46. A:模型或模型结构
    B:评分函数
    C:优化和搜索方法
    D:数据管理策略
  47. 云计算的特点包括( )几个方面。

  48. A:低使用度
    B:高性价比
    C:服务可计算
    D:服务可租用
  49. 下列关于数据生命周期管理的核心认识中,正确的是( )。

  50. A:数据生命周期管理最终关注的是社会效益
    B:数据生命周期管理旨在产生效益的同时,降低生产成本
    C:根据数据价值的不同应该对数据采取不同的管理策略
    D:在不同的数据存在阶段,数据的价值是不同的
    E:数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段
  51. 寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某一特征的表示,这个过程包括了以下哪些步骤? ( )

  52. A:决定如何量化和比较不同表示拟合数据的好坏
    B:决定用什么样的数据管理原则以高效地实现算法。
    C:决定要使用的表示的特征和结构
    D:选择一个算法过程使评分函数最优
  53. 在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有: ( )

  54. A:使用最可能的值填充空缺值
    B:使用一个全局常量填充空缺值
    C:忽略元组
    D:使用与给定元组属同一类的所有样本的平均值
    E:使用属性的平均值填充空缺值
  55. 以下属于分类器评价或比较尺度的有: ( )

  56. A:计算复杂度
    B:预测准确度
    C:模型描述的简洁度
    D:召回率
  57. 下列属于不同的有序数据的有:( )

  58. A:事务数据
    B:时序数据
    C:序列数据
    D:空间数据
    E:时间序列数据
  59. 大数据处理流程可以概括为( )几步。

  60. A:导入和预处理
    B:挖掘
    C:采集
    D:统计和分析
  61. 下列关于普查的缺点的说法中,正确的是( )。

  62. A:误差不易被控制  B:对样本的依赖性比较强 C:评测结果不够稳定 D:工作量较大,容易导致调查内容有限、产生重复和遗漏现象
  63. Amazon.com 公司通过( )计算云,可以让客户通过WEBService方式租用计算机来运行自己的应用程序。

  64. A:S3
    B:HDFS
    C:EC2
    D:GFS
  65. 考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是 ( )

  66. A:3
    B:3.5
    C:2
    D:5
  67. 下列关于数据交易市场的说法中,错误的是( )。

  68. A:数据交易市场是大数据产业发展到一定程度的产物
    B:商业化的数据交易活动催生了多方参与的第三方数据交易市场
    C:数据交易市场通过生产数据、研发和分析数据,为数据交易提供帮助
    D:数据交易市场是大数据资源化的必然产物
  69. 下列哪项通常是集群的最主要瓶颈?( )

  70. A:网络
    B:内存
    C:CPU
    D:磁盘IO
  71. 以下哪些算法是基于规则的分类器 ( )?

  72. A:ANN
    B:C4.5
    C:Na?ve Bayes
    D:KNN
  73. 我们常提到的Window装个VMware装个Linux虚拟机属于( )。

  74. A:系统虚拟化化
    B:内存虚拟化
    C:存储虚拟化
    D:网络虚拟化
  75. 下面哪个不属于数据的属性类型:( )

  76. A:序数
    B:区间
    C:相异
    D:标称
  77. 不属于网络虚拟化的概念是( )。

  78. A:VEPA
    B:VPN
    C:SAN
    D:VLAN
  79. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是: ( )

  80. A:3.2比特
    B:3.8比特
    C:1比特
    D:2.6比特
  81. ( )不是大数据技术提供的用户交互方式。

  82. A:统计分析和数据挖掘
    B:企业报表
    C:任意查询和分析
    D:图形化展示
  83. 大数据时代,我们是要让数据自己“发声”,没必要知道为什么,只需要知道( )

  84. A:预测的关键 B:原因
    C:是什么 D:关联事物
  85. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( )

  86. A:渐进抽样
    B:无放回的简单随机抽样
    C:分层抽样
    D:有放回的简单随机抽样
  87. 下列关于Hadoop API的说法错误的是( )。

  88. A:Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的
    B:Hadoop的文件API不是通用的,只用于HDFS文件系统
    C:FileStatus对象存储文件和目录的元数据
    D:FSDataInputStream是ava.io.DataInputStream的子类
  89. 大数据的最显著特征是( )。

  90. A:数据类型多样
    B:数据价值密度高
    C:数据处理速度快
    D:数据规模大
  91. 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是: ( )

  92. A:四年级
    B:二年级
    C:一年级
    D:三年级
  93. ( )是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。

  94. A:离群点
    B:核心点
    C:质心
    D:边界点
  95. 大数据时代,数据使用的关键是( )。

  96. A:数据再利用
    B:数据收集
    C:数据分析
    D:数据存储
  97. HDFS1.0 默认 Block Size大小是多少( )。

  98. A:256MB
    B:32MB
    C:64MB
    D:128MB
  99. 万维网之父是( )。

  100. A:彼得·德鲁克
    B:蒂姆·伯纳斯-李
    C:舍恩伯格
    D:斯科特·布朗

温馨提示支付 ¥5.00 元后可查看付费内容,请先翻页预览!
点赞(4) dxwkbang
返回
顶部