1. 噪声和伪像是数据错误这一相同表述的两种叫法。( )

  2. 答案:错
  3. 对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。 ( )

  4. 答案:对
  5. 分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error)。 ( )

  6. 答案:对
  7. 当今世界四大趋势指的是经济全球化、全球城市化、全球信息化、信息智慧化。( )

  8. 答案:对
  9. 数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分。( )

  10. 答案:错
  11. 聚类分析可以看作是一种非监督的分类。( )

  12. 答案:对
  13. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。( )

  14. 答案:错
  15. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。(错)40. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。(对)73、Hadoop 支持数据的随机读写。( )

  16. 答案:错
  17. HBase对于空(NULL)的列,不需要占用存储空间。( )

  18. 答案:对
  19. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。( )

  20. 答案:错
  21. 大数据人才整体上需要具备( )等核心知识。

  22. 答案:数学与统计知识###在特定业务领域的知识###计算机相关知识
  23. 当前,大数据产业发展的特点是( )。
  24. 大数据的应用能够实现一场新的革命,提高综合管理水平的原因是( )。
  25. 简单随机抽样,是从总体N个对象中任意抽取n个对象作为样本,最终以这些样本作为调查对象。在抽取样本时,总体中每个对象被抽中为调查样本的概率可能会有差异。( )
  26. 云计算就是软件在云端无所不在、无限强大的计算,也叫网络化计算或网格计算。( )
  27. 用于分类的离散化方法之间的根本区别在于是否使用类信息。( )
  28. Secondary namenode就是namenode出现问题时的备用节点。( )
  29. 在评价不平衡类问题分类的度量方法有( )几种。
  30. DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。( )
  31. 数据挖掘的预测建模任务主要包括哪几大类问题? ( )
  32. 云计算的特点包括( )几个方面。
  33. 如下那些不是基于规则分类器的特点( )。
  34. 传统数据密集型行业积极探索和布局大数据应用的表现是( )。
  35. 非频繁模式包括( )
  36. Apriori算法的计算复杂度受( )影响。
  37. 下列关于数据生命周期管理的核心认识中,正确的是( )。
  38. 以下属于聚类算法的是( )。
  39. 下面哪些属于可视化高维数据技术 ( )
  40. 以下属于分类器评价或比较尺度的有: ( )
  41. 数据再利用的意义在于( )。
  42. 考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为 ( )。
  43. 一个对象的离群点得分是该对象周围密度的逆,这是基于( )的离群点定义。
  44. 关于数据创新,下列说法正确的是( )
  45. HBase数据库的BlockCache缓存的数据块中,哪一项不一定能提高效率。( )
  46. 大数据的起源是( )。
  47. 考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择( )的相似度计算方法。
  48. 以下是哪一个聚类算法的算法流程:①构造k-最近邻图。②使用多层图划分算法划分图。③repeat:合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。( )。
  49. 关于混合模型聚类算法的优缺点,下面说法正确的是( )。
  50. 以下不属于“智慧地球”六大行动方案的是(  )
  51. 假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:( )
  52. 在基本K均值算法里,当邻近度函数采用( )的时候,合适的质心是簇中各点的中位数。
  53. OLAP技术的核心是: ( )
  54. HDFS的是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是64M,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是( )。
  55. 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行( )。
  56. 以下哪个聚类算法不是属于基于原型的聚类( )。
  57. 支撑大数据业务的基础是( )。
  58. 下面关于数据粒度的描述不正确的是: ( )
  59. 以下哪些分类方法可以较好地避免样本的不平衡问题( )?
  60. 下列关于普查的缺点的说法中,正确的是( )。
  61. 在数据生命周期管理实践中,( )是执行方法。
  62. 购物篮分析的结果会对商品在卖场中的陈列产生重大的影响,由于很多具有相关性的商 品属于不同的部门管理,因此必然会产生商品的交叉陈列问题。 ( )
  63. 从数据中多角度挖掘分析得到的出行趋势,将对( )产生强有力的支撑。例如,根据数据分析, 上海限外政策后,城市高峰期拥堵延时指数总体下降了约3%
  64. 高德路况信息有多个数据来源,其中( )的占比最高。
  65. 道路的拥堵延时指数越高表示该道路拥堵时更加耗时。( )
  66. 所谓的购物篮分析(Market Basket Analysis)就是通过这些购物篮子所显示的信息来研究顾客的购买行为。( )
  67. 高德地图根据在线与离线的不同需要,采用两套不同的框架对数据进行处理和挖掘,即Spark/Storm模式的离线数据处理系统和Map/Reduce的在线数据处理系统。( )
  68. 回龙观是北京较大的居住社区之一,常住人口约达30万人。它附近高峰期造成交通拥堵的主要原因是大量通勤需求与单一路线中有限的车流容量存在较大落差。( )
  69. UGC数据通过与出租车、物流以及长途客运等行业合作,以置换和购买的方式,获得相关行业车辆的GPS数据。( )
  70. 高德地图的大数据处理与挖掘平台采用层状搭建结构。其底层为实时日志采集,主要通过Flume工具将诸如定位、导航、开放平台等生产服务器上产生的日志导入 Hadoop的分布式文件存储系统HDFS上。( )
  71. SAP和农夫山泉开始共同开发基于“饮用水”这个产业形态中,最为重要的数据场景是( )。
  72. 由于数据非结构化,格式的统一和数据类型的整理,以及数据错误和遗漏的处理都是需要大量人力和时间投人,所以数据采集工作这一步骤是最复杂繁琐的一项工作。( )
  73. 植物养分供给的盈亏对叶片形态含量有明显的影响,通过遥感植被指数与不同营养素(N、P、K、Ca、 Mg等)数学模型,可估测作物营养素供给状态。( )
  74. GIS是( ),它不仅能够管理各类属性的海量数 据,更主要的是能够实现对空间数据深人处理分析。
  75. 从生产端入手,借助大数据技术使农产品生产端的生产变得可预测,才是最终解决农产品价格过度波动问题的关键,这需要对需求端进行精准预测。 ( )
  76. 运用大数据技术的强大信息收集和分析功能,可以跨行业跨平台的收集各类信息,并进行分析处理,可以完善期货市场参与者对不同类信息收集和分析能力的不足,对于优化期货市场价格形成机制具有重要意义。( )
  77. 依赖于大数据技术的精确农业,需要各类准确的基础数据,包括如( )
  78. 实现流通环节各个主体的( )是农产品物流体系完善的一个前提条件,建立合理的利益分配机制是农产品流通体系建设的内在要求和核心。
  79. 大数据分析方式的基本步骤和基本思路如下:第一步,数据收集过程。第二步,数据清洗和整理工作。第三步,( )。
  80. 对于大数据技术在农产品生产环节的运用,主要的目标就是使农产品产量具有可预测性和可控性。 ( )
  81. 农产品物流体系的完善具有重要意义,根本原因是农产品流通作为农产品价值实现的中间环节,链接着农产品的生产端和需求端,是农产品市场价值实现的不可或缺环节。 ( )
  82. 关于Python内存管理,下列说法错误的是( )。
  83. 列表的元素可以修改,但元组的元素不能修改。 ( )
  84. 在Python中____表示空类型( )。
  85. 语句:menu = (1,2,3,4,5) print(menu[1:3])输出的结果为 ( )
  86. 在自然语言处理中,把句子拆分成一个个词语的过程被称为( )。
  87. 以下不属于数据分析时用到的方法是( )
  88. 利用历史数据预测公司将来的股价。“属于数据挖掘任务范畴。
  89. 下列描述中哪一项属于数据挖掘任务?
  90. 交叉分析是基于( )横向地组合交叉。
  91. 下列关于分类和聚类的描述中正确的是?
  92. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
  93. ( )不是NoSQL特征。
  94. 以下哪个不属于大数据库的是( )。
  95. 以下( )是图数据库产品。
  96. 以下( )不是NoSQL数据库。
  97. 为了在Hbase中确定一个具体数据,需要( )个参数。。
  98. 所谓数据的中心化是指数据集中的各项数据减去数据集的方差。( )
  99. 当缺失数据较少时直接删除相应样本,删除缺失数据样本,其前提是缺失数据的比例较少,而且缺失数据是随机出现的,这样删除缺失数据后对分析结果影响不大。( )
  100. 关于缺失数据处理,( )是不合适的。
  101. Python爬虫架构主要由五个部分组成,分别是搜索引擎、调度器、URL管理器、网页下载器和网页解析器。( )
  102. 数据采集工具不包括( )。
  103. 按( )分,把数据采集分类为静态数据采集、低频数据采集和高频数据采集。
  104. 异常值(离群点)是指测量数据中的随机错误或偏差造成其偏离均值的孤立点。在数据处理中,异常值不会极大地影响回归或分类的效果。( )
  105. 从数据的加工程度对数据进行了分类,以下不属于该分类的是( )。
  106. 在HDFS中,元数据保存在( )。
  107. HDFS一般拓扑结构中,由NameNode、DataNode和SecondaryNameNode组成,其中,NameNode的个数为( )。
  108. Hadoop生态系统中负责计算模式管理和调度器模块名称是( )。
  109. 在关于Hadoop的叙述中,“Hadoop按块存储和处理数据的能力值得人们信赖。因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能针对失败的节点重新分布处理。”属于( )。
  110. 以下关于HDFS存储数据策略的叙述中错误的是( )。
  111. 大数据为云计算提供了技术基础,云计算为大数据提供用武之地。( )
  112. 大数据面临的挑战中包括加大隐私泄露风险。( )
  113. 分布式处理技术、云技术、存储技术都是大数据时代的技术支撑。( )
  114. 以下哪个是大数据的特点( )。
  115. 数据库的数据属于结构化数据。( )
  116. 下列关于大数据作用的叙述中( )是错误的。
  117. 移动互联网、物联网以及云计算等热点崛起在很大程度上是( )产生的原因。
  118. 根据IDC 的定义大数据至少要有超过100GB的可供分析的数据。( )
  119. 以下不是农业大数据的主要应用领域的是( )。
温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(3) dxwkbang
返回
顶部