- 物联网的核心和基础是互联网( )
- 链式MapReduce计算中,对任意一个MapReduce作业,Map和Reduce阶段可以有无限个Mapper,但Reducer只能有一个。( )
- HDFS的节点一共有三个,分别是Namenode、SecondaryNamenode和DateNode。
- Sqoop是数据同步工具,主要用于传统数据库和Hadoop之间传输数据?( )
- Yahoo S4是主流的大数据流式计算模型。( )
- Storm属于大数据计算模式批处理计算计算中的一种。( )
- 支撑大数据业务的基础是数据硬件。( )
- MapReduce计算过程中,相同的key默认会被发送到同一个reduce task处理。( )
- 微软的Bing,Windows Live,Microsoft Business Productivity Online等产品属于软件即服务(SaaS)类型。 ( )
- 大数据的数据采集是在确定用户目标的基础上,针对该范围内所有结构化、半结构化和非结构化的数据的采集。( )
- NameNode周期性地从集群中的每个DataNode接受心跳包和块报告,收到心跳包说明该DataNode工作正常?( )
- 数据分析员根据不同的业务需求来建立数据模型,抽取最有意义的向量。( )
- 大数据的主要来源包括( )。
- 三次信息化浪潮的标志分别是( )。
- HBase的Region组成中,必须要有以下哪一项?( )
- 客户端首次查询HBase数据库时,首先需要从( )表开始查找。
- Hadoop1.0默认的调度器策略是哪个?( )
- Hadoop是由什么语言实现的?( )。
- HDFS1.0 默认 Block Size大小是( )。
- Hadoop2.x默认数据块大小为( )。
- HDFS读数据时,客户端从( )里获得组成文件的数据块的位置列表?
- nosql数据库是一种比较高级的数据库,关系型数据库是由nosql数据库发展而来。( )
- hadoop已经发展了三个版本,第二、三个版本最大的特色是增加了YARN及NameNode HA?( )
- YARN是HDFS中的资源调度器,负责在数据输入阶段做并行处理。( )
- 在修改ntp的配置文件中,不可以修改授权本网段的访问权限。
- Apache Hadoop是开源企业版本?( )
- 在Yarn的web界面上能够看到过往运行的计算。
- Hive支持多种不同长度的整型和浮点型数据类型,不支持布尔类型。( )
- Hive的用户接口主要有三个:CLI,Client 和 WUI。 ( )
- NameNode 负责管理元数据信息metadata,client 端每次读写请求,它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。( )
- Hadoop是一个Apache基金会开发的分布式系统基础架构。( )
- 大数据的起源是金融。( )
- HBase可以有列,可以没有列族(column family)。( )
- Hive属于大数据计算模式图计算中的一种。( )
- MapReduce 的 input split 一定是一个 block。 ( )
- 非结构化数据指的是可以用二维表结构来逻辑表达实现的数据。 ( )
- 流式数据的特征有实时性、易失性、突发性、无序性、无限性、准确性。( )
- 大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂。
- 数据清洗的方法包括缺失值处理、噪声数据清除、一致性检查与重复数据记录处理。( )
- 互联网数据是现在最主要的数据来源渠道。( )
- HDFS会尽量使用离程序最远的副本来满足用户请求,这样可以减少总带宽消耗和读延时。( )
- 下列关于脏数据的说法中,正确的是( )。
- 常用的系统日志的采集工具有( )。
- Yarn的主要思想是将MRv1版Job Tracker的哪两大功能拆分成哪两个独立的进程?( )
- 数据再利用的意义在于( )。
- 大数据技术的目标,就是从这些大数据中( )。
- 传统的数据采集过程中,对数据处理的方式有( )。
- 以下哪些是HDFS的特性?( )
- 大数据计算模式有( )。
- 大数据的两大核心技术分别是( )。
- Hadoop的优势有( )。
- HBase是分布式列式存储系统,记录按什么集中存放?( )
- MapReduce编程模型,键值对<key, value>的key必须实现哪个接口?( )
- 数据存储单位从小到大排列顺序是( )。
- HBase数据库的BlockCache缓存的数据块中,哪一项不一定能提高效率? ( )
- 若不针对MapReduce编程模型中的key和value值进行特别设置,下列哪一项是MapReduce不适宜的运算? ( )
- 下面哪个进程负责 MapReduce 任务调度?( )
- HDFS是( )。
- Client 端上传文件的时候下列哪项正确?( )
- 以下哪项内容不属于HDFS中划分的系统节点角色?( )
- “涵养水源”是指通过扩大森林的覆盖率,增加森林的截流作用和下渗作用,从而增加降低河流的强度,增加地下水的水量,通过恢复植被、建设水源涵养区达到控制土壤沙化、降低水土流失的目的。( )
- 服务层主要就是进行数据和Web系统的发布,对外提供服务。( )
- 对于专题图,可以通过矢量专题图和栅格专题图两种形式进行展示。( )
- 在栅格数据存储中,采用传统的金字塔方式进行数据存储。( )
- 林业中的大数据基本符合大数据4V的特性。( )
- Hadoop的名字来源于Doug Cutting儿子的大象玩具。( )
- HDFS是分布式的,由很多台服务器联合起来实现其功能。( )
- Yarn是一个资源调度平台。( )
- 在Hadoop发行的三大版本中,入门者适合学习Cloudera。( )
- MapReduce是一个分布式运算程序的编写框架。( )
- 目前所说的"大数据"不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。( )
- 一个好的大数据产品要有大量的数据规模、快速的数据处理、精确的数据分析与预测、优秀的可视化图表以及简练易懂的结果解释。( )
- 大数据的定义是( )。
- 大数据的分析方法在大数据领域不怎么重要。( )
- 数据的价值包括( )。
答案:对
答案:对
答案:对
答案:对
答案:对
答案:错
答案:错
答案:对
答案:对
答案:对
答案:对
温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!