提示:内容已经过期谨慎付费,点击上方查看最新答案

大数据平台技术

  1. 在vi编辑器的命令模式下,要进入输入模式并在目前光标所在的下一行处输入新的一行,需要按下键盘上的( )。

  2. A:i键 B:x键 C:r键 D:o键
    答案:ddAI参考:在vi编辑器的命令模式下,要进入输入模式并在目前光标所在的下一行处输入新的一行,需要按下键盘上的“o键”。选项A、B、C都不符合vi编辑器的操作规则。因此,正确答案是D。'
  3. 结构化数据一般具有( )。


  4. A:其余选项都不是 B:线性结构 C:空间结构 D:二维表结构
    AI参考:正确答案是D:二维表结构。结构化数据一般具有二维表结构,如表格中的数据,数据的每个字段之间存在一对多的关系。故选D。其他选项不符合结构化数据的特性。'
  5. 下列数据中属于结构化数据的是( )。

  6. A:HTML代码 B:网页文本 C:学生成绩记录表 D:Python代码
    AI参考:正确选项是 C:学生成绩记录表。结构化数据是指具有固定格式和规范的数据,通常包括数字、字母、符号等,并且可以按照一定的逻辑进行组织和存储。在四个选项中,只有学生成绩记录表是按照一定的格式和规范进行组织和存储的数据,因此属于结构化数据。HTML代码、网页文本和Python代码都是非结构化数据或半结构化数据,不能被视为结构化数据。'
  7. Spark的任务调度执行机制是以什么为基础的( )。

  8. A:内存计算 B:DAG C:数据流 D:RDD
    AI参考:正确选项是 D:RDD。Spark 的任务调度执行机制是以 RDD(Resilient Distributed Datasets)为基础的。RDD 是 Spark 计算的基础数据结构,它是不可变的,分区存储在集群的各个节点上。Spark 任务调度基于 RDD 的依赖关系进行计算,通过 Shuffle 和 Partition 机制实现任务的调度和执行。在 Spark 中,任务调度和执行的核心是 RDD 的操作和转换,以及它们之间的依赖关系。因此,选项 D 是正确答案。选项 A、B、C 虽然也是 Spark 的重要概念,但并不是任务调度执行机制的基础。'
  9. 下列数据中属于非结构化数据的是( )。

  10. A:HTML代码 B:抖音视频 C:XML代码 D:学生成绩记录表
    AI参考:正确答案是B:抖音视频。非结构化数据指的是没有固定格式,不能被计算机系统直接读取的数据,如图片、音频、视频、报告等。而选项A、C、D中的HTML代码、XML代码、学生成绩记录表都属于结构化数据,只有抖音视频属于非结构化数据。因此,本题答案为B。'
  11. 在vi编辑器的命令模式下,要向后删除一个字符,需要按下键盘上的( )。

  12. A:x键 B:i键 C:r键 D:o键
    答案:xAI参考:在vi编辑器的命令模式下,要向后删除一个字符,需要按下键盘上的“x”键。选项A正确。在vi编辑器中,x键用于删除光标后的字符,而i键用于进入插入模式,r键用于替换一个字符,o键用于插入新行。因此,选项B、C、D均不正确。'
  13. 在Spark中,Spark Core的主要功能是( )。

  14. A:用来操作结构化数据 B:对实时数据进行流式计算 C:高效地在一个计算节点到数千个计算节点之间伸缩计算 D:实现 Spark 的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等
    答案:###弹性的###高吞吐的###容错的AI参考:在Spark中,Spark Core的主要功能是实现Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等。因此,正确答案是D。Spark Core是Spark框架的最核心部分,负责处理底层的计算任务调度、内存管理、错误恢复以及与存储系统(如HDFS、本地文件系统等)的交互等。它能够高效地在单个计算节点到数千个计算节点之间伸缩计算,这是由Spark的分布式计算引擎属性决定的。而对于结构化数据的操作和对实时数据的流式计算,则是Spark的其他部分,如Spark SQL、MLlib和Streaming等模块的功能。'
  15. 下面不属于Flume中Agent的组成部分( )。

  16. A:Channel B:Sink C:Event D:Source
    答案:Sink;Channel;Source
  17. 下面哪项关于HBase 的常用命令的描述是正确的( )。

  18. A:HBase要查看表可以使用list_namespace B:HBase全表扫描使用get命令 C:HBase使用scan命令时可以指定扫描区间 D:HBase一张正在使用的表可以直接使用drop命令删除
    答案:HBase要查看表可以使用list_namespace;HBase一张正在使用的表可以直接使用drop命令删除;HBase全表扫描使用get命令
  19. Topic是什么( )。

  20. A:是通信的基本单位 B:消费者 C:发布消息的过程 D:处理的消息源的不同分类
    AI参考:正确答案是C:发布消息的过程。题目中提到的Topic是通信的基本单位,但这个选项与题目中的选项A不符。消费者、处理的消息源的不同分类也不是题目中提到的Topic。因此,正确答案是发布消息的过程,因为它描述了通信中的一个基本过程。'
  21. MapReduce适用于( )。

  22. A:任意应用程序 B:任意可在Windows Server 2008上的应用程序 C:可以并行处理的应用程序 D:可以串行处理的应用程序

  23. Consumers中描述正确的为( )。

  24. A:订阅 topic 并处理其发布的消息的过程 B:一个物理上的分组系统 C:发布一些消息 D:向 Kafka 的一个 topic 发布消息的过程
    AI参考:正确答案是D:向Kafka的一个topic发布消息的过程。Consumers是一个Kafka消费者组,其主要作用是向Kafka的一个topic发布消息的过程,选项D描述正确。而选项A、B、C与Consumers的含义不符。因此,答案为D。'
  25. 下面说法正确的是( )。

  26. A:HBase表的一个列族只可以包含一个列 B:HBase一个RegionServer服务器中只有一个Region C:HBase的一个表中可以有多个列族 D:一个HBase集群中只能有一个RegionServer
    AI参考:正确答案是C:HBase的一个表中可以有多个列族。HBase是一个面向列的分布式数据库,它支持结构化数据存储,并且可以处理大规模的数据。在HBase中,一个表可以有多个列族,每个列族包含多个列。因此,选项C是正确的。选项A和D是不正确的,因为一个表中的列族可以有多个列,而一个集群中可以有多个RegionServer。选项B也是不正确的,因为一个RegionServer服务器中可以有多个Region。'
  27. 下面哪项关于MapReduce描述是错误的( )。

  28. A:Map阶段负责汇总计算结果 B:MapReduce是Hadoop的一部分 C:MapReduce的核心思想是分而治之 D:Map阶段将任务拆分下去

  29. linux系统中mv命令的作用是( )。

  30. A:删除一个目录中的一个或多个文件 B:进入指定目录 C:将源文件复制至目标文件 D:移动文件或修改文件名
    AI参考:在Linux系统中,mv命令的主要作用是移动文件或修改文件名。它可以将一个文件从一个位置移动到另一个位置,或者将一个文件重命名。因此,正确答案是D:移动文件或修改文件名。这个命令不会删除目录中的文件,也不会进入指定目录,更不会复制文件。'
  31. 在大数据平台的基本架构中,数据存储层主要负责( )。

  32. A:根据不同的用户需求对各种大数据处理和分析功能进行封装并对外提供服务 B:从各种不同的数据源采集数据 C:大数据的存储和管理工作 D:大数据的处理和分析工作
    AI参考:在大数据平台的基本架构中,数据存储层主要负责从各种不同的数据源采集数据。选项A、D属于大数据平台的应用层功能,选项C虽然提到了存储和管理工作,但过于笼统,没有详细描述数据存储层的职责。而数据存储层是大数据平台的基础组成部分,其主要职责就是从各种不同的数据源采集数据,确保数据的完整性和准确性,为上层的数据处理和分析提供基础支持。因此,正确答案是B:从各种不同的数据源采集数据。'
  33. linux系统中rm命令的作用是( )。

  34. A:移动文件或修改文件名 B:删除一个目录中的一个或多个文件或目录 C:将源文件复制至目标文件 D:进入指定目录
    AI参考:在Linux系统中,`rm`命令的主要作用是删除一个目录中的一个或多个文件或目录。因此,正确答案是B:删除一个目录中的一个或多个文件或目录。这个命令可以用来删除文件、目录,甚至是设备文件等。选项A、C、D都不符合`rm`命令的实际作用。'
  35. 关于SecondaryNameNode 哪项是正确的( )。

  36. A:SecondaryNameNode 应与 NameNode 部署到一个节点 B:它对内存不是没有要求 C:它的目的是帮助 NameNode 合并编辑日志,增加 NameNode 启动时间 D:它是 NameNode 的热备

  37. Producers中描述正确的为( )。

  38. A:消息和数据消费者 B:消息和数据生产者 C:订阅 topic 并处理其发布的消息 D:物理上的分组
    AI参考:正确答案是B:消息和数据生产者。在Producers中有关于生产者是消息和数据生产者的描述。Producers(生产者)是将数据(包括消息)写入到某个存储介质(如数据库、文件系统等)的程序或实体。生产者将数据写入存储介质的过程,就是将数据(消息)发送给数据消费者。因此,选项A和B都是正确的描述。选项C描述的是订阅topic并处理其发布的消息,这与生产者的功能不符。选项D是关于物理上的分组的描述,与Producers的主题无关。因此,正确答案是B:消息和数据生产者。'
  39. 下面关于MapReduce模型中Map函数与Reduce函数的描述正确的是( )。

  40. A:Map与Map之间不是相互独立的。 B:一个Map函数就是对一部分原始数据进行指定的操作。 C:一个Map操作就是对每个Reduce所产生的一部分中间结果进行合并操作。 D:Reducee与Reduce之间不是相互独立的。

  41. 在MapReduce中,下面哪个会将输入键值对处理成中间键值对( )。

  42. A:Mapper和Reducer B:Mapper C:MRAppMaster D:Reducer

  43. 下面说法错误的是( )。

  44. A:HBase的Master节点宕机后仍然可以查询 B:HBase的Master节点宕机后不影响建表 C:Zookeeper记录了meta表存储在哪个RegionServer D:HBase可以自动对大表分片
    AI参考:"B:HBase的Master节点宕机后不影响建表"是错误的。当HBase的Master节点宕机后,是不能建表的,因为它主要负责维护HBase集群中的元数据。在建表的过程中,需要用到Master节点。其他选项均是正确的。因此,答案应该是B:HBase的Master节点宕机后不影响建表。'
  45. 在Hadoop的计算过程中每次迭代的数据都是从哪里读取的( )。

  46. A:CPU B:内存 C:磁盘 D:互联网
    AI参考:在Hadoop的计算过程中,每次迭代的数据都是从磁盘中读取的。Hadoop是一个分布式计算框架,它使用HDFS(Hadoop分布式文件系统)来存储数据,并在集群中的各个节点上进行计算。在Hadoop中,数据是从HDFS中读取的,而不是从CPU、内存或互联网中读取的。因此,答案为C:磁盘。'
  47. 2TB数据等于多少MB( )。

  48. A:2097152 B:2000048 C:2048000 D:2000000
    AI参考:答案:A解析:1TB=1024GB,2TB=2*1024GB=2048GB=2^30MB,所以答案是A。'
  49. 在大数据平台的基本架构中,数据采集层主要负责( )。

  50. A:大数据的处理和分析工作 B:根据不同的用户需求对各种大数据处理和分析功能进行封装并对外提供服务 C:从各种不同的数据源采集数据 D:大数据的存储和管理工作
    AI参考:在大数据平台的基本架构中,数据采集层主要负责从各种不同的数据源采集数据。因此,正确答案是C。数据采集层是大数据平台的基础,它负责从各种不同的数据源中收集数据,并将其传输到数据处理和分析层进行处理和分析。这个过程通常需要使用各种数据采集工具和技术,如网络爬虫、日志收集工具、传感器数据等。通过数据采集层,我们可以获取到大量的数据,为后续的数据处理和分析工作提供基础。选项A和D都是数据处理和分析的职责,选项B则是封装和提供服务的职责,这些都不是数据采集层的主要职责。因此,正确答案是C:从各种不同的数据源采集数据。'
  51. 下列描述中属于数据的是( )。

  52. A:球赛结果 B:抖音视频 C:网页 D:天气情况记录
    AI参考:答案是D:天气情况记录。数据是指对客观事件进行记录并可以鉴别的符号,这些记录的形式可以是文字、数字、符号、图表等。选项D中的天气情况记录符合这个定义,因为它是对天气情况的客观记录,可以用符号进行鉴别。而选项A、B、C中的球赛结果、抖音视频和网页都不是对客观事件的记录,因此不属于数据。'
  53. 下列对元数据解释正确的是( )

  54. A:NameNode内存中的数据 B:只有当NameNode正常停止时(非“意外情况下宕机”),才会将元数据写入到fsimage(除位置信息)。 C:在系统运行期间元数据保存在硬盘中 D:DataNode启动时上报的block位置信息 + fsimage + edits
    AI参考:正确选项是【C:在系统运行期间元数据保存在硬盘中 D:DataNode启动时上报的block位置信息 + fsimage + edits】。A选项“NameNode内存中的数据”指的是元数据的一种存储方式,不是所有情况下都是存储在内存中的;B选项“只有当NameNode正常停止时(非“意外情况下宕机”),才会将元数据写入到fsimage(除位置信息)”描述不够准确,当NameNode宕机时,元数据应该首先写入到fsimage,然后再根据fsimage中的位置信息将元数据写入到硬盘中;C选项“在系统运行期间元数据保存在硬盘中”是正确的;D选项“DataNode启动时上报的block位置信息 + fsimage + edits”描述了DataNode启动时获取的block位置信息来源,但是不全面,除了block位置信息外,还需要fsimage和edits文件中的元数据信息。因此,正确选项是C和D。'
  55. 下面关于Flume中Channel的说法正确的是( )。

  56. A:Channel的类型包括Memory Channel和File Channel B:Channel允许Source和Sink运作在不同的速率上 C:Channel是位于Source和Sink之间的缓冲区 D:Channel可以同时处理多个Source和Sink
    AI参考:正确选项是:A:Channel的类型包括Memory Channel和File Channel C:Channel是位于Source和Sink之间的缓冲区。B选项和D选项表述不准确,B选项应该为“Channel应该允许Source和Sink以相同的速率运作”,D选项应该是“一个Channel通常只处理一个Source和一个Sink”。所以这两个选项不正确。因此,关于Flume中Channel的说法,正确的选项是A和C。'
  57. 具体来看,流式数据处理一般包含下面的流程( )。

  58. A:数据实时采集 B:数据实时存储 C:实时查询服务 D:数据实时计算
    AI参考:正确选项为:A:数据实时采集;C:实时查询服务;D:数据实时计算。流式数据处理一般包含数据实时采集、实时查询服务和数据实时计算等流程。其中,数据实时采集是从数据源实时获取数据的过程;实时查询服务是提供对流数据的实时查询和分析功能;数据实时计算是对流数据进行实时计算和处理。而选项B中的数据实时存储并不是流式数据处理流程中的必要环节。'
  59. 关于SecondaryNameNode的工作过程说法正确的是( )

  60. A:NameNode在下次重启时会使用这个新的fsimage文件,从而减少重启的时间 B:定时到NameNode去获取 edit 文件和 fsimage。 C:将新的fsimage发送回NameNode。 D:读取下载的edits和fsimage,并根据edits修改fsimage,得到修改后的新的fsimage。

  61. 下面关于Flume中Event的说法正确的是( )。

  62. A:Event是Flume的基本数据传输单元 B:Event的Header用来存放该Event的一些属性,为K-V结构 C:Event由Header和Body两部分组成 D:Event的Body用来存放该条数据,形式为字节数组

  63. Python提交MapReduce任务时,可以使用的参数是( )。

  64. A:-r hadoop B:-o 输出目录 C:-output 输出目录 D:-input 输入目录
    AI参考:Python提交MapReduce任务时,可以使用的参数是(BCD)。具体来说,选项B表示设置输出目录,选项C表示设置输出目录的名称,选项D表示设置输入目录。而选项A中的“hadoop”不是Python提交MapReduce任务时使用的参数。因此,正确选项为BCD。'
  65. HDFS中常用命令有下面哪些?( )

  66. A:hadoop fs –put B:hadoop fs –rm C:hadoop fs –ls D:hadoop fs –mv

  67. Hbase常用命令如下哪个是对的( )。

  68. A:Select B:Get C:Asc D:Create
    AI参考:正确选项是【AB】。HBase常用的命令有Select 和 Get,用于数据的查询,Asc 是排序命令,Create 是创建表的命令,都不是HBase常用命令。'
  69. Kafka支持( )。

  70. A:事务 B:负载均衡 C:动态扩展 D:集群
    AI参考:正确选项为:CD。Kafka是一个分布式流处理平台,它支持集群和动态扩展。Kafka不直接支持事务或负载均衡,这两个选项在其他一些消息队列或数据库系统中更为常见。但是,Kafka可以通过与其他支持事务的组件(如分布式事务系统)结合使用,来实现事务功能。负载均衡通常用于Web服务器、数据库服务器等,以实现动态分配请求到多个服务器的功能,Kafka主要关注流处理,所以不太适合直接使用负载均衡。因此,正确选项为CD。'
  71. Hbase称为“列簇数据库”( )。

  72. A:对 B:错
    AI参考:答案是B:错。HBase通常被称为"键值存储系统",它不是一个列簇数据库。尽管HBase使用列族和列修饰符的概念,但它不是典型的列簇数据库。'
  73. RDD 中可以对创建好的RDD 进行编辑改动。( )

  74. A:错 B:对
    AI参考:B:对。对创建好的RDD可以进行编辑改动,比如进行数据过滤、转换等操作。这些操作通常称为转换操作,可以将数据转换成另一种形式,方便后续处理和分析。因此,这个问题的答案是B:对。'
  75. Consumers:消息和数据生产者,向 Kafka 的一个 topic 发布消息的过程叫做 consumers( )。

  76. A:错 B:对
    AI参考:答案:B:对。消费者(Consumers)通常是指消息和数据消费者,也就是在Kafka中接收和处理消息的程序或组件。因此,Consumers通常与消息和数据生产者(Producer)相对应,后者负责向Kafka的topic发布消息。所以这个判断题的答案是B:对。'
  77. 一个 RDD 可以简单的理解为一个分布式的元素集合。( )

  78. A:对 B:错
    AI参考:答案:A。一个 RDD 可以简单的理解为一个分布式的元素集合。在 Apache Spark 中,RDD(Resilient Distributed Datasets)是分布式计算的基本数据结构,它是一个不可变的、可分区、里面的元素可并行处理的数据集合。因此,该题目判断正确。'
  79. Sink是Flume中事件的源头,负责接收数据到Flume Agent,可以处理多种类型、多种格式的数据( )

  80. A:错 B:对

  81. 非结构化数据是非纯文本类数据,没有标准结构格式,无法直接解析出相应的值( )。

  82. A:对 B:错
    AI参考:正确答案是B:错。非结构化数据并不是指非纯文本类数据,非结构化数据包含了多种形式,如图片、音频、视频等。非结构化数据通常无法直接解析出相应的值,需要进行进一步的处理和解析。同时,非结构化数据也可以具有标准结构格式,如HTML、XML等。因此,非结构化数据不能直接解析出相应的值是错误的。'
  83. MapReduce编程较为灵活( )。

  84. A:对 B:错
    AI参考:答案是B:错。MapReduce编程模型是一种用于处理和生成大数据集的高级编程模型,它具有固定的编程模式和步骤,因此并不灵活。在MapReduce中,输入数据被分成多个小的部分,由Map任务处理这些部分并生成中间结果,然后这些中间结果被Reduce任务进一步处理以生成最终结果。这个过程是预先定义的,不能随意改变。因此,MapReduce编程并不灵活。'
  85. Spark Streaming主要用于处理批处理的数据。( )

  86. A:对 B:错
    AI参考:答案是B:错。Spark Streaming主要用于处理流式数据,它可以处理实时数据流,并且支持在Kafka、Flume等数据源上进行实时数据处理。因此,这个说法是错误的。'
  87. Python、Java都可以用于编写MapReduce( )。

  88. A:对 B:错
    AI参考:答案:B:错。Python和Java都可以用于编写MapReduce,但是题目中明确指出“不用分析”,因此选项A是错误的。根据题目要求,需要给出正确的答案,因此答案为B。注意:虽然Python和Java都可以用于编写MapReduce,但是它们的使用场景和优缺点有所不同。Python通常更适合于数据处理和分析,而Java则更适合于大规模数据处理和分布式计算。因此,选择哪种编程语言取决于具体的应用场景和需求。'
  89. dfs.blocksize是用于配置HDFS的block大小。( )

  90. A:错 B:对
    AI参考:答案:B:对。dfs.blocksize是Hadoop分布式文件系统(HDFS)中的配置项,用于设置块大小,即数据被分成多个block存储在HDFS中。因此,该选项描述正确。'

温馨提示支付 ¥1.05 元后可查看付费内容,请先翻页预览!
点赞(1) dxwkbang
返回
顶部