⬆️⬆️⬆️本课程2024最新同名章节期末答案⬆️⬆️

Hadoop大数据技术与项目实战期末考试答案2023春

177 阅读 0 评论 1 点赞

提示:内容已经过期谨慎付费，点击上方查看最新答案

Hadoop大数据技术与项目实战

ADS数据应用层，在ADS层中，进行最终指标统计，从而服务于报表系统的数据展示。（）

AI参考:答案是B:错。在数据应用层，最终指标统计的流程包括对数据的获取、清洗、处理和分析，以及根据业务需求生成相应的报表和报告。因此，问题中的陈述中存在误解，正确的应该是：“在ADS数据应用层中，不包括在ADS层中进行最终指标统计。” 总之，根据上下文分析，答案是B：“错”。'

使用列式存储数据采用LZO的压缩格式，目的是提高当前表数据在查询过程中的效率。（）

AI参考:答案是A：对。列式存储数据采用LZO压缩格式的目的就是为了提高当前表数据在查询过程中的效率。LZO是一种高效、压缩比高的压缩算法，适用于大数据量的数据存储和传输场景。使用LZO压缩格式可以减少存储空间，同时加快数据查询速度，从而提高整个系统的性能和效率。'

Flume在数据传输过程中，事件中的Value即 body，body是一个字节数组，封装的是传输的数据。（）

答案:Flume分流标记拦截器;ETL 拦截器AI参考:答案是B：错。Flume在数据传输过程中，事件中的Value即body，body封装的是传输的数据，但Value实际上是一个字符串，而不是字节数组。因此，这个说法是错误的。'

删除Kafka主题时，在配置文件中设置delete.topic.enable=true，才是完全删除，否则为标记删除。

AI参考:正确答案是B：对。在Kafka中，删除主题有两种方式：完全删除和标记删除。完全删除是指在配置文件中设置delete.topic.enable=true，将主题彻底删除，而标记删除则只是将主题标记为已删除状态，主题中的消息仍然保留。因此，这个问题的答案是B：对。'

Flume的数据流可以根据headers的信息发送到不同的channel中。（）

答案:正确

外连接中，显示左表所有数据的是右外连接。（）

答案:全外连接AI参考:答案是B：对。右外连接会显示左表的所有数据，以及右表中满足连接条件的所有数据。因此，外连接中显示左表所有数据的是右外连接。'

Hadoop是Apache基金会开发的一款分布式系统基础架构，主要解决海量数据存储和海量数据计算两大问题，从广义上来说，Hadoop通常指的是Hadoop生态圈。（）

答案:Hadoop

MapReduce词频统计案例中，Driver阶段的Configuration会操作job对象实现案例需求（）。

答案:对AI参考:正确答案是B：对。在MapReduce词频统计案例中，Driver阶段的Configuration会操作job对象实现案例需求。在MapReduce中，Driver是主程序，用于配置和启动Job。在Driver阶段，可以使用Configuration对象来设置和修改作业的各种参数，包括job对象。因此，答案为B：对。'

Hive本身没有存储功能，其数据要基于HDFS来存储。（）

AI参考:答案是B:错。Hive本身提供了数据存储的功能，它可以将数据存储在自家的Hiveserver2服务器中，不需要依赖于HDFS。因此，选项A是错误的。Hive可以将数据存储在HDFS中，但是也可以直接存储在本地磁盘或其他存储设备上，而不是完全依赖于HDFS。所以，答案为B。'

在项目中，关于数据迁移的实现是由sqoop完成，主要将HDFS上的数据抽取到MySQL。（）

AI参考:答案是A：对。根据题目描述，Sqoop是一个用于在Hadoop和结构化数据存储（如关系型数据库）之间进行数据传输的工具，它能够将HDFS上的数据抽取到MySQL等关系型数据库中。因此，数据迁移的实现是由Sqoop完成的，答案为A。'

在HQL关联测试中，测试表是员工表和地址表。（）

AI参考:答案是B:错。在HQL关联测试中，应该使用实际的测试数据和正确的测试表。而题目中给出的选项中并没有提及具体的测试表名称，因此不能确定测试表是员工表和地址表。需要提供更具体的测试表名称和相关联的内容才能进行关联测试。'

Event的最大定义为1024字节，超过会被切割放到下一个Event中。（）

AI参考:答案是B：对。根据题目描述，Event的最大定义为1024字节，超过会被切割放到下一个Event中，所以这个说法是正确的。'

在使用PyEcharts绘制轮播多图时，需要事先导入Timeline类。（）

AI参考:使用PyEcharts绘制轮播多图时，需要事先导入echarts.charts.Swiper类，而不是Timeline类。因此，答案是B：错。'

insert overwrite命令将数据写入表中（）

AI参考:答案是A：对。Insert Overwrite命令用于将数据写入表中，覆盖表中已有的数据。这个命令会将新的数据插入到指定的表中，如果表中已经存在相同的数据，则会将其覆盖。因此，答案是肯定的，所以选择A选项“对”。'

可以使用zkServer.sh stop命令开启Zookeeper。（）

AI参考:正确答案是B：错。使用zkServer.sh stop命令可以关闭Zookeeper，但是无法使用该命令开启Zookeeper。要启动Zookeeper，需要使用zkServer.sh start命令。因此，该判断题是错误的。'

在使用pyecharts绘制饼图时，需要事先导入PictorialBar类。（）

答案:一.饼图中,radius的第一个值必须为0二.环形图中,radius的第一个值必须大于0AI参考:答案是B:错。在使用pyecharts绘制饼图时，不需要事先导入PictorialBar类。饼图可以使用Pie类来绘制。'

在Flume数据传输过程中，选择Kafka sink，能把数据写入Kafka对应的Topic中（）

AI参考:答案是B：对。在Flume数据传输过程中，选择Kafka sink可以将数据写入Kafka对应的Topic中。Kafka sink是一个Flume的sink模块，用于将数据传输到Kafka中。它支持将数据批量写入Kafka，并且支持配置多个Kafka主题。因此，这个判断题的答案是B，即正确。'

在编写Flume拦截器代码时，configure方法的功能是可以获取到Flume进程在运行过程中的运行参数，然后对其进行引用。（）

AI参考:正确答案是【对】。configure方法的功能是可以获取到Flume进程在运行过程中的运行参数，然后对其进行引用。在编写Flume拦截器代码时，可以通过调用configure方法来获取Flume进程的参数，并进行相应的操作。因此，这个说法是正确的。'

在项目中，使用MySQL的应用场景有两个，一是用来存储Hive的元数据信息，二是存储数据仓库统计出来的指标结果（）

AI参考:答案：A。在项目中，使用MySQL的应用场景有两个，一是用来存储Hive的元数据信息，二是存储数据仓库统计出来的指标结果。所以答案为A，即“对”。MySQL是一种关系型数据库管理系统，可以用于存储和管理大量数据，而Hive是一种大数据处理工具，主要用于数据仓库和数据挖掘等领域。因此，将Hive的元数据信息存储在MySQL中是一种常见的应用场景。同时，MySQL也可以用于存储数据仓库统计出来的指标结果，因为MySQL具有较高的性能和可扩展性，可以满足数据仓库的需求。'

在设计Flume数据采集系统时，增加 source 个数，可以增大 source 读取能力。（）

答案:spooling directoryAI参考:答案是B：对。在Flume数据采集系统中，source是数据采集的源头，其读取能力取决于其设计时的硬件配置和软件实现。增加source的个数可以在逻辑上分散数据采集的任务，从而在一定程度上提高source的读取能力。但是，如果source的个数增加过多，可能会造成系统负载过高，反而影响系统的性能。因此，增加source的个数是否能够增大source的读取能力，需要根据具体的应用场景和系统配置来考虑。综上所述，答案是B，即增加Flume数据采集系统中source的个数可以增大source的读取能力。'

使用pyecharts进行可视化时，可以用下哪个选项设置图例不显示？（）

AI参考:正确选项是：D:legend_opts=opts.LegendOpts(is_show=False)在pyecharts中，可以使用legend_opts参数来设置图例的显示状态。is_show参数用于控制图例是否显示，其中False表示不显示。因此，D选项中的is_show=False可以用来设置图例不显示。其他选项中，axisline_opts和xaxis_opts是用于设置坐标轴线的显示状态，label_opts是用于设置标签的显示状态，与图例显示无关。'

在Linux命令行中，使用schematool命令（）

答案:schematoolAI参考:在Linux命令行中，使用`schematool`命令可以更新Hive元数据库。所以，选项D是正确答案。这个命令是Hive工具包中的一部分，用于管理Hive元数据库的结构和内容。它可以执行一系列的元数据库操作，如创建、更新和删除表、视图等。所以选项A、B和C都不正确。'

Hive定义了类似于SQL语言的（）语言。

AI参考:正确选项是【C:HQL】。Hive定义了类似于SQL语言的HQL语言，用于对数据进行查询和操作。HQL语言是基于Hadoop的数据仓库工具，提供了类似于关系型数据库的SQL语法，用于在Hadoop分布式文件系统（HDFS）中查询和分析大规模数据。Hive的查询语言HQL与传统的SQL语言有一定的差异，但它们在功能和语法上有很多相似之处。因此，C选项HQL是正确答案。'

Flume可以快速消费Kafka Topic数据，然后将消费后的数据转发到（）上。

AI参考:正确选项是 C:Sink。Flume是一个分布式的、可靠的数据收集系统，可以快速消费Kafka Topic数据，然后将消费后的数据转发到Sink（sink是Flume中的一个组件，用于将数据写入到目标存储系统）上。因此，选项C是正确答案。其他选项如HDFS、Source和Channel都不是Flume中用于转发数据的组件。'

下列哪条命令可以为f1.sh脚本文件赋予权限（）。

AI参考:正确答案是D: chmod u+x f1.sh。在Linux系统中，chmod命令用于改变文件或目录的权限。选项D中的"chmod u+x f1.sh"命令用于为f1.sh脚本文件赋予执行权限，使得用户可以直接运行该脚本文件。选项A、B、C中的命令与权限设置无关，不是正确的选项。因此，选项D是正确答案。'

使用hdfs dfs -count / 查看根目录下面数据文件的个数，显示结果为“14 9 458745”，其中9代表的是（）

AI参考:正确选项是 D:文件个数。命令`hdfs dfs -count /`是用来查看指定目录下的文件和目录信息。显示结果中的“14 9 458745”表示文件和目录的总数、子目录的个数以及总字节数。其中，9表示的是文件个数。选项A和B描述的是目录的嵌套层级，与命令结果无关；选项C描述的是所有文件的字节数，但在命令结果中并未直接显示。因此，正确答案是D。'

执行聚合统计的函数是（）

AI参考:执行聚合统计的函数是COUNT，所以选项B是正确答案。COUNT函数用于统计指定范围内数据的数量。SUM函数用于求和，MAX函数用于求最大值，而MIN函数用于求最小值。这些函数都可以进行聚合统计，但只有COUNT函数是专门用于统计数据的。'

Sqoop的工作本质是（）。

AI参考:正确选项是【A:迁移数据】。Sqoop是一个用于在Hadoop和传统数据存储系统（如关系型数据库）之间迁移数据的工具，它的工作本质是迁移数据。'

在纵向拼接中，可以实现去重的是（）。

AI参考:正确答案是B：Distinct。Distinct是SQL中的一个关键字，在纵向拼接中可以实现去重。选项A和C都是连接操作，选项D是横向拼接的语法，不适用于纵向拼接去重。因此，答案为B。'

（）命令可以查看当前HDFS上面文件内容的数据。

AI参考:正确选项是【C:ls】。命令ls可以查看当前HDFS上面文件内容的数据。A选项cat是用于连接文件的命令，B选项cd是用于切换目录的命令，D选项open是用于打开文件的命令，这三个选项都不能用于查看HDFS文件内容。因此，答案为C选项ls。'

在Flume数据采集配置文件中，kafka.bootstrap.servers= node1:9092 ，该配置表示（）

AI参考:在Flume数据采集配置文件中，kafka.bootstrap.servers= node1:9092 的配置表示Kafka的通信地址。该配置指定了Flume将从Kafka集群中的node1节点通过9092端口进行通信的数据源。其他选项如路径、Topic的数量或消费组在该配置中不适用。因此，答案为B：配置Kafka的通信地址。'

在Hive中，给数据表添加数据，可以将数据文件当中的数据一次性加载到指定的表中的方法是（）。

答案:LoadAI参考:在Hive中，给数据表添加数据，可以将数据文件当中的数据一次性加载到指定的表中的方法是（A）：insert into。Hive提供了insert into语句，可以将数据一次性加载到指定的表中。该语句可以将数据文件中的数据插入到目标表中，如果目标表不存在，则会创建该表。append、add和load等方法也可以用于向表中添加数据，但是它们不如insert into语句方便和高效。因此，答案为（A）insert into。'

pyecharts中，用以下哪个配置项对图表标题进行设置？（）

AI参考:正确选项是：C:TitleOpts。在pyecharts中，可以使用TitleOpts配置项对图表标题进行设置。LegendOpts、AxisOpts和InitOpts都不是用于设置图表标题的配置项。因此，答案为C。'

pyecharts 中的（）可以实现将多个图表在一个页面中进行布局。（）

AI参考:正确答案是B：Page。在pyecharts中，Page类可以实现将多个图表在一个页面中进行布局。所以选项B是正确答案。A选项Polar是极坐标图，C选项Pie是饼图，D选项PictorialBar是类似于条形图的图表，它们都不能实现将多个图表在一个页面中进行布局。'

在Sqoop执行数据迁移过程中，当不需要做任何聚合操作时，只需要MR程序当中的（）阶段即可。

AI参考:正确选项是【B:Reduce】。在Sqoop执行数据迁移过程中，当不需要做任何聚合操作时，只需要MR程序当中的Reduce阶段即可。Sqoop是一个用于在Hadoop和结构化数据存储（如关系型数据库）之间进行数据传输的工具，它使用MapReduce框架来实现数据迁移。在Map阶段，Sqoop将数据从源端读取并分发给每个Mapper进行处理；在Shuffle阶段，Mapper将处理后的数据交由Reducer进行汇总；在Reduce阶段，Reducer对数据进行聚合操作并将结果输出到目标端。如果不需要进行任何聚合操作，那么只需要在MR程序中设置合适的参数并执行Reduce阶段即可。因此，选项B是正确答案。其他选项如A、C、D在Sqoop数据迁移过程中可能有一定的作用，但不是唯一必要的过程。'

公共字段 cm中字段含义为设备唯一标识的字段是（）

AI参考:正确选项是C:uid，因为uid在公共字段cm中字段含义为设备唯一标识。'

在Flume数据传输过程中，Agent主要由（）组成。

AI参考:在Flume数据传输过程中，Agent主要由（BD）组成。Flume是一个分布式的海量日志收集系统，它主要由Source、Channel、Sink三个核心组件组成。Source组件负责从源头采集数据，Channel组件负责存储采集到的数据，Sink组件负责将数据传输到目标位置。因此，选项BD是正确的答案。选项A和C不是Flume的核心组件。'

根据在Flume数据采集脚步中的拦截器配置，程序首先对Builder内部类进行实例化，从而执行类中的两个方法，分别为（）。

AI参考:根据题干描述，Flume数据采集脚步中的拦截器配置需要进行实例化并执行类中的两个方法，因此选项C和D应该是正确的。选项C中的Build方法可能用于构建拦截器对象，而选项D中的Configure方法可能用于配置拦截器对象。因此，选项C和D都是正确的。因此，正确选项为C:Build和D:Configure。'

Flume在数据传输过程中，事件包含两部分（）。

AI参考:正确选项为：A:Value D:Key。Flume在数据传输过程中，事件包含两部分：Value和Key。其中，Value是数据的主要部分，包含实际的数据内容；Key则是对数据进行标识的部分，通常用于对数据进行分类、过滤等操作。因此，选项A和D是正确的。而选项B和C并不是Flume事件所包含的组成部分。'

下列属于事件日志数据合法校验步骤的是（）。

AI参考:选项B、C属于事件日志数据合法校验步骤。首先，需要对数据进行校验，这是所有数据校验的基础步骤。其次，需要校验是否为json格式。如果数据不是json格式，那么它可能不符合预期的数据格式，需要进行修正。最后，虽然不是所有的事件日志都需要对服务器时间进行校验，但是如果事件日志涉及到时间相关的信息，那么校验服务器时间也是必要的。至于选项D，对日志进行切割与事件日志数据的合法校验没有直接关系，因此不属于事件日志数据合法校验的步骤。综上所述，属于事件日志数据合法校验步骤的是：A、B、C。'

DWT层，构建一张设备主题宽表的字段有哪些（）

AI参考:正确选项为：ABD。构建一张设备主题宽表的字段应该包括设备唯一标识、手机型号和手机品牌。其中，设备唯一标识是用于唯一标识某一台设备的字段，手机型号和手机品牌则是描述设备属性的字段，可以帮助分析人员更好地理解设备的特点和分类。而累积活跃天数不是构建设备主题宽表的必要字段，因为它更多地用于分析用户活跃度的指标。因此，选项C不是构建设备主题宽表的字段。'

安装MySQL服务时，需要安装以下（）。

答案:已完成AI参考:正确选项是：A:MySQL所需要的依赖库。在安装MySQL服务时，需要安装MySQL所需要的依赖库，以确保服务能够正常运行。其他选项如MySQL的客户端服务、公共服务、服务端服务等并不是必须的，除非特殊需求。因此，正确选项为A：MySQL所需要的依赖库。'

内连接使用到的关键字是（）。

答案:left outer joinAI参考:正确答案是【D:inner join】。内连接（inner join）是 SQL 中常用的连接操作之一，它用于从一个或多个表中检索出满足指定条件的记录。内连接返回两个表中匹配的记录，即只返回两个表中都有且匹配的记录。在内连接中，通常使用关键字 `INNER JOIN` 来表示连接操作。因此，选项 D 是正确的答案。其他选项中，`FULL JOIN` 和 `LEFT JOIN` 分别用于全连接和左连接，与内连接有所区别。'

下列关于zookeeper的描述，正确的是（）。

答案:Zookeeper被设计是用来实现协调服务的;Zookeeper的数据访问具有原子性;Zookeeper维护着一个树形的层次结构

以下描述正确的是（）

答案:直接插入排序的平均时间复杂度是平方阶，空间复杂度是常量阶;使用快速排序时，次序越乱的数据集，排序速度越快;冒泡排序的时间复杂度是平方阶，空间复杂度是常量阶;特定情况下，计数排序速度比快速排序更快AI参考:正确选项为：D:整个MapReduce的执行过程可以分为五个阶段。整个MapReduce的执行过程可以分为五个阶段，分别是：1. Map阶段：将输入数据映射成中间键值对，并输出到输出目录。2. Shuffle阶段：在内存缓冲区中进行数据的分区、排序、分组的处理。3. Sort阶段：对Shuffle阶段输出的键值对进行排序，以便后续的Reduce阶段处理。4. Reduce阶段：对排序后的键值对进行处理，生成最终结果。5. 输出阶段：将最终结果输出到输出目录。因此，选项D描述正确。选项A和B也描述了MapReduce执行过程中的一些细节，但并不是整个执行过程的概述；选项C虽然提到了shuffle阶段的复杂性，但并没有概括整个MapReduce执行过程。'

在HQL实现过程中，一个语句里要执行（）两部分操作。

AI参考:在HQL实现过程中，一个语句里要执行查询业务数据表中的数据、将查询结果直接保存到对应的统计结果表中的操作。所以正确选项是D:查询业务数据表中的数据，B:将查询结果直接保存到对应的统计结果表中。A、C项并非在HQL实现过程中必然涉及的操作。需要注意的是，选项D中“将查询结果直接保存到对应的统计结果表中”也并不是每次都需要进行的操作，需要根据具体业务需求和场景来决定是否需要进行这一步操作。'

外连接中，显示左表或者右表所有数据的是（）。

AI参考:正确答案是【B:左外连接】。左外连接是显示左表或者右表的所有数据，即满足左表和右表之间的所有匹配行，以及左表或者右表的剩余行。其他选项不符合题意。'

整个MapReduce的执行过程可以分为split、map、（）五个阶段。

答案:ReduceAI参考:整个MapReduce的执行过程可以分为split、map、shuffle、reduce四个阶段，因此，正确选项为：B、输入、C、shuffle、D、reduce。其中，split阶段主要是将输入数据划分为多个块，以便于后续的map和reduce阶段处理；map阶段是将每个split中的数据映射为键值对；shuffle阶段是将map阶段产生的中间结果进行合并和排序；reduce阶段则是将合并后的中间结果进行聚合和输出。因此，输入、shuffle和reduce是MapReduce执行过程中的三个关键阶段，而B选项是正确的答案。'

下列参数中，哪些是Sqoop导入全部数据命令时用到的参数（）？

AI参考:正确选项是：B:--table，D:--username。Sqoop导入全部数据命令时用到的参数是:--table，用于指定要导入的表名。另外，:--username是用于指定连接Hadoop集群的用户名，也是需要的参数之一。而:--connect和:--password是用于连接数据库的参数，不是Sqoop导入全部数据命令时用到的参数。因此，答案是B和D。'

配置hadoop的核心文件有（）。

AI参考:正确选项是：A:core-site.xml , D:hdfs-site.xml。配置Hadoop的核心文件主要有core-site.xml和hdfs-site.xml，这两个文件分别用于配置Hadoop集群的Common配置和HDFS配置。mapred-site.xml用于配置MapReduce作业的配置，而hadoop-env.sh是Hadoop环境变量的配置文件，不是核心配置文件。因此，正确答案是A和D。'

yarn集群核心配置的文件是（）。

AI参考:正确答案是B、yarn-site.xml。Yarn集群的核心配置文件是yarn-site.xml，用于配置Yarn集群的基本参数，如队列的数量、内存分配等。其他选项如hdfs-site.xml用于配置HDFS，core-site.xml用于配置Hadoop的通用配置，mapred-site.xml用于配置MapReduce。因此，B选项是正确答案。'

在本教材的实战操作中，打开hosts文件，设置三台虚拟机的IP地址及映射名称，需要输入（）内容。

AI参考:正确选项为：D:192.168.100.5 node4在实战操作中，打开hosts文件并设置三台虚拟机的IP地址及映射名称，需要输入的内容是虚拟机的IP地址和映射名称，并且每个IP地址和映射名称之间需要用空格隔开。选项D中的IP地址为192.168.100.5，映射名称node4，符合要求，因此是正确选项。选项A、B、C中的IP地址和映射名称之间没有用空格隔开，不符合要求。'

点赞(1) dxwkbang