提示:内容已经过期谨慎付费,点击上方查看最新答案
Hadoop大数据技术与项目实战
- ADS数据应用层,在ADS层中,进行最终指标统计,从而服务于报表系统的数据展示。( )
- 使用列式存储数据采用LZO的压缩格式,目的是提高当前表数据在查询过程中的效率。( )
- Flume在数据传输过程中,事件中的Value即 body,body是一个字节数组,封装的是传输的数据。( )
删除Kafka主题时,在配置文件中设置delete.topic.enable=true,才是完全删除,否则为标记删除。
- Flume的数据流可以根据headers的信息发送到不同的channel中。( )
- 外连接中,显示左表所有数据的是右外连接。( )
- Hadoop是Apache基金会开发的一款分布式系统基础架构,主要解决海量数据存储和海量数据计算两大问题,从广义上来说,Hadoop通常指的是Hadoop生态圈。( )
- MapReduce词频统计案例中,Driver阶段的Configuration会操作job对象实现案例需求( )。
- Hive本身没有存储功能,其数据要基于HDFS来存储。( )
- 在项目中,关于数据迁移的实现是由sqoop完成,主要将HDFS上的数据抽取到MySQL。( )
- 在HQL关联测试中,测试表是员工表和地址表。 ( )
- Event的最大定义为1024字节,超过会被切割放到下一个Event中。( )
- 在使用PyEcharts绘制轮播多图时,需要事先导入Timeline类。( )
- insert overwrite命令将数据写入表中( )
- 可以使用zkServer.sh stop命令开启Zookeeper。( )
- 在使用pyecharts绘制饼图时,需要事先导入PictorialBar类。( )
- 在Flume数据传输过程中,选择Kafka sink,能把数据写入Kafka对应的Topic中( )
- 在编写Flume拦截器代码时,configure方法的功能是可以获取到Flume进程在运行过程中的运行参数,然后对其进行引用。( )
- 在项目中,使用MySQL的应用场景有两个,一是用来存储Hive的元数据信息,二是存储数据仓库统计出来的指标结果( )
- 在设计Flume数据采集系统时,增加 source 个数,可以增大 source 读取能力。( )
- 使用pyecharts进行可视化时,可以用下哪个选项设置图例不显示?( )
- 在Linux命令行中,使用schematool命令( )
- Hive定义了类似于SQL语言的( )语言。
- Flume可以快速消费Kafka Topic数据,然后将消费后的数据转发到( )上。
- 下列哪条命令可以为f1.sh脚本文件赋予权限( )。
- 使用hdfs dfs -count / 查看根目录下面数据文件的个数,显示结果为“14 9 458745”,其中9代表的是( )
- 执行聚合统计的函数是( )
- Sqoop的工作本质是( )。
- 在纵向拼接中,可以实现去重的是( )。
- ( )命令可以查看当前HDFS上面文件内容的数据。
- 在Flume数据采集配置文件中,kafka.bootstrap.servers= node1:9092 ,该配置表示( )
- 在Hive中,给数据表添加数据,可以将数据文件当中的数据一次性加载到指定的表中的方法是( )。
- pyecharts中,用以下哪个配置项对图表标题进行设置?( )
- pyecharts 中的()可以实现将多个图表在一个页面中进行布局。( )
- 在Sqoop执行数据迁移过程中,当不需要做任何聚合操作时,只需要MR程序当中的( )阶段即可。
- 公共字段 cm中字段含义为设备唯一标识的字段是( )
- 在Flume数据传输过程中,Agent主要由( )组成。
- 根据在Flume数据采集脚步中的拦截器配置,程序首先对Builder内部类进行实例化,从而执行类中的两个方法,分别为( )。
- Flume在数据传输过程中,事件包含两部分( )。
- 下列属于事件日志数据合法校验步骤的是( )。
- DWT层,构建一张设备主题宽表的字段有哪些( )
- 安装MySQL服务时,需要安装以下( )。
- 内连接使用到的关键字是( )。
- 下列关于zookeeper的描述,正确的是( )。
- 以下描述正确的是( )
- 在HQL实现过程中,一个语句里要执行( )两部分操作。
- 外连接中,显示左表或者右表所有数据的是( )。
- 整个MapReduce的执行过程可以分为split、map、( )五个阶段。
- 下列参数中,哪些是Sqoop导入全部数据命令时用到的参数( )?
- 配置hadoop的核心文件有( )。
- yarn集群核心配置的文件是( )。
- 在本教材的实战操作中,打开hosts文件,设置三台虚拟机的IP地址及映射名称,需要输入( )内容。
A:对 B:错
AI参考:答案是B:错。在数据应用层,最终指标统计的流程包括对数据的获取、清洗、处理和分析,以及根据业务需求生成相应的报表和报告。因此,问题中的陈述中存在误解,正确的应该是:“在ADS数据应用层中,不包括在ADS层中进行最终指标统计。” 总之,根据上下文分析,答案是B:“错”。'
A:对 B:错
AI参考:答案是A:对。列式存储数据采用LZO压缩格式的目的就是为了提高当前表数据在查询过程中的效率。LZO是一种高效、压缩比高的压缩算法,适用于大数据量的数据存储和传输场景。使用LZO压缩格式可以减少存储空间,同时加快数据查询速度,从而提高整个系统的性能和效率。'
A:对 B:错
答案:Flume分流标记拦截器;ETL 拦截器AI参考:答案是B:错。Flume在数据传输过程中,事件中的Value即body,body封装的是传输的数据,但Value实际上是一个字符串,而不是字节数组。因此,这个说法是错误的。'
A:错 B:对
AI参考:正确答案是B:对。在Kafka中,删除主题有两种方式:完全删除和标记删除。完全删除是指在配置文件中设置delete.topic.enable=true,将主题彻底删除,而标记删除则只是将主题标记为已删除状态,主题中的消息仍然保留。因此,这个问题的答案是B:对。'
A:对 B:错
答案:正确
A:错 B:对
答案:全外连接AI参考:答案是B:对。右外连接会显示左表的所有数据,以及右表中满足连接条件的所有数据。因此,外连接中显示左表所有数据的是右外连接。'
A:错 B:对
答案:Hadoop
A:错 B:对
答案:对AI参考:正确答案是B:对。在MapReduce词频统计案例中,Driver阶段的Configuration会操作job对象实现案例需求。在MapReduce中,Driver是主程序,用于配置和启动Job。在Driver阶段,可以使用Configuration对象来设置和修改作业的各种参数,包括job对象。因此,答案为B:对。'
A:对 B:错
AI参考:答案是B:错。Hive本身提供了数据存储的功能,它可以将数据存储在自家的Hiveserver2服务器中,不需要依赖于HDFS。因此,选项A是错误的。Hive可以将数据存储在HDFS中,但是也可以直接存储在本地磁盘或其他存储设备上,而不是完全依赖于HDFS。所以,答案为B。'
A:对 B:错
AI参考:答案是A:对。根据题目描述,Sqoop是一个用于在Hadoop和结构化数据存储(如关系型数据库)之间进行数据传输的工具,它能够将HDFS上的数据抽取到MySQL等关系型数据库中。因此,数据迁移的实现是由Sqoop完成的,答案为A。'
A:对 B:错
AI参考:答案是B:错。在HQL关联测试中,应该使用实际的测试数据和正确的测试表。而题目中给出的选项中并没有提及具体的测试表名称,因此不能确定测试表是员工表和地址表。需要提供更具体的测试表名称和相关联的内容才能进行关联测试。'
A:错 B:对
AI参考:答案是B:对。根据题目描述,Event的最大定义为1024字节,超过会被切割放到下一个Event中,所以这个说法是正确的。'
A:对 B:错
AI参考:使用PyEcharts绘制轮播多图时,需要事先导入echarts.charts.Swiper类,而不是Timeline类。因此,答案是B:错。'
A:对 B:错
AI参考:答案是A:对。Insert Overwrite命令用于将数据写入表中,覆盖表中已有的数据。这个命令会将新的数据插入到指定的表中,如果表中已经存在相同的数据,则会将其覆盖。因此,答案是肯定的,所以选择A选项“对”。'
A:对 B:错
AI参考:正确答案是B:错。使用zkServer.sh stop命令可以关闭Zookeeper,但是无法使用该命令开启Zookeeper。要启动Zookeeper,需要使用zkServer.sh start命令。因此,该判断题是错误的。'
A:对 B:错
A:错 B:对
AI参考:答案是B:对。在Flume数据传输过程中,选择Kafka sink可以将数据写入Kafka对应的Topic中。Kafka sink是一个Flume的sink模块,用于将数据传输到Kafka中。它支持将数据批量写入Kafka,并且支持配置多个Kafka主题。因此,这个判断题的答案是B,即正确。'
A:错 B:对
AI参考:正确答案是【对】。configure方法的功能是可以获取到Flume进程在运行过程中的运行参数,然后对其进行引用。在编写Flume拦截器代码时,可以通过调用configure方法来获取Flume进程的参数,并进行相应的操作。因此,这个说法是正确的。'
A:对 B:错
AI参考:答案:A。在项目中,使用MySQL的应用场景有两个,一是用来存储Hive的元数据信息,二是存储数据仓库统计出来的指标结果。所以答案为A,即“对”。MySQL是一种关系型数据库管理系统,可以用于存储和管理大量数据,而Hive是一种大数据处理工具,主要用于数据仓库和数据挖掘等领域。因此,将Hive的元数据信息存储在MySQL中是一种常见的应用场景。同时,MySQL也可以用于存储数据仓库统计出来的指标结果,因为MySQL具有较高的性能和可扩展性,可以满足数据仓库的需求。'
A:错 B:对
A:label_opts=opts.LabelOpts(is_show=False) B:axisline_opts=opts.AxisLineOpts(is_show=False) C:xaxis_opts=opts.AxisOpts(is_show=False) D:legend_opts=opts.LegendOpts(is_show=False)
AI参考:正确选项是:D:legend_opts=opts.LegendOpts(is_show=False)在pyecharts中,可以使用legend_opts参数来设置图例的显示状态。is_show参数用于控制图例是否显示,其中False表示不显示。因此,D选项中的is_show=False可以用来设置图例不显示。其他选项中,axisline_opts和xaxis_opts是用于设置坐标轴线的显示状态,label_opts是用于设置标签的显示状态,与图例显示无关。'
A:格式化hive元数据库 B:刷新配置 C:删除hive元数据库 D:更新hive元数据库
A:DQL B:EQL C:HQL D:VQL
AI参考:正确选项是【C:HQL】。Hive定义了类似于SQL语言的HQL语言,用于对数据进行查询和操作。HQL语言是基于Hadoop的数据仓库工具,提供了类似于关系型数据库的SQL语法,用于在Hadoop分布式文件系统(HDFS)中查询和分析大规模数据。Hive的查询语言HQL与传统的SQL语言有一定的差异,但它们在功能和语法上有很多相似之处。因此,C选项HQL是正确答案。'
A:HDFS B:Source C:Sink D:Channel
AI参考:正确选项是 C:Sink。Flume是一个分布式的、可靠的数据收集系统,可以快速消费Kafka Topic数据,然后将消费后的数据转发到Sink(sink是Flume中的一个组件,用于将数据写入到目标存储系统)上。因此,选项C是正确答案。其他选项如HDFS、Source和Channel都不是Flume中用于转发数据的组件。'
A:./f1.sh start B:vim f1.sh C:./f1.sh stop D:chmod u+x f1.sh
AI参考:正确答案是D: chmod u+x f1.sh。在Linux系统中,chmod命令用于改变文件或目录的权限。选项D中的"chmod u+x f1.sh"命令用于为f1.sh脚本文件赋予执行权限,使得用户可以直接运行该脚本文件。选项A、B、C中的命令与权限设置无关,不是正确的选项。因此,选项D是正确答案。'
A:文件的嵌套层数 B:子目录的个数 C:所有文件的字节数 D:文件个数
AI参考:正确选项是 D:文件个数。命令`hdfs dfs -count /`是用来查看指定目录下的文件和目录信息。显示结果中的“14 9 458745”表示文件和目录的总数、子目录的个数以及总字节数。其中,9表示的是文件个数。选项A和B描述的是目录的嵌套层级,与命令结果无关;选项C描述的是所有文件的字节数,但在命令结果中并未直接显示。因此,正确答案是D。'
A:MIN B:COUNT C:SUM D:MAX
AI参考:执行聚合统计的函数是COUNT,所以选项B是正确答案。COUNT函数用于统计指定范围内数据的数量。SUM函数用于求和,MAX函数用于求最大值,而MIN函数用于求最小值。这些函数都可以进行聚合统计,但只有COUNT函数是专门用于统计数据的。'
A:迁移数据 B:存储数据 C:接收数据 D:处理数据
AI参考:正确选项是【A:迁移数据】。Sqoop是一个用于在Hadoop和传统数据存储系统(如关系型数据库)之间迁移数据的工具,它的工作本质是迁移数据。'
A:Union all B:Distinct C:Full join D:union
AI参考:正确答案是B:Distinct。Distinct是SQL中的一个关键字,在纵向拼接中可以实现去重。选项A和C都是连接操作,选项D是横向拼接的语法,不适用于纵向拼接去重。因此,答案为B。'
A:cat B:cd C:ls D:open
AI参考:正确选项是【C:ls】。命令ls可以查看当前HDFS上面文件内容的数据。A选项cat是用于连接文件的命令,B选项cd是用于切换目录的命令,D选项open是用于打开文件的命令,这三个选项都不能用于查看HDFS文件内容。因此,答案为C选项ls。'
A:配置Kafka的路径 B:配置Kafka的通信地址 C:配置kafka的Topic的数量 D:配置Kafka的消费组
AI参考:在Flume数据采集配置文件中,kafka.bootstrap.servers= node1:9092 的配置表示Kafka的通信地址。该配置指定了Flume将从Kafka集群中的node1节点通过9092端口进行通信的数据源。其他选项如路径、Topic的数量或消费组在该配置中不适用。因此,答案为B:配置Kafka的通信地址。'
A:insert into B:append C:add D:load
A:LegendOpts B:AxisOpts C:TitleOpts D:InitOpts
AI参考:正确选项是:C:TitleOpts。在pyecharts中,可以使用TitleOpts配置项对图表标题进行设置。LegendOpts、AxisOpts和InitOpts都不是用于设置图表标题的配置项。因此,答案为C。'
A:Polar B:Page C:Pie D:PictorialBar
AI参考:正确答案是B:Page。在pyecharts中,Page类可以实现将多个图表在一个页面中进行布局。所以选项B是正确答案。A选项Polar是极坐标图,C选项Pie是饼图,D选项PictorialBar是类似于条形图的图表,它们都不能实现将多个图表在一个页面中进行布局。'
A:Shuffle B:Reduce C:Map D:Split
AI参考:正确选项是【B:Reduce】。在Sqoop执行数据迁移过程中,当不需要做任何聚合操作时,只需要MR程序当中的Reduce阶段即可。Sqoop是一个用于在Hadoop和结构化数据存储(如关系型数据库)之间进行数据传输的工具,它使用MapReduce框架来实现数据迁移。在Map阶段,Sqoop将数据从源端读取并分发给每个Mapper进行处理;在Shuffle阶段,Mapper将处理后的数据交由Reducer进行汇总;在Reduce阶段,Reducer对数据进行聚合操作并将结果输出到目标端。如果不需要进行任何聚合操作,那么只需要在MR程序中设置合适的参数并执行Reduce阶段即可。因此,选项B是正确答案。其他选项如A、C、D在Sqoop数据迁移过程中可能有一定的作用,但不是唯一必要的过程。'
A:vc B:mid C:uid D:vn
AI参考:正确选项是C:uid,因为uid在公共字段cm中字段含义为设备唯一标识。'
A:Sink B:Channel C:App D:Source
AI参考:在Flume数据传输过程中,Agent主要由(BD)组成。Flume是一个分布式的海量日志收集系统,它主要由Source、Channel、Sink三个核心组件组成。Source组件负责从源头采集数据,Channel组件负责存储采集到的数据,Sink组件负责将数据传输到目标位置。因此,选项BD是正确的答案。选项A和C不是Flume的核心组件。'
A:Close B:initialize C:Build D:Configure
AI参考:根据题干描述,Flume数据采集脚步中的拦截器配置需要进行实例化并执行类中的两个方法,因此选项C和D应该是正确的。选项C中的Build方法可能用于构建拦截器对象,而选项D中的Configure方法可能用于配置拦截器对象。因此,选项C和D都是正确的。因此,正确选项为C:Build和D:Configure。'
A:Value B:action C:Method D:Key
AI参考:正确选项为:A:Value D:Key。Flume在数据传输过程中,事件包含两部分:Value和Key。其中,Value是数据的主要部分,包含实际的数据内容;Key则是对数据进行标识的部分,通常用于对数据进行分类、过滤等操作。因此,选项A和D是正确的。而选项B和C并不是Flume事件所包含的组成部分。'
A:对数据进行校验 B:校验是否为json格式 C:校验服务器时间 D:对日志进行切割
AI参考:选项B、C属于事件日志数据合法校验步骤。首先,需要对数据进行校验,这是所有数据校验的基础步骤。其次,需要校验是否为json格式。如果数据不是json格式,那么它可能不符合预期的数据格式,需要进行修正。最后,虽然不是所有的事件日志都需要对服务器时间进行校验,但是如果事件日志涉及到时间相关的信息,那么校验服务器时间也是必要的。至于选项D,对日志进行切割与事件日志数据的合法校验没有直接关系,因此不属于事件日志数据合法校验的步骤。综上所述,属于事件日志数据合法校验步骤的是:A、B、C。'
A:手机型号 B:手机品牌 C:累积活跃天数 D:设备唯一标识
AI参考:正确选项为:ABD。构建一张设备主题宽表的字段应该包括设备唯一标识、手机型号和手机品牌。其中,设备唯一标识是用于唯一标识某一台设备的字段,手机型号和手机品牌则是描述设备属性的字段,可以帮助分析人员更好地理解设备的特点和分类。而累积活跃天数不是构建设备主题宽表的必要字段,因为它更多地用于分析用户活跃度的指标。因此,选项C不是构建设备主题宽表的字段。'
A:MySQL所需要的依赖库 B:MySQL的客户端服务 C:MySQL的公共服务 D:MySQL的服务端服务
A:join B:Full join C:Left join D:inner join
A:一次数据更新要么成功(半数以上节点成功),要么失败,不存在中间状态,即数据更新原子性 B:具有顺序性,即更新请求是按照顺序进行的 C:集群中只要有半数以上节点存活,Zookeeper集群就能正常服务 D:Zookeeper是一个领导者(Leader),多个跟随者(Follower)组成的集群
A:Map阶段产生的数据会通过shuffle阶段,在内存缓冲区中进行数据的分区、排序、分组的处理 B:Reduce阶段是将一个大的计算任务分解成多个小任务 C:shuffle阶段是整个MapReduce执行过程中最复杂的一步 D:整个MapReduce的执行过程可以分为五个阶段
A:分析数据 B:将查询结果直接保存到对应的统计结果表中 C:数据可视化的展示 D:查询业务数据表中的数据
AI参考:在HQL实现过程中,一个语句里要执行查询业务数据表中的数据、将查询结果直接保存到对应的统计结果表中的操作。所以正确选项是D:查询业务数据表中的数据,B:将查询结果直接保存到对应的统计结果表中。A、C项并非在HQL实现过程中必然涉及的操作。需要注意的是,选项D中“将查询结果直接保存到对应的统计结果表中”也并不是每次都需要进行的操作,需要根据具体业务需求和场景来决定是否需要进行这一步操作。'
A:全外连接 B:左外连接 C:内连接 D:右外连接
AI参考:正确答案是【B:左外连接】。左外连接是显示左表或者右表的所有数据,即满足左表和右表之间的所有匹配行,以及左表或者右表的剩余行。其他选项不符合题意。'
A:输出 B:输入 C:shuffle D:reduce
A:--connect B:--table C:--password D:--username
AI参考:正确选项是:B:--table,D:--username。Sqoop导入全部数据命令时用到的参数是:--table,用于指定要导入的表名。另外,:--username是用于指定连接Hadoop集群的用户名,也是需要的参数之一。而:--connect和:--password是用于连接数据库的参数,不是Sqoop导入全部数据命令时用到的参数。因此,答案是B和D。'
A:core-site.xml , B:mapred-site.xml C:hadoop-env.sh D:hdfs-site.xml
AI参考:正确选项是:A:core-site.xml , D:hdfs-site.xml。配置Hadoop的核心文件主要有core-site.xml和hdfs-site.xml,这两个文件分别用于配置Hadoop集群的Common配置和HDFS配置。mapred-site.xml用于配置MapReduce作业的配置,而hadoop-env.sh是Hadoop环境变量的配置文件,不是核心配置文件。因此,正确答案是A和D。'
A:hdfs-site.xml B:yarn-site.xml C:core-site.xml D:mapred-site.xml
AI参考:正确答案是B、yarn-site.xml。Yarn集群的核心配置文件是yarn-site.xml,用于配置Yarn集群的基本参数,如队列的数量、内存分配等。其他选项如hdfs-site.xml用于配置HDFS,core-site.xml用于配置Hadoop的通用配置,mapred-site.xml用于配置MapReduce。因此,B选项是正确答案。'
A:192.168.100.5 node3 B:192.168.100.3 node1 C:192.168.100.4 node2 D:192.168.100.5 node4
AI参考:正确选项为:D:192.168.100.5 node4在实战操作中,打开hosts文件并设置三台虚拟机的IP地址及映射名称,需要输入的内容是虚拟机的IP地址和映射名称,并且每个IP地址和映射名称之间需要用空格隔开。选项D中的IP地址为192.168.100.5,映射名称node4,符合要求,因此是正确选项。选项A、B、C中的IP地址和映射名称之间没有用空格隔开,不符合要求。'