⬆️⬆️⬆️本课程2024最新同名章节期末答案⬆️⬆️

Spark大数据技术与应用期末答案和章节题库2024春

所有课程章节/期末均有答案,可提供word版,点击联系客服✅

120 阅读 0 评论 7 点赞

RDD的操作从宏观角度可以分为转换算子和行动算子（）

答案:对

DStream全称Discretized Stream（离散化的数据流），是Spark Stream的基础抽象，表示数据源不间断的数据流和经过各种操作后的结果数据流。（）

答案:错

在本课程中，为了避免与Hadoop集群的启动停止脚本的冲突，将Spark的启动脚本更名为start-spark-all.sh（）

答案:对

调用StreamingContext的start()方法启动定义完成的实时计算逻辑从来进行实时数据处理。（）

答案:对

在Spark程序中，setAppName函数的作用是设置当前程序名称。（）

答案:对

DStream底层是基于RDD实现。（）

答案:对

DataFrame数据输出中mode方法的参数为error代表如果指定的位置已有数据则抛出相应的异常。（）

答案:对

创建RDD的方式有两种，分为在内存和外部存储创建。（）

答案:对

使用import org.apache.spark.SparkSession命令导入SparkSession包。（）

答案:错

union操作，将源DStream和otherStream的元素联合返回一个新的DStream。（）

答案:对

SparkSQL提供了两个编程模型抽象DataFrame和Dataset 。（）

答案:对

Spark本地单机环境一般用于Spark安装测试和学习Spark的基础知识（）

内容已经隐藏，点击付费后查看

Spark的conf目录是spark的配置文件目录。该目录中包含了集群日志模板，节点配置模板，集群环境变量配置模板等（）

内容已经隐藏，点击付费后查看

reduceByWindow该函数含义与表5-1中countByValue函数一致，只不过对应的数据源不同。countByValueAndWindow的数据源是基于该DStream的窗口长度中的所有数据。（）

内容已经隐藏，点击付费后查看

reduceByKeyAndWindow该函数含义与表5-1中reduceByKey函数一致，只不过对应的数据源不同。reduceByKeyAndWindow的数据源是基于该DStream的窗口长度中的所有数据。（）

内容已经隐藏，点击付费后查看

编写Spark Streaming程序的基本步骤包括（）。

内容已经隐藏，点击付费后查看

下列哪些属于转换操作函数（）

内容已经隐藏，点击付费后查看

Spark SQL的SparkSession对象可以通过哪些方法从存放到HDFS上的结构化数据文件创建DataFrame。（）

内容已经隐藏，点击付费后查看

RDD数据集的五个特性（）

内容已经隐藏，点击付费后查看

Spark框架中的组件有哪些（）

内容已经隐藏，点击付费后查看

下列哪些属于输出函数（）

内容已经隐藏，点击付费后查看

使用SparkContext对象创建StreamingContext需要传递两个参数（）

内容已经隐藏，点击付费后查看

collectAsList方法与collect方法说法正确的是（）

内容已经隐藏，点击付费后查看

通过printSchema()方法查看，该方法会输出DataFrame的（）

内容已经隐藏，点击付费后查看

SparkSession本质上已经封装了（）

内容已经隐藏，点击付费后查看

join算子的作用是（）

内容已经隐藏，点击付费后查看

被称为排序算子算子的是（）

内容已经隐藏，点击付费后查看

mapValues算子的作用是（）

内容已经隐藏，点击付费后查看

Spark SQL组件的主要功能是（）

内容已经隐藏，点击付费后查看

关于Spark Shell说法错误的是（）

内容已经隐藏，点击付费后查看

parallelize函数的第一个参数表示什么？（）

内容已经隐藏，点击付费后查看

Spark Master内部通信服务端口号是（）

内容已经隐藏，点击付费后查看

DataFrame数据输出中mode方法的参数说法错误的是（）

内容已经隐藏，点击付费后查看

使用sequenceFile()函数读取SquenceFile文件时需要设置几个参数。（）

内容已经隐藏，点击付费后查看

用户在开发Spark Streaming程序之前必须创建一个（）对象。

内容已经隐藏，点击付费后查看

reduceByKey算子的作用是（）

内容已经隐藏，点击付费后查看

DataFrame的saveAsTable方法是将数据保存到了什么位置（）

内容已经隐藏，点击付费后查看

103在Spark Streaming中批处理时间间隔是指（）

内容已经隐藏，点击付费后查看

关于DataSet，下列说法不正确的是（）

内容已经隐藏，点击付费后查看

Spark中Master进程的职责是什么（）

内容已经隐藏，点击付费后查看

sortByKey是对键值对类型的数据进行操作的。（）

内容已经隐藏，点击付费后查看

reduceByWindow(func,windowLength,slideInterval)窗口函数是将按照窗口间隔时间，将窗口持续时间内的DStream中的数据利用func函数进行聚合操作，得到一个新的DStream。（）

内容已经隐藏，点击付费后查看

在Spark Shell中输入create table student（name String,id Int）可以创建student表。（）

内容已经隐藏，点击付费后查看

DataFrame的show(numRows: Int, truncate: Int) : Unit方法的第二个参数的含义是设置是否最多只显示truncate个字符（）

内容已经隐藏，点击付费后查看

foreach行动算子的作用是迭代RDD数据集中每一个元素。（）

内容已经隐藏，点击付费后查看

sortByKey是对单值类型的数据进行操作的。（）

内容已经隐藏，点击付费后查看

转换操作（Transformation），对DStream的转换操作会返回一个新的DStream。（）

内容已经隐藏，点击付费后查看

Storm和Flink是完全的纯实时流式计算框架。而Spark Streaming是准实时流式计算框架。（）

内容已经隐藏，点击付费后查看

用于处理实时数据的流式计算框架除了Spark Streaming,还包括Storm、Flink等技术框架。（）

内容已经隐藏，点击付费后查看

Spark Streaming会监视指定的HDFS目录，并且处理出现在目录中的文件（）

内容已经隐藏，点击付费后查看

隐式转换的作用是在Scala编译器进行类型匹配时，如果找不到合适的类型，那么隐式转换会让编译器在作用范围内自动推导出合适的类型。（）

内容已经隐藏，点击付费后查看

makeRDD函数执行时在底层调用了parallelize函数。（）。

内容已经隐藏，点击付费后查看

saveAsSquenceFile算子的作用将RDD数据集存储为以SequenceFile的文件格式。（）

内容已经隐藏，点击付费后查看

groupByKey算子可以将数据源中的数据，相同value的数据分在一个组中。（）

内容已经隐藏，点击付费后查看

print()方法，它是打印DStream中每一批次数据的最开始10 个元素数据。（）

内容已经隐藏，点击付费后查看

flatMap算子实现了那种功能（）

内容已经隐藏，点击付费后查看

下面属于Spark的特点是（）

内容已经隐藏，点击付费后查看

在内存中创建RDD可以使用下列哪些函数（）

内容已经隐藏，点击付费后查看

输出DataFrame的前20条数据，并且最多显示20个字符错误的是（）

内容已经隐藏，点击付费后查看

union操作，将源DStream和（）的元素联合返回一个新的DStream。

内容已经隐藏，点击付费后查看

saveAsHadoopFiles方法，它是以Hadoop文件形式存储每一批次的DStream数据。每一批次的存储文件名基于参数中的（）。

内容已经隐藏，点击付费后查看

下列哪个数据结构拥有Schema信息（）

内容已经隐藏，点击付费后查看

sortByKey算子的作用是（）

内容已经隐藏，点击付费后查看

SparkSession对象可以通过哪个方法将数据库管理系统的数据表中数据转换为DataFrame。（）

内容已经隐藏，点击付费后查看

使用sequenceFile()函数读取SquenceFile文件时，第二个参数表示（）

内容已经隐藏，点击付费后查看

通过DataFrame的哪个方法可以查看DataFrame的数据模式（）

内容已经隐藏，点击付费后查看

take 行动算子的作用是（）

内容已经隐藏，点击付费后查看

groupByKey算子的作用是（）

内容已经隐藏，点击付费后查看

104DataFrame和 RDD 最大的区别（）

内容已经隐藏，点击付费后查看

在Spark Shell启动过程中，系统自动初始化了一个（）对象。

内容已经隐藏，点击付费后查看

RDD支持两种操作:转换操作和行动操作（）

内容已经隐藏，点击付费后查看

可以借助StreamingContext对象中的queueStream方法从RDD队列中创建DStream。（）

内容已经隐藏，点击付费后查看

DataFrame的groupBy(col1: String, cols: String*)方法返回一个RelationalGroupedDataset对象。（）

内容已经隐藏，点击付费后查看

saveAsTextFile属于转换算子，可以将RDD数据保存为文本文件。（）

内容已经隐藏，点击付费后查看

借助StreamingContext对象中的textFileStream方法从HDFS文件系统的某个目录下的所有文件数据中创建DStream。（）

内容已经隐藏，点击付费后查看

在filter算子中，返回值为true的数据被过滤。（）

内容已经隐藏，点击付费后查看

DataFrame的limit方法执行完成返回的是一个新的DataFrame对象.（）

内容已经隐藏，点击付费后查看

saveAsHadoopFiles方法，它是以Hadoop文件形式存储每一批次的DStream数据。（）

内容已经隐藏，点击付费后查看

使用sequenceFile()函数读取SquenceFile文件时，SquenceFile函数中参数类型使用的是Hadoop的Writable类型。（）

内容已经隐藏，点击付费后查看

Spark Core是基于内存对数据进行计算。（）

内容已经隐藏，点击付费后查看

DataFrame的orderBy方法默认为降序排列。（）

内容已经隐藏，点击付费后查看

调用StreamingContext的awaitTermination()方法，来等待计算逻辑的终止。（）

内容已经隐藏，点击付费后查看

union算子可以将两个RDD数据集合并在一起。（）

内容已经隐藏，点击付费后查看

foreachRDD函数是DStream提供的一个功能强大的方法，它可以将数据发送到外部系统。（）

内容已经隐藏，点击付费后查看

DataFrame只有触发行动操作Action时才会根据依赖链计算。（）

内容已经隐藏，点击付费后查看

Spark Streaming的DStream操作隐藏了大部分底层的操作细节，提供了更高级别的API以方便为开发人员使用。（）

内容已经隐藏，点击付费后查看

从内存创建RDD，也就是要把内存中的数据作为处理的数据源（）

内容已经隐藏，点击付费后查看

Spark是加州大学伯克利分校AMP实验室开发的通用内存并行计算框架。（）

内容已经隐藏，点击付费后查看

我们只能通过spark.sql()方法执行SQL语句。（）

内容已经隐藏，点击付费后查看

reduce操作，将源DStream中每个元素通过函数func聚集，返回一个包含聚合结果的DStream。（）

内容已经隐藏，点击付费后查看

使用SparkConf对象创建StreamingContext需要传递两个参数（）

内容已经隐藏，点击付费后查看

Spark SQL 特点正确的是（）

内容已经隐藏，点击付费后查看

Spark Streaming支持多种数据源，可以从（）数据源创建DStream

内容已经隐藏，点击付费后查看

下面哪个算子可以对key-value类型的数据进行操作。（）

内容已经隐藏，点击付费后查看

创建StreamingContext有两种方式，是通过（）对象完成创建。

内容已经隐藏，点击付费后查看

对DStream的计算操作分为（）。

内容已经隐藏，点击付费后查看

Spark Streaming流式计算框架的特点（）

内容已经隐藏，点击付费后查看

在RDD中，窄依赖的特点为（）

内容已经隐藏，点击付费后查看

以下哪些属于行动算子（）

内容已经隐藏，点击付费后查看

Spark-Shell命令行中导入代码依赖资源分别是：（）

内容已经隐藏，点击付费后查看

DataFrame输出数据的jdbc方法可以传入一个Properties对象，一般会将什么参数信息加入这个对象中（）

内容已经隐藏，点击付费后查看

在RDD读取JSON文件中，导入隐式转换参数formats是下列哪几个方法转化数据所依赖的参数、（）

内容已经隐藏，点击付费后查看

DataFram的join方法支持的连接类型有（）

内容已经隐藏，点击付费后查看

DStream有状态转换操作包括哪两种。（）

内容已经隐藏，点击付费后查看

流处理系统与传统的数据处理系统的不同之处在于（）。

内容已经隐藏，点击付费后查看

以下哪些属于转换算子（）

内容已经隐藏，点击付费后查看

DataFrame输出数据的jdbc方法需要传入哪些参数（）

内容已经隐藏，点击付费后查看

Spark有哪些优势（）

内容已经隐藏，点击付费后查看

下列哪些属于窗口函数（）

内容已经隐藏，点击付费后查看

StreamingContext的创建有两种方式（）

内容已经隐藏，点击付费后查看

行动算子的作用是（）

内容已经隐藏，点击付费后查看

在flatMap算子中传递一个匿名函数，通过匿名函数调用split方法，可以（）

内容已经隐藏，点击付费后查看

在代码中 val ssc:StreamingContext = new StreamingContext(sc,Seconds(1));参数Seconds(1)的含义是（）

内容已经隐藏，点击付费后查看

键值对RDD里面存储的数据类型是（）

内容已经隐藏，点击付费后查看

DataFrame的limit(n: Int)方法返回的数据类型是（）

内容已经隐藏，点击付费后查看

DataFram的join方法传入的参数哪个是错误的（）

内容已经隐藏，点击付费后查看

使用sequenceFile()函数读取SquenceFile文件时，第三个参数表示（）

内容已经隐藏，点击付费后查看

在Spark框架中有两种进程，其中是Worker进程类似于Hadoop框架中的哪个进程（）

内容已经隐藏，点击付费后查看

在Spark框架中有两种进程，其中是Master进程类似于Hadoop框架中的哪个进程（）

内容已经隐藏，点击付费后查看

然后创建sparkSession对象时，下列哪个方法是SparkSession的构造器。（）

内容已经隐藏，点击付费后查看

在本课程中，启动spark集群的命令是（）

内容已经隐藏，点击付费后查看

通过外部存储来创建RDD使用的函数是（）

内容已经隐藏，点击付费后查看

创建DStream，使用（）变量获取textFileStream方法，该方法将监视指定的HDFS目录并处理在该目录中创建的任何文件。

内容已经隐藏，点击付费后查看

DStream底层RDD的转换，最终还是由（）的引擎来实现。

内容已经隐藏，点击付费后查看

distinct算子的作用是（）

内容已经隐藏，点击付费后查看

39以下对map算子的功能说法正确的是（）

内容已经隐藏，点击付费后查看

union算子的作用是（）

内容已经隐藏，点击付费后查看

first行动算子的可以（）

内容已经隐藏，点击付费后查看

Spark读取SquenceFile文件格式的函数是（）

内容已经隐藏，点击付费后查看

DataFrame的apply(colName: String)返回值类型为（）

内容已经隐藏，点击付费后查看

下列是常用的输出操作方法有（）

内容已经隐藏，点击付费后查看

（）窗口操作函数是利用func对滑动窗口的元素进行聚合操作，得到一个新的DStream。

内容已经隐藏，点击付费后查看

DStream中提供了很多转换操作函数，通过（）函数会生成一个新的DStream。

内容已经隐藏，点击付费后查看

同时使用for循环向rddQueue队列中增加两个RDD数据，每个RDD数据的内容都是123，两次增加数据时间间隔可以设置为（）。

内容已经隐藏，点击付费后查看

window窗口操作函数是基于源DStream产生的窗口化的批数据，计算后会得到一个新的DStream。（）

内容已经隐藏，点击付费后查看

通过调用（）中定义的各种操作算子来定义我们需要的各种实时计算逻辑。

内容已经隐藏，点击付费后查看

通过HDFS文件系统创建（），所以先要在HDFS上新建存放数据文件的目录。

内容已经隐藏，点击付费后查看

（）基于滑动窗口的DStream中的元素数量

内容已经隐藏，点击付费后查看

使用transform操作后，除了可以使用DStream提供的一些转换方法之外，还能够通过transform中的（）参数直接调用任意RDD上的操作函数。

内容已经隐藏，点击付费后查看

DStream底层是基于（）实现

内容已经隐藏，点击付费后查看

DataFrame数据输出中mode方法的参数不正确的是（）

内容已经隐藏，点击付费后查看

DataFrame的show（）方法默认展示多少条数据（）

内容已经隐藏，点击付费后查看

Spark中DataFrame和RDD最大的区别是？（）

内容已经隐藏，点击付费后查看

DataFrame数据输出保存文件类型错误的是（）

内容已经隐藏，点击付费后查看

DataSet支持从哪些类型进行创建错误的是（）

内容已经隐藏，点击付费后查看

DataFrame的first()方法返回的数据类型是（）

内容已经隐藏，点击付费后查看

SparkSession内部封装了SparkContext，所以底层计算还是由SparkContext完成的。（）

内容已经隐藏，点击付费后查看

DataFrame的sort方法可以按照多个字段对数据进行排序。（）

内容已经隐藏，点击付费后查看

Spark SQL支持从哪些格式的外部结构化数据文件中读取数据创建DataFrame。（）

内容已经隐藏，点击付费后查看

对于stuDF数据下列哪些方法不能对按age进行降序排列（）

内容已经隐藏，点击付费后查看

RDD操作包括哪两种类型。（）

内容已经隐藏，点击付费后查看

有一个RDD，名称为pairRDD，包含4个元素，分别是("Hadoop",1)、("Spark"，1)、("Hive",1)和("Spark",1)，则pairRDD.values操作得到的RDD中所包含的元素是（）。

内容已经隐藏，点击付费后查看

有一个键值对RDD，名称为pairRDD，包含4个元素，分别是("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1)，则pairRDD.keys操作得到的 RDD中所包含的元素是（)。

内容已经隐藏，点击付费后查看

以下操作中，哪个不是Spark RDD编程中的操作。（）

内容已经隐藏，点击付费后查看

val words = Array ("one"， "two"， "two"， "three"， "three","three")val wordPairsRDD = sc.parallelize(words).map(word => (word,1) )wordCountsWithReduce = wordPairsRDD.reduceByKey(_+_)上述语句的执行结果wordCountsWithReduce 中包含的元素是（）。

内容已经隐藏，点击付费后查看

有一个键值对 RDD，名称为pairRDD，包含4个元素，分别是("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1)，则pairRDD. mapValues(x => x+1)操作得到的RDD中所包含的元素是（）。

内容已经隐藏，点击付费后查看

以下操作中，哪些是行动（(Action）操作。（）

内容已经隐藏，点击付费后查看

下面哪个操作是窄依赖（）

内容已经隐藏，点击付费后查看

下面哪个操作肯定是宽依赖（）

内容已经隐藏，点击付费后查看

valrdd=sc.parallelize(1 to 10).filter(_%2== 0)rdd.collect上述代码的执行结果为（）

内容已经隐藏，点击付费后查看

在部署Spark独立模式时，配置spark的web端口为（）

内容已经隐藏，点击付费后查看

以下对Spark中Work的主要工作描述错误的是（）

内容已经隐藏，点击付费后查看

Spark支持的分布式部署方式中哪个是错误的（）

内容已经隐藏，点击付费后查看

在部署Spark独立模式时，配置spark内部通信的端口为（）

内容已经隐藏，点击付费后查看

Spark的bin目录是spark运行脚本目录，该目录中包含了加载spark的配置信息，提交作业等执行命令的脚本（）

内容已经隐藏，点击付费后查看

配置Standalone模式下的Spark集群，Worker节点需要在conf文件夹下的哪个文件中指明（）

内容已经隐藏，点击付费后查看

Spark单机伪分布式模式，它的特点是在一台节点上既有Master服务，又有Worker服务（）

内容已经隐藏，点击付费后查看

Standalone模式下配置Spark集群时，master节点的工作端口号需要在conf文件夹下的哪个文件指明（）

内容已经隐藏，点击付费后查看

与MapReduce相比，Spark更适合处理以下哪种类型的任务（）

内容已经隐藏，点击付费后查看

以下关于SPARK中的spark context，描述错误的是：（）

内容已经隐藏，点击付费后查看

大数据的起源是以下哪个领域（）

内容已经隐藏，点击付费后查看

温馨提示支付 ￥5.00 元后可查看付费内容,请先翻页预览!

微信支付

点赞(7) dxwkbang

本文分类：知到智慧树期末考试答案章节题库2024春-非顺序
本文标签：Spark大数据技术与应用
浏览次数：120 次浏览
发布日期：2024-05-04 23:44:15

上一篇 > 成人护理学期末答案和章节题库2024春
下一篇 > 物联网综合实训期末答案和章节题库2024春