- RDD的操作从宏观角度可以分为转换算子和行动算子( )
- DStream全称Discretized Stream(离散化的数据流),是Spark Stream的基础抽象,表示数据源不间断的数据流和经过各种操作后的结果数据流。( )
- 在本课程中,为了避免与Hadoop集群的启动停止脚本的冲突,将Spark的启动脚本更名为start-spark-all.sh( )
- 调用StreamingContext的start()方法启动定义完成的实时计算逻辑从来进行实时数据处理。( )
- 在Spark程序中,setAppName函数的作用是设置当前程序名称。( )
- DStream底层是基于RDD实现。( )
- DataFrame数据输出中mode方法的参数为error代表如果指定的位置已有数据则抛出相应的异常。( )
- 创建RDD的方式有两种,分为在内存和外部存储创建。( )
- 使用import org.apache.spark.SparkSession命令导入SparkSession包。( )
- union操作,将源DStream和otherStream的元素联合返回一个新的DStream。( )
- SparkSQL提供了两个编程模型抽象DataFrame和Dataset 。( )
- Spark本地单机环境一般用于Spark安装测试和学习Spark的基础知识( )
- Spark的conf目录是spark的配置文件目录。该目录中包含了集群日志模板,节点配置模板,集群环境变量配置模板等( )
- reduceByWindow该函数含义与表5-1中countByValue函数一致,只不过对应的数据源不同。countByValueAndWindow的数据源是基于该DStream的窗口长度中的所有数据。( )
- reduceByKeyAndWindow该函数含义与表5-1中reduceByKey函数一致,只不过对应的数据源不同。reduceByKeyAndWindow的数据源是基于该DStream的窗口长度中的所有数据。( )
- 编写Spark Streaming程序的基本步骤包括( )。
- 下列哪些属于转换操作函数( )
- Spark SQL的SparkSession对象可以通过哪些方法从存放到HDFS上的结构化数据文件创建DataFrame。( )
- RDD数据集的五个特性( )
- Spark框架中的组件有哪些( )
- 下列哪些属于输出函数( )
- 使用SparkContext对象创建StreamingContext需要传递两个参数( )
- collectAsList方法与collect方法说法正确的是( )
- 通过printSchema()方法查看,该方法会输出DataFrame的( )
- SparkSession本质上已经封装了( )
- join算子的作用是( )
- 被称为排序算子算子的是( )
- mapValues算子的作用是( )
- Spark SQL组件的主要功能是( )
- 关于Spark Shell说法错误的是( )
- parallelize函数的第一个参数表示什么?( )
- Spark Master内部通信服务端口号是( )
- DataFrame数据输出中mode方法的参数说法错误的是( )
- 使用sequenceFile()函数读取SquenceFile文件时需要设置几个参数。( )
- 用户在开发Spark Streaming程序之前必须创建一个( )对象。
- reduceByKey算子的作用是( )
- DataFrame的saveAsTable方法是将数据保存到了什么位置( )
- 103在Spark Streaming中批处理时间间隔是指( )
- 关于DataSet,下列说法不正确的是( )
- Spark中Master进程的职责是什么( )
- sortByKey是对键值对类型的数据进行操作的。( )
- reduceByWindow(func,windowLength,slideInterval)窗口函数是将按照窗口间隔时间,将窗口持续时间内的DStream中的数据利用func函数进行聚合操作,得到一个新的DStream。( )
- 在Spark Shell中输入create table student(name String,id Int)可以创建student表。( )
- DataFrame的show(numRows: Int, truncate: Int) : Unit方法的第二个参数的含义是设置是否最多只显示truncate个字符( )
- foreach行动算子的作用是迭代RDD数据集中每一个元素。( )
- sortByKey是对单值类型的数据进行操作的。( )
- 转换操作(Transformation),对DStream的转换操作会返回一个新的DStream。( )
- Storm和Flink是完全的纯实时流式计算框架。而Spark Streaming是准实时流式计算框架。( )
- 用于处理实时数据的流式计算框架除了Spark Streaming,还包括Storm、Flink等技术框架。( )
- Spark Streaming会监视指定的HDFS目录,并且处理出现在目录中的文件( )
- 隐式转换的作用是在Scala编译器进行类型匹配时,如果找不到合适的类型,那么隐式转换会让编译器在作用范围内自动推导出合适的类型。( )
- makeRDD函数执行时在底层调用了parallelize函数。( )。
- saveAsSquenceFile算子的作用将RDD数据集存储为以SequenceFile的文件格式。( )
- groupByKey算子可以将数据源中的数据,相同value的数据分在一个组中。( )
- print()方法,它是打印DStream中每一批次数据的最开始10 个元素数据。( )
- flatMap算子实现了那种功能( )
- 下面属于Spark的特点是( )
- 在内存中创建RDD可以使用下列哪些函数( )
- 输出DataFrame的前20条数据,并且最多显示20个字符错误的是( )
- union操作,将源DStream和( )的元素联合返回一个新的DStream。
- saveAsHadoopFiles方法,它是以Hadoop文件形式存储每一批次的DStream数据。每一批次的存储文件名基于参数中的( )。
- 下列哪个数据结构拥有Schema信息( )
- sortByKey算子的作用是( )
- SparkSession对象可以通过哪个方法将数据库管理系统的数据表中数据转换为DataFrame。( )
- 使用sequenceFile()函数读取SquenceFile文件时,第二个参数表示( )
- 通过DataFrame的哪个方法可以查看DataFrame的数据模式( )
- take 行动算子的作用是( )
- groupByKey算子的作用是( )
- 104DataFrame和 RDD 最大的区别( )
- 在Spark Shell启动过程中,系统自动初始化了一个( )对象。
- RDD支持两种操作:转换操作和行动操作( )
- 可以借助StreamingContext对象中的queueStream方法从RDD队列中创建DStream。( )
- DataFrame的groupBy(col1: String, cols: String*)方法返回一个RelationalGroupedDataset对象。( )
- saveAsTextFile属于转换算子,可以将RDD数据保存为文本文件。( )
- 借助StreamingContext对象中的textFileStream方法从HDFS文件系统的某个目录下的所有文件数据中创建DStream。( )
- 在filter算子中,返回值为true的数据被过滤。( )
- DataFrame的limit方法执行完成返回的是一个新的DataFrame对象.( )
- saveAsHadoopFiles方法,它是以Hadoop文件形式存储每一批次的DStream数据。( )
- 使用sequenceFile()函数读取SquenceFile文件时,SquenceFile函数中参数类型使用的是Hadoop的Writable类型。( )
- Spark Core是基于内存对数据进行计算。( )
- DataFrame的orderBy方法默认为降序排列。( )
- 调用StreamingContext的awaitTermination()方法,来等待计算逻辑的终止。( )
- union算子可以将两个RDD数据集合并在一起。( )
- foreachRDD函数是DStream提供的一个功能强大的方法,它可以将数据发送到外部系统。( )
- DataFrame只有触发行动操作Action时才会根据依赖链计算。( )
- Spark Streaming的DStream操作隐藏了大部分底层的操作细节,提供了更高级别的API以方便为开发人员使用。( )
- 从内存创建RDD,也就是要把内存中的数据作为处理的数据源( )
- Spark是加州大学伯克利分校AMP实验室开发的通用内存并行计算框架。( )
- 我们只能通过spark.sql()方法执行SQL语句。( )
- reduce操作,将源DStream中每个元素通过函数func聚集, 返回一个包含聚合结果的DStream。( )
- 使用SparkConf对象创建StreamingContext需要传递两个参数( )
- Spark SQL 特点正确的是( )
- Spark Streaming支持多种数据源,可以从( )数据源创建DStream
- 下面哪个算子可以对key-value类型的数据进行操作。( )
- 创建StreamingContext有两种方式,是通过( )对象完成创建。
- 对DStream的计算操作分为( )。
- Spark Streaming流式计算框架的特点( )
- 在RDD中,窄依赖的特点为( )
- 以下哪些属于行动算子( )
- Spark-Shell命令行中导入代码依赖资源分别是:( )
- DataFrame输出数据的jdbc方法可以传入一个Properties对象,一般会将什么参数信息加入 这个对象中( )
- 在RDD读取JSON文件中,导入隐式转换参数formats是下列哪几个方法转化数据所依赖的参数、( )
- DataFram的join方法支持的连接类型有( )
- DStream有状态转换操作包括哪两种。( )
- 流处理系统与传统的数据处理系统的不同之处在于( ) 。
- 以下哪些属于转换算子( )
- DataFrame输出数据的jdbc方法需要传入哪些参数( )
- Spark有哪些优势( )
- 下列哪些属于窗口函数( )
- StreamingContext的创建有两种方式( )
- 行动算子的作用是( )
- 在flatMap算子中传递一个匿名函数,通过匿名函数调用split方法,可以( )
- 在代码中 val ssc:StreamingContext = new StreamingContext(sc,Seconds(1));参数Seconds(1)的含义是( )
- 键值对RDD里面存储的数据类型是( )
- DataFrame的limit(n: Int)方法返回的数据类型是( )
- DataFram的join方法传入的参数哪个是错误的( )
- 使用sequenceFile()函数读取SquenceFile文件时,第三个参数表示( )
- 在Spark框架中有两种进程,其中是Worker进程类似于Hadoop框架中的哪个进程( )
- 在Spark框架中有两种进程,其中是Master进程类似于Hadoop框架中的哪个进程( )
- 然后创建sparkSession对象时,下列哪个方法是SparkSession的构造器。( )
- 在本课程中,启动spark集群的命令是( )
- 通过外部存储来创建RDD使用的函数是( )
- 创建DStream,使用( )变量获取textFileStream方法,该方法将监视指定的HDFS目录并处理在该目录中创建的任何文件。
- DStream底层RDD的转换,最终还是由( )的引擎来实现。
- distinct算子的作用是( )
- 39以下对map算子的功能说法正确的是( )
- union算子的作用是( )
- first行动算子的可以( )
- Spark读取SquenceFile文件格式的函数是( )
- DataFrame的apply(colName: String)返回值类型为( )
- 下列是常用的输出操作方法有( )
- ( )窗口操作函数是利用func对滑动窗口的元素进行聚合操作,得到一个新的DStream。
- DStream中提供了很多转换操作函数,通过( )函数会生成一个新的DStream。
- 同时使用for循环向rddQueue队列中增加两个RDD数据,每个RDD数据的内容都是123,两次增加数据时间间隔可以设置为( )。
- window窗口操作函数是基于源DStream产生的窗口化的批数据,计算后会得到一个新的DStream。( )
- 通过调用( )中定义的各种操作算子来定义我们需要的各种实时计算逻辑。
- 通过HDFS文件系统创建( ),所以先要在HDFS上新建存放数据文件的目录。
- ( )基于滑动窗口的DStream中的元素数量
- 使用transform操作后,除了可以使用DStream提供的一些转换方法之外,还能够通过transform中的( )参数直接调用任意RDD上的操作函数。
- DStream底层是基于( )实现
- DataFrame数据输出中mode方法的参数不正确的是( )
- DataFrame的show()方法默认展示多少条数据( )
- Spark中DataFrame和RDD最大的区别是?( )
- DataFrame数据输出保存文件类型错误的是( )
- DataSet支持从哪些类型进行创建错误的是( )
- DataFrame的first()方法返回的数据类型是( )
- SparkSession内部封装了SparkContext,所以底层计算还是由SparkContext完成的。( )
- DataFrame的sort方法可以按照多个字段对数据进行排序。( )
- Spark SQL支持从哪些格式的外部结构化数据文件中读取数据创建DataFrame。( )
- 对于stuDF数据下列哪些方法不能对按age进行降序排列( )
- RDD操作包括哪两种类型。( )
- 有一个RDD,名称为pairRDD,包含4个元素,分别是("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1),则pairRDD.values操作得到的RDD中所包含的元素是( ) 。
- 有一个键值对RDD,名称为pairRDD,包含4个元素,分别是("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1),则pairRDD.keys操作得到的 RDD中所包含的元素是()。
- 以下操作中,哪个不是Spark RDD编程中的操作。( )
- val words = Array ("one", "two", "two", "three", "three","three")val wordPairsRDD = sc.parallelize(words).map(word => (word,1) )wordCountsWithReduce = wordPairsRDD.reduceByKey(_+_)上述语句的执行结果wordCountsWithReduce 中包含的元素是( )。
- 有一个键值对 RDD,名称为pairRDD,包含4个元素,分别是("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1),则pairRDD. mapValues(x => x+1)操作得到的RDD中所包含的元素是( ) 。
- 以下操作中,哪些是行动((Action)操作。( )
- 下面哪个操作是窄依赖( )
- 下面哪个操作肯定是宽依赖( )
- valrdd=sc.parallelize(1 to 10).filter(_%2== 0)rdd.collect上述代码的执行结果为( )
- 在部署Spark独立模式时,配置spark的web端口为( )
- 以下对Spark中Work的主要工作描述错误的是( )
- Spark支持的分布式部署方式中哪个是错误的( )
- 在部署Spark独立模式时,配置spark内部通信的端口为( )
- Spark的bin目录是spark运行脚本目录,该目录中包含了加载spark的配置信息,提交作业等执行命令的脚本( )
- 配置Standalone模式下的Spark集群,Worker节点需要在conf文件夹下的哪个文件中指明( )
- Spark单机伪分布式模式,它的特点是在一台节点上既有Master服务,又有Worker服务( )
- Standalone模式下配置Spark集群时,master节点的工作端口号需要在conf文件夹下的哪个文件指明( )
- 与MapReduce相比,Spark更适合处理以下哪种类型的任务( )
- 以下关于SPARK中的spark context,描述错误的是:( )
- 大数据的起源是以下哪个领域( )
答案:对
答案:错
答案:对
答案:对
答案:对
答案:对
答案:对
答案:对
答案:错
答案:对
答案:对
温馨提示支付 ¥5.00 元后可查看付费内容,请先翻页预览!