山西职业技术学院
- DataFrame的limit方法执行完成返回的是一个新的DataFrame对象.( )
- DStream全称Discretized Stream(离散化的数据流),是Spark Stream的基础抽象,表示数据源不间断的数据流和经过各种操作后的结果数据流。( )
- foreachRDD函数是DStream提供的一个功能强大的方法,它可以将数据发送到外部系统。( )
- DataFrame的orderBy方法默认为降序排列。( )
- 在Spark Streaming官方文档中指出,join转换操作极大的丰富了DStream上能够进行的操作内容。( )
- Spark Streaming是基于Spark的准实时流式计算框架,其基本原理是实时接收输入数据流并将数据流按照时间分成微批次数据,随后由 Spark计算引擎处理微批次数据生成最终的结果批次数据,最后将数据输出到Spark Streaming支持的数据输出地( )
- 在Spark程序中,setAppName函数的作用是设置当前程序名称。( )
- Spark是用来构建大型的、低延迟的数据分析应用程序( )
- join算子将两个不同的RDD数据集中的数据进行连接,相同key的value会连接在一起,如果两个数据源中有多个相同的key,则会依次匹配,如果没有相同的数据,则不匹配。( )
- DataFrame数据输出中mode方法的参数为error代表如果指定的位置已有数据则抛出相应的异常。( )
- saveAsTextFile属于转换算子,可以将RDD数据保存为文本文件。( )
- 转换操作函数map(func)表示利用函数func处理原DStream的每个元素,并返回一个新的DStream。( )
- JSON是一种独立于语言和平台、轻量级的数据交换格式。JSON格式易阅读和编写,方便机器进行解析,JSON文件使用广泛且频繁。几乎每门开发语言都有处理JSON的API。( )
- Spark的sbin目录,该目录存放的是启动和停止Saprk相关服务的脚本。( )
- union算子可以将两个RDD数据集合并在一起。( )
- reduceByWindow该函数含义与表5-1中countByValue函数一致,只不过对应的数据源不同。countByValueAndWindow的数据源是基于该DStream的窗口长度中的所有数据。( )
- saveAsHadoopFiles方法,它是以Hadoop文件形式存储每一批次的DStream数据。( )
- Spark的jars目录存放的是spark依赖包。这些jar包提供了Spark运行所需的核心类库( )
- 调用StreamingContext的awaitTermination()方法,来等待计算逻辑的终止。( )
- countByKey算子可以统计键值对RDD中每一个key出现的次数,并且把结果保存到一个map集合中。( )
- Spark SQL的SparkSession对象可以通过哪些方法从存放到HDFS上的结构化数据文件创建DataFrame。( )
- 下面哪个算子可以对key-value类型的数据进行操作。( )
- 下列哪些属于输出函数( )
- 使用SparkContext对象创建StreamingContext需要传递两个参数( )
- collectAsList方法与collect方法说法正确的是( )
- 通过printSchema()方法查看,该方法会输出DataFrame的( )
- 以下关于流数据特征的描述,哪些是正确的。( )
- 在RDD中,窄依赖的特点为( )
- 本课程中Spark框架使用了哪些搭建模式( )
- Spark有哪些优势( )
- 使用SparkConf对象创建StreamingContext需要传递两个参数( )
- 在RDD读取JSON文件中,导入隐式转换参数formats是下列哪几个方法转化数据所依赖的参数、( )
- 在内存中创建RDD可以使用下列哪些函数( )
- DataFrame的哪个方法容易造成内存溢出( )
- RDD数据集的五个特性( )
- flatMap算子实现了那种功能( )
- Spark SQL 特点正确的是( )
- 创建StreamingContext有两种方式,是通过( )对象完成创建。
- 下列返回数组形式的算子是( )
- Spark框架中的进程有哪些( )。
- 创建DStream,使用( )变量获取textFileStream方法,该方法将监视指定的HDFS目录并处理在该目录中创建的任何文件。
- 在flatMap算子中传递一个匿名函数,通过匿名函数调用split方法,可以( )
- 103在Spark Streaming中批处理时间间隔是指( )
- 创建StreamingContext对象,该对象是 ( )流处理的编程入口点。
- 在本课程中,启动spark集群的命令是( )
- count行动算子的作用是( )
- join算子的作用是( )
- DataFrame的select方法和selectExpr方法说法正确的是( )
- DataFrame的col(colName: String)方法返回值类型为( )
- 下列哪个数据结构拥有Schema信息( )
- 通过外部存储来创建RDD使用的函数是( )
- Spark中Master进程的职责是什么( )
- 通过DataFrame的哪个方法可以查看DataFrame的数据模式( )
- 用户在开发Spark Streaming程序之前必须创建一个( )对象。
- saveAsTextFiles方法,它是以( )文件形式存储每一批次的DStream数据。
- DataFrame的apply(colName: String)返回值类型为( )
- sortByKey算子的作用是( )
- 在代码中 val ssc:StreamingContext = new StreamingContext(sc,Seconds(1));参数Seconds(1)的含义是( )
- reduceByKey算子的作用是( )
- 键值对RDD里面存储的数据类型是( )
A:错 B:对
答案:对
A:错 B:对
答案:错
A:对 B:错
答案:对
A:对 B:错
答案:错
A:错 B:对
答案:B:对
A:错 B:对
答案:对
A:对 B:错
答案:对
A:错 B:对
答案:A:错
A:错 B:对
答案:B:对
A:对 B:错
A:对 B:错
A:对 B:错
A:对 B:错
A:对 B:错
A:错 B:对
A:错 B:对
A:错 B:对
A:对 B:错
A:对 B:错
A:错 B:对
A:read.load() B:read.csv() C:read.text() D:read.json()
A:sortByKey() B:union() C:join() D:mapValues()
A:saveAsTextFiles(prefix, [suffix]) B:foreachRDD(func) C:print() D:countByValueAndWindow(windowLength,slideInterval, [numTasks])
A:SparkContext对象 B:构建的SparkConf对象 C:Batch Size D:PATH
A:collect方法返回的是一个Array数组。 B:collect方法返回一个List集合。 C:collectAsList方法返回的是一个List集合。 D:collectAsList方法返回一个Array数组。
A:列是否可以为null B:列数据 C:列类型 D:列名称
A:数据快速持续到达,潜在大小也许是无穷无尽的 B:数据来源众多,格式复杂 C:数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序 D:数据量大,但是不十分关注存储,一旦流数据中的某个元素经过处理,要么被丢弃,要么被归档存储
A:父RDD的每个分区的数据对应子RDD的一个分区,既一分区对一分区。 B:多个父RDD的分区对应于一个子RDD的分区,既多分区对一分区 C:父RDD的每个分区的数据对应子RDD的多个分区,既一分区对多分区。 D:多个父RDD的分区对应于多个子RDD的分区,既多分区对多分区
A:Spark完全分布式 B:Spark单机伪分布式 C:Spark本地单机模式 D:Spark or Yarn模式
A:相对于MapReduce运算速度快 B:兼容性强 C:通用性强 D:易用性好
A:Batch Size B:构建的SparkConf对象 C:PATH D:SparkContext对象
A:split() B:equals() C:extract() D:parse()
A:textFile() B:makeRDD() C:paralleliz() D:parallelize()
A:first B:show C:take D:collect
A:分区列表 B:每个分区都有一个优先位置列表 C:RDD依赖于其他RDD的列表 D:key-value数据类型的RDD分区器 E:每一个分区都有一个计算函数
A:过滤功能 B:扁平化功能 C:映射转换功能 D:去重功能
A:容易集成 B:不兼容Hive C:标准化数据库连接 D:提供了统一的数据访问
A:StreamingContext B:SparkConf C:SparkContext D:spark
A:map() B:collect() C:reduce() D:take()
A:MapReduce B:Worker C:Master D:NameNode
A:Sse B:Src C:Mapred D:Ssc
A:对数据进行去重 B:将数据进行分区 C:对数据进行切分 D:对数据进行过滤
A:系统将获取到的数据流封装成一个RDD的时间间隔 B:系统对数据流进行统计分析的时间间隔 C:系统对数据流进行统计分析的频率 D:系统作业处理的周期
A:SparkStreaming B:DStream C:queueStream D:SparkConf
A:Start-spark.sh B:start-dfs.sh C:start-spark-all.sh D:Start-yarn.sh
A:只对键值对中的value数据进行操作,不对key值做任何处理 B:将两个不同的RDD数据集中的数据进行连接,相同key的value会连接在一起,形成元组 C:该算子的作用是统计RDD数据集中元素的个数 D:对键值对中的value数据进行操作,对key值做聚合运算
A:只对键值对中的value数据进行操作,不对key值做任何处理 B:将两个不同的RDD数据集中的数据进行连接,相同key的value会连接在一起,形成元组 C:对键值对中的value数据进行操作,对key值做聚合运算 D:将键值对数据中相同key对应的所有value值进行聚合操作
A:selectExpr方法可以指定字段的别名 B:select方法不能传入多个字段 C:select方法可以直接对指定字段调用UDF函数 D:select方法可以对指定字段进行特殊处理
A:Column类型 B:RDD类型 C:DataFrame类型 D:Array类型
A:List B:DataFrame C:样例类 D:RDD
A:textFile() B:makeRDD() C:create() D:mkdirRDD()
A:负责数据的存储 B:负责管理分配新进程并提供计算服务 C:负责资源调度 D:负责管理其它Spark进程
A:printSchema() B:putSchema() C:outSchema() D:loadSchema()
A:String B:StreamingContext C:awaitTermination D:DStream
A:Hadoop B:Prefix C:Suffix D:Text
A:DataFrame类型 B:RDD类型 C:Column类型 D:Array类型
A:将键值对数据中相同value对应的所有key进行聚合操作 B:将键值对数据中相同key对应的所有value值进行聚合操作 C:计算两个RDD数据集的并集 D:将键值对数据按照key进行排序
A:每隔1秒时间生成一个批次数据 B:自定义的数据源 C:PATH D:构建的SparkConf对象
A:将键值对数据中相同value对应的所有key进行聚合操作 B:将键值对数据中相同key对应的所有value值进行聚合操作 C:计算两个RDD数据集的并集 D:计算两个RDD数据集的交集
A:key-value B:String C:Int D:Boolean
温馨提示支付 ¥5.00 元后可查看付费内容,请先翻页预览!