1. RDD的操作从宏观角度可以分为转换算子和行动算子( )

  2. 答案:对
  3. DStream全称Discretized Stream(离散化的数据流),是Spark Stream的基础抽象,表示数据源不间断的数据流和经过各种操作后的结果数据流。( )

  4. 答案:错
  5. 在本课程中,为了避免与Hadoop集群的启动停止脚本的冲突,将Spark的启动脚本更名为start-spark-all.sh( )

  6. 答案:对
  7. 调用StreamingContext的start()方法启动定义完成的实时计算逻辑从来进行实时数据处理。( )

  8. 答案:对
  9. 在Spark程序中,setAppName函数的作用是设置当前程序名称。( )

  10. 答案:对
  11. DStream底层是基于RDD实现。( )

  12. 答案:对
  13. DataFrame数据输出中mode方法的参数为error代表如果指定的位置已有数据则抛出相应的异常。( )

  14. 答案:对
  15. 创建RDD的方式有两种,分为在内存和外部存储创建。( )

  16. 答案:对
  17. 使用import org.apache.spark.SparkSession命令导入SparkSession包。( )

  18. 答案:错
  19. union操作,将源DStream和otherStream的元素联合返回一个新的DStream。( )

  20. 答案:对
  21. SparkSQL提供了两个编程模型抽象DataFrame和Dataset 。( )

  22. 答案:对
  23. Spark本地单机环境一般用于Spark安装测试和学习Spark的基础知识( )
  24. Spark的conf目录是spark的配置文件目录。该目录中包含了集群日志模板,节点配置模板,集群环境变量配置模板等( )
  25. reduceByWindow该函数含义与表5-1中countByValue函数一致,只不过对应的数据源不同。countByValueAndWindow的数据源是基于该DStream的窗口长度中的所有数据。( )
  26. reduceByKeyAndWindow该函数含义与表5-1中reduceByKey函数一致,只不过对应的数据源不同。reduceByKeyAndWindow的数据源是基于该DStream的窗口长度中的所有数据。( )
  27. 编写Spark Streaming程序的基本步骤包括( )。
  28. 下列哪些属于转换操作函数( )
  29. Spark SQL的SparkSession对象可以通过哪些方法从存放到HDFS上的结构化数据文件创建DataFrame。( )
  30. RDD数据集的五个特性( )
  31. Spark框架中的组件有哪些( )
  32. 下列哪些属于输出函数( )
  33. 使用SparkContext对象创建StreamingContext需要传递两个参数( )
  34. collectAsList方法与collect方法说法正确的是( )
  35. 通过printSchema()方法查看,该方法会输出DataFrame的( )
  36. SparkSession本质上已经封装了( )
  37. join算子的作用是( )
  38. 被称为排序算子算子的是( )
  39. mapValues算子的作用是( )
  40. Spark SQL组件的主要功能是( )
  41. 关于Spark Shell说法错误的是( )
  42. parallelize函数的第一个参数表示什么?( )
  43. Spark Master内部通信服务端口号是( )
  44. DataFrame数据输出中mode方法的参数说法错误的是( )
  45. 使用sequenceFile()函数读取SquenceFile文件时需要设置几个参数。( )
  46. 用户在开发Spark Streaming程序之前必须创建一个( )对象。
  47. reduceByKey算子的作用是( )
  48. DataFrame的saveAsTable方法是将数据保存到了什么位置( )
  49. 103在Spark Streaming中批处理时间间隔是指( )
  50. 关于DataSet,下列说法不正确的是( )
  51. Spark中Master进程的职责是什么( )
  52. sortByKey是对键值对类型的数据进行操作的。( )
  53. reduceByWindow(func,windowLength,slideInterval)窗口函数是将按照窗口间隔时间,将窗口持续时间内的DStream中的数据利用func函数进行聚合操作,得到一个新的DStream。( )
  54. 在Spark Shell中输入create table student(name String,id Int)可以创建student表。( )
  55. DataFrame的show(numRows: Int, truncate: Int) : Unit方法的第二个参数的含义是设置是否最多只显示truncate个字符( )
  56. foreach行动算子的作用是迭代RDD数据集中每一个元素。( )
  57. sortByKey是对单值类型的数据进行操作的。( )
  58. 转换操作(Transformation),对DStream的转换操作会返回一个新的DStream。( )
  59. Storm和Flink是完全的纯实时流式计算框架。而Spark Streaming是准实时流式计算框架。( )
  60. 用于处理实时数据的流式计算框架除了Spark Streaming,还包括Storm、Flink等技术框架。( )
  61. Spark Streaming会监视指定的HDFS目录,并且处理出现在目录中的文件( )
  62. 隐式转换的作用是在Scala编译器进行类型匹配时,如果找不到合适的类型,那么隐式转换会让编译器在作用范围内自动推导出合适的类型。( )
  63. makeRDD函数执行时在底层调用了parallelize函数。( )。
  64. saveAsSquenceFile算子的作用将RDD数据集存储为以SequenceFile的文件格式。( )
  65. groupByKey算子可以将数据源中的数据,相同value的数据分在一个组中。( )
  66. print()方法,它是打印DStream中每一批次数据的最开始10 个元素数据。( )
  67. flatMap算子实现了那种功能( )
  68. 下面属于Spark的特点是( )
  69. 在内存中创建RDD可以使用下列哪些函数( )
  70. 输出DataFrame的前20条数据,并且最多显示20个字符错误的是( )
  71. union操作,将源DStream和( )的元素联合返回一个新的DStream。
  72. saveAsHadoopFiles方法,它是以Hadoop文件形式存储每一批次的DStream数据。每一批次的存储文件名基于参数中的( )。
  73. 下列哪个数据结构拥有Schema信息( )
  74. sortByKey算子的作用是( )
  75. SparkSession对象可以通过哪个方法将数据库管理系统的数据表中数据转换为DataFrame。( )
  76. 使用sequenceFile()函数读取SquenceFile文件时,第二个参数表示( )
  77. 通过DataFrame的哪个方法可以查看DataFrame的数据模式( )
  78. take 行动算子的作用是( )
  79. groupByKey算子的作用是( )
  80. 104DataFrame和 RDD 最大的区别( )
  81. 在Spark Shell启动过程中,系统自动初始化了一个( )对象。
  82. RDD支持两种操作:转换操作和行动操作( )
  83. 可以借助StreamingContext对象中的queueStream方法从RDD队列中创建DStream。( )
  84. DataFrame的groupBy(col1: String, cols: String*)方法返回一个RelationalGroupedDataset对象。( )
  85. saveAsTextFile属于转换算子,可以将RDD数据保存为文本文件。( )
  86. 借助StreamingContext对象中的textFileStream方法从HDFS文件系统的某个目录下的所有文件数据中创建DStream。( )
  87. 在filter算子中,返回值为true的数据被过滤。( )
  88. DataFrame的limit方法执行完成返回的是一个新的DataFrame对象.( )
  89. saveAsHadoopFiles方法,它是以Hadoop文件形式存储每一批次的DStream数据。( )
  90. 使用sequenceFile()函数读取SquenceFile文件时,SquenceFile函数中参数类型使用的是Hadoop的Writable类型。( )
  91. Spark Core是基于内存对数据进行计算。( )
  92. DataFrame的orderBy方法默认为降序排列。( )
  93. 调用StreamingContext的awaitTermination()方法,来等待计算逻辑的终止。( )
  94. union算子可以将两个RDD数据集合并在一起。( )
  95. foreachRDD函数是DStream提供的一个功能强大的方法,它可以将数据发送到外部系统。( )
  96. DataFrame只有触发行动操作Action时才会根据依赖链计算。( )
  97. Spark Streaming的DStream操作隐藏了大部分底层的操作细节,提供了更高级别的API以方便为开发人员使用。( )
  98. 从内存创建RDD,也就是要把内存中的数据作为处理的数据源( )
  99. Spark是加州大学伯克利分校AMP实验室开发的通用内存并行计算框架。( )
  100. 我们只能通过spark.sql()方法执行SQL语句。( )
  101. reduce操作,将源DStream中每个元素通过函数func聚集, 返回一个包含聚合结果的DStream。( )
  102. 使用SparkConf对象创建StreamingContext需要传递两个参数( )
  103. Spark SQL 特点正确的是( )
  104. Spark Streaming支持多种数据源,可以从( )数据源创建DStream
  105. 下面哪个算子可以对key-value类型的数据进行操作。( )
  106. 创建StreamingContext有两种方式,是通过( )对象完成创建。
  107. 对DStream的计算操作分为( )。
  108. Spark Streaming流式计算框架的特点( )
  109. 在RDD中,窄依赖的特点为( )
  110. 以下哪些属于行动算子( )
  111. Spark-Shell命令行中导入代码依赖资源分别是:( )
  112. DataFrame输出数据的jdbc方法可以传入一个Properties对象,一般会将什么参数信息加入 这个对象中( )
  113. 在RDD读取JSON文件中,导入隐式转换参数formats是下列哪几个方法转化数据所依赖的参数、( )
  114. DataFram的join方法支持的连接类型有( )
  115. DStream有状态转换操作包括哪两种。( )
  116. 流处理系统与传统的数据处理系统的不同之处在于( ) 。
  117. 以下哪些属于转换算子( )
  118. DataFrame输出数据的jdbc方法需要传入哪些参数( )
  119. Spark有哪些优势( )
  120. 下列哪些属于窗口函数( )
  121. StreamingContext的创建有两种方式( )
  122. 行动算子的作用是( )
  123. 在flatMap算子中传递一个匿名函数,通过匿名函数调用split方法,可以( )
  124. 在代码中 val ssc:StreamingContext = new StreamingContext(sc,Seconds(1));参数Seconds(1)的含义是( )
  125. 键值对RDD里面存储的数据类型是( )
  126. DataFrame的limit(n: Int)方法返回的数据类型是( )
  127. DataFram的join方法传入的参数哪个是错误的( )
  128. 使用sequenceFile()函数读取SquenceFile文件时,第三个参数表示( )
  129. 在Spark框架中有两种进程,其中是Worker进程类似于Hadoop框架中的哪个进程( )
  130. 在Spark框架中有两种进程,其中是Master进程类似于Hadoop框架中的哪个进程( )
  131. 然后创建sparkSession对象时,下列哪个方法是SparkSession的构造器。( )
  132. 在本课程中,启动spark集群的命令是( )
  133. 通过外部存储来创建RDD使用的函数是( )
  134. 创建DStream,使用( )变量获取textFileStream方法,该方法将监视指定的HDFS目录并处理在该目录中创建的任何文件。
  135. DStream底层RDD的转换,最终还是由( )的引擎来实现。
  136. distinct算子的作用是( )
  137. 39以下对map算子的功能说法正确的是( )
  138. union算子的作用是( )
  139. first行动算子的可以( )
  140. Spark读取SquenceFile文件格式的函数是( )
  141. DataFrame的apply(colName: String)返回值类型为( )
  142. 下列是常用的输出操作方法有( )
  143. ( )窗口操作函数是利用func对滑动窗口的元素进行聚合操作,得到一个新的DStream。
  144. DStream中提供了很多转换操作函数,通过( )函数会生成一个新的DStream。
  145. 同时使用for循环向rddQueue队列中增加两个RDD数据,每个RDD数据的内容都是123,两次增加数据时间间隔可以设置为( )。
  146. window窗口操作函数是基于源DStream产生的窗口化的批数据,计算后会得到一个新的DStream。( )
  147. 通过调用( )中定义的各种操作算子来定义我们需要的各种实时计算逻辑。
  148. 通过HDFS文件系统创建( ),所以先要在HDFS上新建存放数据文件的目录。
  149. ( )基于滑动窗口的DStream中的元素数量
  150. 使用transform操作后,除了可以使用DStream提供的一些转换方法之外,还能够通过transform中的( )参数直接调用任意RDD上的操作函数。
  151. DStream底层是基于( )实现
  152. DataFrame数据输出中mode方法的参数不正确的是( )
  153. DataFrame的show()方法默认展示多少条数据( )
  154. Spark中DataFrame和RDD最大的区别是?( )
  155. DataFrame数据输出保存文件类型错误的是( )
  156. DataSet支持从哪些类型进行创建错误的是( )
  157. DataFrame的first()方法返回的数据类型是( )
  158. SparkSession内部封装了SparkContext,所以底层计算还是由SparkContext完成的。( )
  159. DataFrame的sort方法可以按照多个字段对数据进行排序。( )
  160. Spark SQL支持从哪些格式的外部结构化数据文件中读取数据创建DataFrame。( )
  161. 对于stuDF数据下列哪些方法不能对按age进行降序排列( )
  162. RDD操作包括哪两种类型。( )
  163. 有一个RDD,名称为pairRDD,包含4个元素,分别是("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1),则pairRDD.values操作得到的RDD中所包含的元素是( ) 。
  164. 有一个键值对RDD,名称为pairRDD,包含4个元素,分别是("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1),则pairRDD.keys操作得到的 RDD中所包含的元素是()。
  165. 以下操作中,哪个不是Spark RDD编程中的操作。( )
  166. val words = Array ("one", "two", "two", "three", "three","three")val wordPairsRDD = sc.parallelize(words).map(word => (word,1) )wordCountsWithReduce = wordPairsRDD.reduceByKey(_+_)上述语句的执行结果wordCountsWithReduce 中包含的元素是( )。
  167. 有一个键值对 RDD,名称为pairRDD,包含4个元素,分别是("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1),则pairRDD. mapValues(x => x+1)操作得到的RDD中所包含的元素是( ) 。
  168. 以下操作中,哪些是行动((Action)操作。( )
  169. 下面哪个操作是窄依赖( )
  170. 下面哪个操作肯定是宽依赖( )
  171. valrdd=sc.parallelize(1 to 10).filter(_%2== 0)rdd.collect上述代码的执行结果为( )
  172. 在部署Spark独立模式时,配置spark的web端口为( )
  173. 以下对Spark中Work的主要工作描述错误的是( )
  174. Spark支持的分布式部署方式中哪个是错误的( )
  175. 在部署Spark独立模式时,配置spark内部通信的端口为( )
  176. Spark的bin目录是spark运行脚本目录,该目录中包含了加载spark的配置信息,提交作业等执行命令的脚本( )
  177. 配置Standalone模式下的Spark集群,Worker节点需要在conf文件夹下的哪个文件中指明( )
  178. Spark单机伪分布式模式,它的特点是在一台节点上既有Master服务,又有Worker服务( )
  179. Standalone模式下配置Spark集群时,master节点的工作端口号需要在conf文件夹下的哪个文件指明( )
  180. 与MapReduce相比,Spark更适合处理以下哪种类型的任务( )
  181. 以下关于SPARK中的spark context,描述错误的是:( )
  182. 大数据的起源是以下哪个领域( )
温馨提示支付 ¥5.00 元后可查看付费内容,请先翻页预览!
点赞(7) dxwkbang
返回
顶部