第四章 Spark与数据挖掘:本章从Spark 概念出发,介绍Spark编程模型,以及数据挖掘系统的组成,最后包括Spark 支持的数据挖掘算法。本章节的内容旨在让同学们熟悉Spark平台,熟悉数据挖掘流程,以及如何利用Spark进行数据挖掘。4.1Spark概述:Spark是当前使用最广泛的通用内存并行计算框架。 本章节主要解答Spark是什么?Spark与Hadoop的区别是什么?Spark的实际应用场景是怎样的?为什么要学习Spark。通过回答这四个问题旨在让同学们对Spark有一个整体认知。
4.2Spark编程模型:Spark编程模型是使用Spark 进行数据挖掘的第一步。 本节主要向同学们介绍SparkContext、SparkSession、Spark Shell、弹性分布式数据集RDD等一些重要概念,旨在让同学们直观认识Spark编程模型中常用概念与术语。
4.3数据挖掘系统设计:随着大数据时代的快速发展,人们的一举一动,一言一行都成为数据,数据挖掘技术就是从这些杂乱无章的数据中获取有用的知识。本节课从数据挖掘的基础概念出发,重点介绍数据挖掘系统的组成,旨在让同学们对数据挖掘系统流程有整体认知并掌握数据挖掘的常用概念。
4.4Spark MLlib:Spark MLlib 是Spark 平台提供的机器学习库,也是我们后面课程的主要工具。本节课主要介绍Spark MLIib 学习库所支持的算法,以及如何使用Spark 进行机器学习,旨在让同学们了解Spark 提供的机器学习框架,为后续课程打下基础。
[单选题]下面哪个不是 RDD 的特点
可持久化
可分区
可序列化
可修改
答案:可修改
[单选题]Spark 的四大组件下面哪个不是
Spark R
Spark Streaming 
Graphx
Mlib[多选题]Spark 提供的算法包括
聚类
回归
分类
推荐[判断题]RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合

[判断题]Spar提供了两种有限的共享变量:广播变量和累加器

温馨提示支付 ¥1.00 元后可查看付费内容,请先翻页预览!
点赞(0) dxwkbang
返回
顶部