第四章 大数据处理:与数据统计和分析过程不同的是,大数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。4.1关联规则:关联规则是反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。
4.2聚类:聚类要确定一个物体的类别,这里没有事先定义好的类别。聚类算法没有训练过程,算法要根据自己定义的规则,将相似的样本划分在一起,不相似的样本分成不同的类。
4.3支持向量机:帝厘下土,方设居方,别生分类,SVM是一类按监督学习方式对数据进行二元分类的广义线性分类器,可以通过核方法进行非线性分类。
4.4降维及特征提取:特征提取是从杂乱无章的世界中,用一个更加普世的观点和理论去解释原先的理论,这是特征提取要做的事情。只是想对现有的数据“取其精华,去其糟粕”,这是所谓的特征选择。
4.5集成算法:集成算法是构建多个学习器,然后通过一定策略结合把它们来完成学习任务的,常常可以获得比单一学习显著优越的学习器。
4.6分类:分类算法属于一种有监督的学习。分类算法的分类过程就是建立一种分类模型来描述预定的数据集或概念集,通过分析由属性描述的数据库元组来构造模型。
4.7回归:在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
[判断题]关联规则是形如X→Y的蕴涵式,表示通过X可以推导“得到”Y。选项:[对, 错]
[单选题]关联规则A->B的支持度support=P(AB),指的是(   )。

选项:[事件B发生的概率。

, 事件A发生的概率。

, 发生事件A的基础上发生事件B的概率。

, 事件A和事件B同时发生的概率。

]
[单选题]置信度confidence=P(B|A)=P(AB)/P(A),指的是(   )。

选项:[事件A和事件B同时发生的概率。

, 事件B发生的概率。

, 事件A发生的概率。

, 发生事件A的基础上发生事件B的概率。

]
[多选题]关联规则的执行过程包括(   )。

选项:[找出所有的频繁项集

, 由频繁项集产生强规则

, 对数据进行加工

, 对数据进处理

, 总结分析

]
[单选题]( )采用自底向上的聚类方法,从最底层开始,每一次通过合并最相似的聚类来形成上一层次中的聚类,当全部数据点都合并到一个聚类时或者达到某个终止条件时结束,是大部分层次聚类采用的方法。选项:[基于密度的聚类算法, 分裂的层次聚类, 合并的层次聚类, 基于划分的算法]
[判断题]K-Means算法中选择较大的K值可以降低数据的误差,并不会增加过拟合的风险。选项:[错, 对]
[单选题]在降维技术方面,LDA的中文含义是(   )。

选项:[特征选择技术

, 数据压缩技术

, 线性判别方法

, 主成分分析

]
[多选题]LDA降维和PCA降维的不同之处包括(   )。

选项:[LDA是有监督的降维方法,而PCA是无监督的降维方法

, LDA降维最多降到k-1维,而PCA没有这个限制

, LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向

, 两者在降维时特征分解的思想不同

, LDA除了可以用于降维,还可以用于分类

]
[单选题]( )方法的思想将子集的选择看作是一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较。选项:[Fisher方法, LDA方法, Wrapper方法, Filter方法]
[单选题]( )常考虑的是同质弱学习器,相互独立地并行学习这些弱学习器,并按照某种确定性的平均过程将它们组合起来。选项:[wrappering, stacking, boosting, bagging]

温馨提示支付 ¥1.00 元后可查看付费内容,请先翻页预览!
点赞(0) dxwkbang
返回
顶部