第五章 数据挖掘算法:数据挖掘算法从不同的应用场景分成了分类、聚类、回归等模型,本章主要深入浅出地向同学们介绍不同算法的原理,并在特定的数据集上进行算法的实际应用。5.1数据预处理:数据质量以及特征构建是数据挖掘的基石。本节主要聚焦于数据本身,重点介绍常用的数据探索方法,数据预处理方法,以及特征抽取方法,旨在提高同学们的数据探索能力,数据分析能力,数据处理能力。
5.2分类模型:分类问题是数据挖掘中最常见的应用场景,对应的分类算法也是最多的,不同的分类算法有不同的应用场景,本节课从多个分类算法的原理出发,分别介绍线性非线性分类算法,旨在让同学们掌握不同方法的优缺点,并在实际使用中采取合适的分类算法。
5.3聚类模型:大数据背景下存在非常多的检索任务,为了提高检索效率往往需要用聚类算法进行初步的筛选,本节课从经典地K-means聚类算法出发,向同学们介绍不同聚类模型的原理,以及聚类模型的评估方法,旨在让同学们掌握对聚类模型的使用以及评估聚类模型的方法。
5.4回归模型:回归模型也是数据挖掘中常见的应用场景,各种指标的预测,如股票走势,能源消耗等。本节课从最小二乘法出发,理解回归问题的不同损失的差别,以及利用梯度下降法求解参数,旨在让同学们对回归模型有深刻理解,能够熟练应用回归模型解决实际问题。
5.5推荐模型:推荐模型给工业界带来了非常丰厚的利润,生活中到处充满了推荐算法的身影,饮食,购物,旅游,音乐几乎涵盖所有领域,本节课主要介绍经典的推荐算法模型,虽然历史久远但由于其算法简单,性能卓越,依然是当前工业界中广泛使用的推荐模型,通过本节课的学习旨在让同学们初步理解推荐系统概念。
5.6文本处理:自然语言处理是人工智能皇冠上的明珠,Spark也提供了非常基础的文本处理算法,tf-idf,word2vec 等算法依然是当前学术界,工业界在文本分类,关键词抽取等领域常用的特征抽取算法,本节课从不同文本特征原理出发,旨在让同学们对文本处理有基础认知,能够利用Spark 完成自然语言处理的基础任务。
[单选题]关于Logistic回归和SVM,以下说法错误的是
SVM可以有效避免模型过拟合
SVM的目标的结构风险最小化
Logistic回归可用于预测事件发生概率的大小
 Logistic回归的目标函数是最小化后验概率
答案:Logistic回归的目标函数是最小化后验概率
[单选题]以下有关特征数据归一化的说法错误的是:
特征数据归一化有可能提高模型的精度
概率模型不需要做归一化处理
特征数据归一化加速梯度下降优化的速度
线性归一化适用于特征数值分化比较大的情况[多选题]应GradientBoosting tree算法, 以下说法正确的是 :
当我们减少训练单个学习器的样本个数,我们可以降低bias
当增加最小样本分裂个数,我们可以抵制过拟合
当增加最小样本分裂个数,会导致过拟合
当我们减少训练单个学习器的样本个数,我们可以降低variance[判断题]一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的

[判断题]重复两次的5折教程验证需要训练5个模型

温馨提示支付 ¥1.00 元后可查看付费内容,请先翻页预览!
点赞(0) dxwkbang
返回
顶部