1.在决策树学习过程中,一般而言,随着划分过程的不断进行,分支节点的”纯度“将越来越高。( )
A:对 B:错
答案:错
2.给定 n 个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着 n的增加而减小。( )
A:正确 B:错误
答案:正确
3.剪枝(pruning)是决策树学习算法对付"欠拟合"的主要手段,其基本策略有"预剪枝" (pre-pruning)和"后剪枝"(post-pruning)。( )
A:错 B:对
答案:错
4.在属性个数比较多或者属性之间相关性较大时,朴素贝叶斯分类器的分类效率比不上决策树模型。( )
A:对 B:错
答案:对
5.一个循环神经网络可以被展开成为一个完全连接的、具有无限长度的普通神经网络。( )
A:对 B:错
答案:对
6.在训练完 SVM 之后,只保留支持向量,而舍去所有非支持向量,仍然不会影响模型分类能力。( )
A:对 B:错
答案:对
7.如果自变量 X 和因变量 Y 之间存在高度的非线性和复杂关系,那么树模型很可能劣于经典回归方法。( )
A:对 B:错
答案:错
8.决策树的分界面是线性的。( )
A:正确 B:错误
答案:错误
9.逻辑回归LR是参数模型,支持向量机SVM也是参数模型。( )
A:对 B:错
答案:错
10.监督式学习中存在过拟合,而对于非监督式学习来说,没有过拟合。( )
A:错 B:对
答案:错
11.K-means算法中初始点的选择对最终结果没有影响,不同的初始值结果都一样。( )
A:对 B:错

12.随机森林中基学习器的多样性不仅来自样本扰动,还来自属性扰动和输出表示扰动。( )
A:错 B:对 13.ID3决策树学习算法是以信息增益为准则来选择划分属性的。( )
A:对 B:错 14.在决策树的划分属性选择中,信息增益准则对可取值数目较少的属性有所偏好,而增益率准则对可取值数目较多的属性有所偏好。( )
A:错 B:对 15.SVM对缺失数据敏感,而且当观测样本很多时,SVM方法的效率也不是很高。( )
A:对 B:错 16.设输入为 ,滤镜(卷积核)为 ,在步幅为1且无填充等其他特殊处理的情况下,请计算卷积生成的镜像
17.以下关于聚类算法说法正确的是( )。
A:合并聚类算法是基于密度的聚类 B:聚类分析是无监督学习算法 C:聚类目标是将数据集中的样本划分为若干个不相交的子集 D:K均值算法是一个近似算法 18.LDA降维的目标是将带有标签的数据降维,投影到低维空间同时满足三个条件有:( )
A:在所投影的维度上数据的方差最大 B:投影后使得同类样本尽可能近,不同类样本尽可能远 C:尽可能多地保留数据样本的信息 D:寻找使样本尽可能好分的最佳投影方向 19.关于BP神经网络的缺点说法正确的是( )
A:随着神经网络的层数加深,训练过程存在严重的“梯度弥散” 现象,即网络的输出结果通过反向传播,当到达前面层时,梯度会逐渐消失,使得不能指引网络权值的训练,从而导致网络不能正常收敛。 B:BP算法一般只能用于浅层网络结构的学习,限制了BP算法的数据表征能力,影响了在实际应用中的效果。 C:BP神经网络以数值作为输入。在处理图像相关的信息时, 则要从图像中提前提取特征。 D:BP神经网络的容错性较差。 20.DQN具有哪两个network?( )
A:状态价值网络 B:动作价值网络 C:当前值网络 D:目标值网络 21.关于合并聚类算法说法正确的有( )。
A:合并聚类算法聚类时,先将每一个数据样本自成一类 B:类间距离定义为两类的中心之间的欧几里得距离 C:合并聚类算法的思想类似于经典图算法中的Kruskal算法 D:类中心定义为类中样本的最大值 22.当损失函数不可导的情况,梯度下降不再有效,可以使用坐标轴下降法,坐标下降法属于一种非梯度优化的方法,它在每步迭代中沿一个坐标的方向进行搜索,通过循环使用不同的坐标方法来达到目标函数的局部极小值。( )
A:错 B:对 23.值迭代算法是在已知模型的基础上,用规划的方法进行策略评估策略改进,最终获得最优策略。( )
A:错 B:对 24.

下面哪句话是正确的?( )


A:机器学习模型的精准度越高,则模型的性能越好 B:增加模型的复杂度,总能减小测试样本误差 C:增加模型的复杂度,总能减小训练样本误差 25.ID3算法以( )作为测试属性的选择标准。
A:分类的速度 B:所划分的类个数 C:信息增益 D:信息熵 26.线性回归模型假设标签随机变量服从_______? Logistic回归模型假设标签随机变量服从_______? Softmax回归模型假设标签随机变量服从_______?( )
A:伯努利分布、正态分布、多项分布 B:正态分布、伯努利分布、多项分布 C:正态分布、多项分布、伯努利分布 D:伯努利分布、多项分布、正态分布 27.以下哪个选项不属于策略算法的实现过程?( )
A:将策略参数化 B:输入某个状态,输出一个动作的概率分布 C:使用神经网络寻找最差策略 D:使用线性模型或者神经网络对策略函数建模 28.以下(1)动态规划算法、(2)蒙特卡洛算法、(3)时序差分算法,无模型的算法有哪些?( )
A:(1),(2) B:(2),(3) C:全都不是 D:(1),(3) 29.在二元分类问题中,给定样本的特征组及其标签将标签为1的样本称为正采样,标签为0的样本称为负采样。设为模型对样本的标签预测。将称为正预测, 称为负预测。
以下说法不正确的是( )
A:如果且1,则称该预测为假正(false positive) B:如果且1,则称该预测为真正(true positive) C:如果且,则称该预测为假负(false negative) D:如果且,则称该预测为真负(true negative) 30.线性回归经常使用的优化算法是( )
A:A和B B:正规方程 C:最优值搜索 D:梯度下降法 31.PCA的理论基础是( )
A:方差最大理论 B:系数最大理论 C:残差最大理论 D:成分最大理论 32.在回归分析中,下列哪个选项不属于线性回归( )。
A:多个因变量与多个自变量的回归 B:一元线性回归 C:分段回归 D:多元线性回归 33.下列说法错误的是?( )
A:当目标函数是凸函数时,梯度下降算法的解一般就是全局最优解 B:利用拉格朗日函数能解带约束的优化问题 C:沿负梯度的方向一定是最优的方向 D:进行 PCA 降维时,需要计算协方差矩阵 34.以下属于回归任务的是( )
A:预测云南野生大象未来的走向 B:判断一个西瓜是本地瓜还是外地瓜 C:根据一个人的头像判断性格 D:预测一个房子的价格 35.局部线性嵌入中,原空间局部信息指的是( )。
A:除中心样本外的样本对中心样本的线性表示信息 B:邻域样本对中心样本的线性表示信息 C:ABC都是 D:中心样本的局部邻域样本信息 36.下列哪个不属于LDA和PCA的相同点( )
A:两者在降维时均使用了矩阵特征值分解的思想。 B:两者均可以对数据进行降维。 C:两者均属于监督式学习算法。 D:两者都假设数据符合高斯分布。 37.( )
A: B: C: D: 38.

假定你使用了一个很小 值的RBF核,这意味着:( )


A:模型将考虑使用远离超平面的点建模 B:模型仅使用接近超平面的点来建模 C:ABC都不正确 D:模型不会被点到超平面的距离所影响 39.下列关于长短期记忆网络LSTM和循环神经网络RNN的关系描述正确的是( )
A:LSTM是双向的 RNN B:LSTM是RNN的扩展方法,通过特有结构设计来避免长期依赖问题 C:LSTM是多层的RNN D:LSTM是简化版的RNN 40.以下说法正确的是( )。
A:Logistic回归算法是模型假设为Sigmoid函数的经验损失最小化算法。 B:Logistic回归算法是针对多元分类问题的一个重要算法。 C:线性回归算法是用于解决分类问题的方法。 D:回归问题和分类问题是两类非监督式学习问题。 41.设, 则当x-->1 时,( )。
A:a(x)与b(x)是等价无穷小 B:a(x)是比b(x)高阶的无穷小 C:a(x)与b(x)是同阶无穷小,但不是等价无穷小 D:b(x)是比a(x)高阶的无穷小 42.假如你在训练一个线性回归模型,有下面两句话:1. 如果数据量较少,容易发生过拟合。2. 如果假设空间较小,容易发生过拟合。关于这两句话,下列说法正确的是? ( )
A:1 和 2 都错误 B:1 和 2 都正确 C:1 正确,2 错误 D:1 错误,2 正确 43.以垃圾微信识别为例,Tom Mitchell的机器学习的定义中,性能度量值P是什么?( )
A:P是识别 B:P 是不必要条件 C:P是垃圾微信 D:P 是识别为正确的概率 44.下列哪个不属于常用的文本分类的特征选择算法?( )
A:主成分分析 B:互信息 C:卡方检验值 D:信息增益 45.给定三个变量 X,Y,Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相关性系数分别为 C1、C2 和 C3。现在 X 的所有值加 2(即 X+2),Y 的全部值减 2(即 Y-2),Z 保持不变。那么运算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相关性系数分别为 D1、D2 和 D3。现在试问 D1、D2、D3 和 C1、C2、C3 之间的关系是什么?( )
A:D1 = C1, D2 > C2, D3 < C3 B:D1 = C1, D2 > C2, D3 > C3 C:D1 = C1, D2 < C2, D3 < C3 D:D1 = C1, D2 = C2, D3 = C3 E:D1= C1, D2 < C2, D3 > C3 46.假如我们使用非线性可分的SVM目标函数作为最优化对象, 我们怎么保证模型线性可分?( )
A:设C=0 B:设C=无穷大 C:其余选项都不对 D:设C=1 47.符号集a、b、c、d他们相互独立,相应概率为1/2、1/4、1/8、1/16,其中包含信息量最小的符号是( )
A:a B:c C:d D:b 48.中文同义词替换时,常用到Word2Vec,以下说法错误的是( )。
A:Word2Vec得到的都是语义上的同义词 B:Word2Vec基于概率统计 C:Word2Vec结果符合当前语料环境 D:Word2Vec受限于训练语料的数量和质量 49.我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以( )。
A:减少树的深度 B:增加树的深度 C:减少树的数量 D:增加学习率 (learning rate) 50.以下哪些方法不可以直接来对文本分类?( )
A:支持向量机 B:KNN C:决策树 D:K-means 51.词向量描述正确的是( )。
A:女人+漂亮=女神 B:自然语言表示的单词不能转换为计算机能够理解的向量或矩阵形式 C:没有正确答案 D:词向量技术是将词转化成为稀疏向量的技术 52.关于数据集划分,下列说法正确的是( )
A:训练集与测试集的理想划分比例是5:5 B:庞大数据集的训练集与测试集的划分比例可以为9:1 C:训练集的数据量越大,模型的泛化能力越好 D:训练集的数据总是越多越好 53.下列属于无监督学习的是( )。
A:最大熵 B:K-means C:SVM D:CRF 54.SPSS的界面中,以下是主窗口是( )。
A:结果输出窗口 B:语法编辑窗口 C:脚本编辑窗口 D:数据编辑窗口 55.深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m∗n,n∗p,p∗q,且mA:AC(B) B:所以效率都相同 C:(AB)C D: A(BC) 56.在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计( )。
A:EM算法 B:维特比算法 C:极大似然估计 D:前向后向算法 57.一般来说,下列哪种方法常用来预测连续独立变量?( )
A:其余选项说法都不对 B:逻辑回顾 C:线性回归 D:线性回归和逻辑回归都行 58.关于SVM泛化误差描述正确的是( )。
A:SVM的误差阈值 B:超平面与支持向量之间距离 C:SVM对未知数据的预测能力 59.”点击率问题”是这样一个预测问题,99%的人是不会点击的,而1%的人是会点击进去的,所以这是一个非常不平衡的数据集。假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是( )
A:模型预测准确率已经很高了, 我们不需要做什么了 B:其余选项都不对 C:无法下结论 D:模型预测准确率不高, 我们需要做点什么改进模型 60.在spss的基础分析模块中,作用是“以行列表的形式揭示数据之间的关系”的是( )
A:交叉表 B:数据描述 C:相关 D:多重相应 61.文本信息检索的一个核心问题是文本相似度计算,将查询条件和文本之间的相似程度数值化,从而方便比较。当文档和查询都表示成向量时,可以利用向量的内积的大小近似地表示两个向量之间的相关程度。设有两个文档和查询抽取特征和去除停用词后分别是:文档d1: a、b、c、a、f、b、a、f、h文档d2: a、c查询q: a、c、a特征项集合为 {a、b、c、d、e、f、g、h}如果采用二值向量表示,那么利用内积法计算出q和d1、d2的相似度分别是( )。
A:0、0 B:1、1 C:7、2 D:2、2 62.下列哪一种偏移,是我们在最小二乘直线拟合的情况下使用的?图中横坐标是输入 X,纵坐标是输出 Y。( )
A:其余选项说法都不对 B:垂向偏移(perpendicular offsets) C:两种偏移都可以 D:垂直偏移(vertical offsets) 63.下面哪些对「类型 1(Type-1)」和「类型 2(Type-2)」错误的描述是错误的?( )
A:类型 1 错误通常在其是正确的情况下拒绝假设而出现。 B:类型 2 通常称之为假正类,类型 1 通常称之为假负类。 C:类型 1 通常称之为假正类,类型 2 通常称之为假负类。 64.如果预测的结果与将来的实际情况总会存在着或大或小、或多或少、或前或后的偏差,它表明预测具有( )
A:局限性 B:近似性 C:不确定性 D:科学性 65.下面有关分类算法的准确率,召回率,F1 值的描述,错误的是( )。
A:准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率 B:为了解决准确率和召回率冲突问题,引入了F1分数 C:正确率、召回率和 F 值取值都在0和1之间,数值越接近0,查准率或查全率就越高 D:召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率 66.模式识别中,不属于马氏距离较之于欧氏距离的优点是( )
A:考虑了模式的分布 B:平移不变性 C:尺度不变性 67.在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是( )。
A:将负样本重复10次,生成10w样本量,打乱顺序参与分类 B:将负样本每个权重设置为10,正样本权重为1,参与训练过程 C:从10w正样本中随机抽取1w参与分类 D:直接进行分类,可以最大限度利用数据 68.朴素贝叶斯算法在统计训练样本中每个类别出现的频率时,若某一特征值的概率为0会使整个概率乘积变为0(称为数据稀疏)问题,解决的的办法有( )
A:通过聚类将未出现的特征找出相关特征的概率求平均值进行替代 B:其余选项都不对 C:剔除掉某一特征值的概率为0的特征 D:采用贝叶斯估计,如拉普拉斯平滑 69.朴素贝叶斯算法能取得较好的效果是因为( )
A:其余选项都不对 B:如果属性间依赖关系的影响能相互抵消,在属性条件独立性假设时不会对性能产生负面影响。 C:如果属性间依赖对所有类别相互影响相同,在属性条件独立性假设下可以降低计算 D:对分类各类别的条件概率排序正确,无需精准概率值就可以获得正确分类; 70.假如我们利用 Y 是 X 的 3 阶多项式产生一些数据(3 阶多项式能很好地拟合数据)。那么,下列说法正确的是?( )
A:3 阶多项式拟合会造成低偏差(bias)、高方差(variance) B:3 阶多项式拟合具备低偏差(bias)、低方差(variance) C:简单的线性回归容易造成高偏差(bias)、低方差(variance) D:简单的线性回归容易造成低偏差(bias)、高方差(variance) 71.数据清理中,处理缺失值的方法是( )。
A:整例删除 B:变量删除 C:成对删除 D:估算 72.在统计模式识分类问题中,当先验概率未知时,可以使用?( )
A:最小损失准则 B:最小最大损失准则 C:N-P判决 D:最小误判概率准则 73.机器学习中L1正则化和L2正则化的区别是?( )
A:使用L1可以得到稀疏的权值 B:使用L2可以得到稀疏的权值 C:使用L2可以得到平滑的权值 D:使用L1可以得到平滑的权值 74.下面哪些算法模型可以用来完成命名实体的任务?( )
A:LDA B:GBDT C:seq2seq D:HMM E:CRF F:LSTM 75.机器学习中做特征选择时,可能用到的方法有?( )
A:卡方 B:平均互信息 C:信息增益 D:期望交叉熵 76.以下描述错误的是:( )
A:在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。 B:在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。 C:SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier) D:聚类分析可以看作是一种非监督的分类。 77.精确率(Precision),也叫查准率。即正确预测为正的占全部预测为正的比例。是真正正确的占所有预测为正的比例( )
A:正确 B:错误 78.K均值聚类的核心目标是将给定的数据集划分为K个簇,并给出每个数据对应的簇中心点。( )
A:错误 B:正确 79.预剪枝是在决策树的构建过程中加入限制,比如控制叶子节点最少的样本个数,提前停止。( )
A:错 B:对 80.给定n个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着n的增加而减小。( )
A:错误 B:正确 81.基尼指数偏向于多值属性;当类数较大时,基尼指数求解比较困难;基尼指数倾向于支持在两个分区中生成大小相同的测试。( )
A:错误 B:正确 82.聚类算法中不需要给出标签y。( )
A:正确 B:错误 83.决策树只能用于分类问题,不能用于回归问题。( )
A:对 B:错 84.在AdaBoost算法中,所有被错分的样本的权重更新比例相同。( )
A:错 B:对 85.训练集与测试集的划分对最终模型的确定无影响。( )
A:正确 B:错误 86.如果特征很多,决策树中最后没有用到的特征一定是无用的。( )
A:对 B:错 87.下列哪一种方法的系数没有闭式(closed-form)解?( )
A:Ridge 回归和 Lasso B:选项中没有正确答案 C:Lasso D:Ridge 回归 88.下面是交叉验证的几种方法:1. Bootstrap2. 留一法交叉验证3. 5 折交叉验证4. 重复使用两次 5 折交叉验证请对上面四种方法的执行时间进行排序,样本数量为 1000。( )
A:2 > 3 > 4 > 1 B:1 > 2 > 3 > 4 C:4 > 1 > 2 >3 D:2 > 4 > 3 > 1 89.选项中哪些方法不可以直接来对文本分类?( )
A:决策树 B:kNN C:支持向量机 D:K-Means 90.选项中关于 bootstrap 说法正确的是?( )
A:从总的 N 个样本中,无放回地抽取 n 个样本(n < N) B:从总的 M 个特征中,有放回地抽取 m 个特征(m < M) C:从总的 N 个样本中,有放回地抽取 n 个样本(n < N) D:从总的 M 个特征中,无放回地抽取 m 个特征(m < M) 91.为了观察测试 Y 与 X 之间的线性关系,X 是连续变量,使用下列哪种图形比较适合?( )
A:柱形图 B:散点图 C:直方图 92.智能化中医望诊时,对一幅舌脉图像(伸出舌头的人脸图像),希望把舌头部分从人脸的其他部分划分出来,可以采用以下方法:在该图像中分别在舌头区域与其他区域各画出一个窗口,把在这两个窗口中的象素数据作为训练集,用Fisher准则方法求得分类器参数,再用该分类器对整幅图进行分类。那么这种方法属于:( )
A:非监督学习 B:监督学习 C:半监督学习 93.SVM中核技巧(Kernal trick)的作用包括以下哪项?( )
A:防止欠拟合 B:防止过拟合 C:特征降维 D:特征升维 94.智能化中医望诊时,对一幅舌脉图像(伸出舌头的人脸图像),希望把舌头部分从人脸的其他部分划分出来,可以采用以下方法:将整幅图的每个象素的属性记录在一张数据表中,然后用某种方法将这些数据按它们的自然分布状况划分成两类。因此每个象素就分别得到相应的类别号,从而实现了舌头图像的分割。那么这种方法属于:( )
A:半监督学习 B:监督学习 C:非监督学习 95.bootstrap数据是什么意思?( )
A:有放回地从总共N个样本中抽样n个样本 B:有放回地从总共M个特征中抽样m个特征 C:无放回地从总共N个样本中抽样n个样本 D:无放回地从总共M个特征中抽样m个特征 96.如果两个变量相关,那么它们一定是线性关系吗?( )
A:是 B:不一定 97.关于 L1、L2 正则化下列说法正确的是?( )
A:L2 正则化能防止过拟合,提升模型的泛化能力,但 L1 做不到这点 B:L1 正则化得到的解更加稀疏 C:L2 正则化技术又称为 Lasso Regularization D:L2 正则化得到的解更加稀疏 98.关于欠拟合(under-fitting),下面哪个说法是正确的?( )
A:训练误差较小,测试误差较大 B:训练误差较大,测试误差较大 C:训练误差较大,测试误差较小 99.模型的bias很高, 我们如何降低它? ( )
A:增加数据点 B:在特征空间中减少特征 C:在特征空间中增加特征 100.加入使用逻辑回归对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在,在数据中增加一个新的特征,其它特征保持不变。然后重新训练测试。选项中说法正确的是?( )
A:训练样本准确率一定增加或保持不变 B:测试样本准确率一定会降低 C:训练样本准确率一定会降低 D:测试样本准确率一定增加或保持不变 101.k-NN 最近邻方法在什么情况下效果较好?( )
A:样本呈团状分布 B:样本呈链状分布 C:样本较少但典型性好 D:样本较多但典型性不好 102.在数据预处理阶段,我们常常对数值特征进行归一化或标准化(standardization, normalization)处理。这种处理方式理论上不会对下列哪个模型产生很大影响?( )
A:决策树 B:k-NN C:k-Means 103.机器学习训练时,Mini-Batch 的大小优选为2个的幂,如 256 或 512。它背后的原因是什么?( )
A:Mini-Batch 为偶数的时候,梯度下降算法训练的更快 B:Mini-Batch 设为 2 的 幂,是为了符合 CPU、GPU 的内存要求,利于并行化处理 C:选项中的说法都不对 D:不使用偶数时,损失函数是不稳定的 104.已知坐标系中两点A(2,−2)和B(−1,2),这两点的曼哈顿距离(L1距离)是( )
A:25 B:1 C:7 D:0 105.Dropout技术在下列哪种神经层中将无法发挥显著优势?( )
A:选项中没有正确答案 B:卷积层 C:仿射层(全连接层) D:RNN层 106.贝尔曼期望方程的基本思想是将待求解问题分解为若干子问题,从这些子问题的解得到原问题的解。( )
A:对 B:错 107.线性回归算法、逻辑回归算法和支持向量机等监督式学习算法,都是经验损失最小化架构在具体问题中的表现。( )
A:错误 B:正确 108.聚类分析是对未知分类的事物按照“物以类聚”的思想对其进行分类的一种算法。常用的算法有K均值聚类算法,其是基于层级的聚类算法。( )
A:错误 B:正确 109.马尔科夫性特点:未来与现在有关,下一个状态既和当前状态有关,又和之前的状态有关。( )
A:正确 B:错误 110.在实际应用中,不同的学习模型使用的损失函数一般情况下也不一样。( )
A:正确 B:错误 111.增大正则化系数可以用于处理欠拟合( )
A:错误 B:正确 112.强化学习主要任务是使智能体能够根据环境的状态,获得最佳行动策略。( )
A:正确 B:错误 113.SVM分类超平面的解是唯一的,要满足间隔最大化。感知机的解不唯一,没有间隔最大化的约束条件,满足分开数据点的分界面都是可以的。( )
A:错误 B:正确 114. ‏L2 正则化得到的解更加稀疏。( )
A:正确 B:错误 115.牛顿迭代法是二阶收敛的,梯度下降是一阶收敛,所以牛顿法多数情况下收敛更快。( )
A:正确 B:错误 116.随机梯度下降算法可以有效提高逻辑回归的拟合度。( )
A:正确 B:错误 117.梯度下降法需要预先设定学习率,然后通过多次迭代求解最优参数。( )
A:错 B:对 118.次梯度方法是传统的梯度下降方法的拓展,用来处理不可导的凸函数。它的优势是比传统方法处理问题范围大,劣势是算法收敛速度慢。( )
A:错 B:对 119.下列关于感知器算法的说法中错误的是( )
A:在感知器算法中的学习率是可以改变的 B:感知器算法也适用于线性不可分的样本 C:在感知器算法中,如果样本不是线性可分的,则算法最后不会收敛 D:在感知器算法中可以通过调整学习率来减少迭代次数 120.关于K均值算法说法不正确的是( )。
A:使用时需要预先确定聚类的类数 B:K均值算法是基于划分的聚类 C:K均值算法不适用于所有的聚类问题 D:当类中数据集构成凸集时,取得最差的效果 121.一个正例(2,3),一个负例(0,-1),下面哪个是SVM超平面?( )
A:x+2y-3=0 B:2x+y-4=0 C:无法计算 D:2y+x-5=0 122.Logistic回归与多重线性回归比较( )
A:logistic回归的因变量为二分类变量 B:Logistic回归和多重线性回归的因变量都可为二分类变量 C:Logistic回归的自变量必须是二分类变量 D:多重线性回归的因变量为二分类变量 123.下面关于机器学习与深度学习的描述错误的是( )
A:深度学习是多层人工神经网络,典型模型包括卷积神经网络等 B:深度学习是机器学习的一个分支 C:深度学习由人工神经网络演变而来 D:卷积结构是循环神经网络基础结构 124.主成分分析中,各主成分之间( )
A:存在线性关系 B:互不相关 C:相互独立 D:彼此相关 125.关于 L1、L2 正则化下列说法正确的是?( )
A:L1 正则化得到的解更加稀疏 B:L2 正则化技术又称为 Lasso Regularization C:L2 正则化能防止过拟合,提升模型的泛化能力,但 L1 做不到这点 D:L2 正则化得到的解更加稀疏 126.强化学习包含哪些元素?( )
A:Action B:State C:Reward D:Agent 127.以下输入梯度下降法的有:( )
A:丢弃法 B:小批量梯度下降法 C:批量梯度下降法 D:随机梯度下降法 128.主成分分析中可以利用( )求解主成分
A:协方差矩阵 B:Hessian矩阵 C:距离矩阵 D:相关系数矩阵 129.变量选择是用来选择最好的判别器子集, 如果要考虑模型效率,我们应该做哪些变量选择的考虑?( )
A:模型是否具有解释性 B:特征是否携带有效信息 C:交叉验证 D:多个变量是否有相同的功能 130.我们知道二元分类的输出是概率值。一般设定输出概率大于或等于 0.5,则预测为正类;若输出概率小于 0.5,则预测为负类。那么,如果将阈值 0.5 提高,例如 0.6,大于或等于 0.6 的才预测为正类。则准确率(Precision)和召回率(Recall)会发生什么变化? ( )
A:准确率(Precision)增加或者不变 B:准确率(Precision)减小 C:召回率(Recall)增大 D:召回率(Recall)减小或者不变 131.对于划分属性选择,选项中说法正确的是( )
A:选项中说法都不对 B:增益率准则对可取值数目较少的属性有所偏好 C:C4.5算法并不是直接选择增益率最大的候选划分属性,而是先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。 D:信息增益准则对可取值数目较多的属性有所偏好 132.选项中哪种方法可以用来减小过拟合?( )
A:减小模型的复杂度 B:L2 正则化 C:L1 正则化 D:更多的训练数据 133.建立线性模型时,我们看变量之间的相关性。在寻找相关矩阵中的相关系数时,如果发现 3 对变量(Var1 和 Var2、Var2 和 Var3、Var3 和 Var1)之间的相关性分别为 -0.98、0.45 和 1.23。我们能从中推断出什么呢?( )
A:Var1 和 Var2 具有很高的相关性 B:选项中没有正确答案 C:Var3 和 Var1 相关系数为 1.23 是不可能的 D:Var1 和 Var2 存在多重共线性,模型可以去掉其中一个特征 134.集成学习中个体学习器多样性增强的主要途径有:( )
A:数据样本扰动 B:输入属性扰动 C:算法参数扰动 D:输出表示扰动 135.以下哪种方法属于判别式模型(discriminative model)?( )
A:隐马尔可夫模型(HMM) B:朴素贝叶斯判别式模型 C:线性判别分析LDA D:支持向量机 136.有一些基学习器对数据样本的扰动不敏感,称为稳定基学习器。下列学习器属于稳定基学习器的是:( )
A:线性学习器 B:朴素贝叶斯 C:支持向量机 D:神经网络 E:k近邻学习器 137.我们想要训练一个 ML 模型,样本数量有 100 万个,特征维度是 5000,面对如此大数据,如何有效地训练模型?( )
A:对训练集随机采样,在随机采样的数据上建立模型 B:使用 PCA 算法减少特征维度 C:选项中没有正确答案 D:尝试使用在线机器学习算法 138.在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10万条数据,负样本只有1万条数据,以下合适的处理方法是 ( )
A:将负样本每个权重设置为10,正样本权重为1,参与训练过程 B:将负样本重复10次,生成10万样本量,打乱顺序参与分类 C:从10万正样本中随机抽取1万参与分类 D:直接进行分类,可以最大限度利用数据

温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(7) dxwkbang
返回
顶部