1.关于回归,下列说法正确的是:( )
A:回归的目的是发现变量间的关系; B:回归是有监督学习; C:可以使用残差平方和来衡量回归模型的好坏。 D:回归可以用来进行预测;
答案:回归是有监督学习;; 回归可以用来进行预测;; 回归的目的是发现变量间的关系;; 可以使用残差平方和来衡量回归模型的好坏。
2.下面哪些任务可以用神经网络解决( )
A:语音识别 B:分辨图片中的手写数字 C:检测出图片中的汽车,并标出位置 D:工业过程软测量
答案:分辨图片中的手写数字###工业过程软测量###检测出图片中的汽车,并标出位置###语音识别
3.PCA和CCA的相同点包括( )。
A:都考虑了变量的相关性信息 B:都基于变量的线性变换 C:都可视为一种降维技术 D:都是一种多元统计分析方法
答案:都考虑了变量的相关性信息###都是一种多元统计分析方法###都基于变量的线性变换###都可视为一种降维技术
4.下列哪些任务会使用多对一的RNN结构?( )
A:情感分类(输入一段文字,输出0或1表示正面或负面情绪) B:图像分类(输入一张图片,输出对应标签) C:语音识别(输入语音,输出文本) D:人声识别(输入语音,输出说话人的性别)
答案:情感分类(输入一段文字,输出0或1表示正面或负面情绪); 人声识别(输入语音,输出说话人的性别)
5.关于偏最小二乘回归,下列说法正确的是:( )
A:偏最小二乘回归适用于样本数少于变量数的情况; B:使用迭代求解的方法依次求取潜变量。 C:偏最小二乘提取潜变量时只考虑了X的信息; D:偏最小二乘求取潜变量时要求两潜变量的协方差最大;
答案:偏最小二乘回归适用于样本数少于变量数的情况###使用迭代求解的方法依次求取潜变量
6.一般来说,对样本数据进行降噪的主要目的有哪两方面( )。
A:获得不含噪声的数据 B:去除数据中包含的噪声 C:能使用一种复杂的算法训练模型 D:节约数据的存储空间
答案:去除数据中包含的噪声###获得不含噪声的数据
7.决策树的结点有哪些类型( )
A:外部结点 B:内部结点 C:根节点 D:叶子结点
答案:根节点###内部结点###叶子结点
8.聚类算法可以从( )的角度对数据进行聚类。
A:数据的数量级 B:样本 C:变量 D:其余选项三点均不是
答案:样本###变量
9.多元统计分析的简单指标有( )
A:方差 B:协方差 C:均值 D:相关系数
答案:均值###方差###协方差###相关系数
10.以下哪些属于大数据的特点( )。
A:类型多 B:速度快 C:体量大 D:价值低
答案:体量大; 类型多; 速度快
11.自编码器又哪两部分组成( )。
A:解码器 B:自回归器 C:自预测器 D:编码器

12.目前工业领域大数据碰到的困难包括( )。
A:工业对象个性化差异明显,模型也很难直接迁移 B:工业大数据应用时对精度要求低 C:工业数据标签难获得 D:工业大数据维度高、质量低 13.欧氏距离的不足是( )。
A:不具备明确的物理意义 B:不能体现各变量之间的相关性 C:不能体现各变量在波动幅度上的不同 D:计算相对简单 14.随机森林的基本思想包含( )
A:随机子空间方法 B:迭代优化思想 C:Boosting集成学习理论 D:Bagging集成学习理论 15.可以作为K均值聚类算法迭代终止条件的有( )
A:最大迭代次数 B:类中心不再改变 C:类别个数不再改变 D:聚类结果不再改变 16.以下哪些选项是降维处理的目的?( )
A:增加计算效率 B:降低存储要求 C:降低数据维度 D:提高计算精度 17.会对K均值聚类算法结果产生影响的因素有( )
A:类别个数 B:迭代终止条件 C:样本顺序 D:初始类中心位置 18.变分自编码器的两个组成部分是( )
A:生成器 B:解码器 C:判别器 D:编码器 19.随机森林的模型泛化误差界由( )确定
A:训练数据的质量 B:单棵树的分类强度 C:训练数据的数量 D:树间的相关性 20.你觉得为什么使用卷积神经网络处理心电图( )。
A:卷积神经网络相比其他方法能够捕捉更多细节信息 B:心电图中心电数据也是一种时间序列数据 C:心电图中不同导联数据有相关性 D:心电图也是一种图 21.多元统计分析的研究内容包括( )
A:归类问题 B:多元统计分析的理论基础 C:多元数据的统计推断 D:分析变量间的相互依赖关系 E:降维问题 22.简单相关系数描述两组变量的相关关系的缺点包括( )
A:只是孤立考虑单个X与单个Y间的相关,没有考虑X、Y变量组内部各变量间的相关。 B:没有从整体上刻画相关性。 C:抓不住重点 D:两组间有许多简单相关系数,使问题显得复杂。 23.多元数据的统计推断包括( )
A:多元数据的特征值分解 B:多元数据统计量分布推导 C:多元正态分布的协方差阵的估计和假设检验 D:多元正态分布的均值向量的估计和假设检验 24.下列哪些是神经网络中的“超参数”?( )
A:神经网络层数 B:隐藏层神经元个数 C:迭代次数 D:学习率 25.自编码器的编码与解码部分可以使用下列哪些结构( )。
A:MLP B:CNN C:RNN D:GCN 26.用决策树训练一个分类器模型,树的每个叶子结点代表了( )信息
A:无实际意义 B:样本数量 C:变量数量 D:分类标签 27.异常值处理的3σ准则中,σ的含义为( )
A:原始数据的方差 B:原始数据的标准差 C:正态分布的方差 D:正态分布的标准差 28.如果想减少变分自编码器生成样本的不确定性,可以使用下列哪种方法( )
A:增大隐变量先验分布的方差 B:减小隐变量先验分布的方差 C:增大变分下界中KL散度的权重 D:减少训练的迭代次数 29.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( )
A:频繁模式挖掘 B:数据流挖掘 C:分类和预测 D:数据预处理 30.以下哪个选项不是异常值处理的好处( )
A:减小数据噪声 B:降低模型应用时的危险性 C:提升分析结果准确性 D:便于观察数据分布 31.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )
A:隐马尔可夫链 B:分类 C:聚类 D:关联分析 32.你有63*63*16的输入,有32个卷积滤波器进行卷积,卷积核的大小为7*7,步幅为1,要想输出的feature map大小仍为63*63,请问pad的值是多少?( )
A:3 B:2 C:7 D:1 33.变分自编码器中衡量分布之间差异的指标是( )。
A:JS散度 B:KL散度 C:Wasserstein距离 D:交叉熵 34.当数据各个变量的方差差异较大时,采用哪种距离定义方法相对来说更合适:( )。
A:曼哈顿距离 B:欧式距离 C:切比雪夫距离 D:马氏距离 35.监督算法和无监督算法的区别是( )。
A:数据是否有训练标签 B:是否是软划分 C:是否需要事先设定类别个数 D:是否通过统计特性去训练数据 36.数据挖掘的首要步骤是( )
A:数据清洗 B:数据标准化 C:异常值处理 D:缺失值处理 37.以下哪一项在神经网络中引入了非线性( )
A:随机梯度下降 B:卷积 C:Sigmoid激活函数 D:其余选项都不正确 38.对数据进行归一化操作,( )影响典型相关分析的结果
A:不会 B:会 C:可能会 39.关于多重共线性,下列说法错误的是。( )
A:主元回归可以一定程度上解决多重共线性带来的问题 B:增加样本容量可以消除多重共线性 C:岭回归可以缓解多重共线性带来的影响 D:多重共线性是指变量间存在很强的线性关系 40.什么情况下协方差与相关系数相等( )
A:变量均值为1 B:变量均值为0 C:变量标准差为0 D:变量标准差为1 41.贝叶斯是一种有概率描述的判别方法,使用( )进行判别。
A:后验概率 B:后验结果 C:先验结果 D:先验概率 42.训练过程中对隐层特征施加高斯分布约束的自编码器是( )。
A:变分自编码器 B:所有自编码器 C:稀疏自编码器 D:降噪自编码器 43.下列关于FDA和贝叶斯判别方法的说法错误的是( )。
A:对于具有p个变量的样本集合,FDA最多能将其降维至p-1维 B:FDA不擅于处理线性不可分的数据 C:FDA适用于处理数值型数据, D:贝叶斯判别方法适用于处理离散型数据 44.下列哪个操作能实现信息浓缩( )
A:数据清洗 B:数据降维 C:数据标准化 D:数据采集 45.在双盲降噪自编码器实现降噪一节中,编码器中包含RNN和一维卷积,你觉得这么设计的初衷是什么( )。
A:因为所处理的数据是时序数据 B:因为RNN模型、一维卷积模型足够通用 C:因为这两个模型工程上容易实现 D:因为RNN模型、一维卷积模型提取的特征适合用PCA处理 46.通过CCA计算得到的变量组间的第一对典型相关系数较两组变量间任一个简单相关系数之绝对值都( )
A:相等 B:不一定 C:大 D:小 47.随机森林通过( )提高性能
A:提高方差 B:提高偏差 C:降低方差 D:降低偏差 48.对于主元分析,下列说法错误的是( )
A:提取出的潜变量一定适合对Y进行回归 B:目标函数要求从X中提取出的潜变量对原数据的重构误差最小 C:提取出的潜变量相互正交 D:目标函数要求从X中提取出的潜变量方差最大 49.良好的特征工程有利于提升模型的整体效果( )
A:错 B:对 50.GMM中各高斯元的权重之和为1。( )
A:错 B:对 51.CCA算法广泛的应用于数据相关度的分析,同时还是偏最小二乘法的基础( )
A:对 B:错 52.循环神经网络具有记忆功能( )
A:对 B:错 53.聚类分析可以看作是一种非监督的分类。( )
A:错 B:对 54.变分自编码器的推导过程使用了样本的独立同分布假设,因此不能直接处理具有时序相关性的流数据( )
A:对 B:错 55.在聚类分析中,当聚类的数据量纲差异较大时,应先对数据进行标准化以消除计量单位对结果的影响。( )。
A:错 B:对 56.样本的顺序会影响K均值聚类算法的结果。( )
A:对 B:错 57.在机器学习模型中,需要通过训练学习到的的参数称为超参数。( )
A:对 B:错 58.数据归一化没有实际意义。( )
A:错 B:对 59.典型相关是研究两组变量之间相关性的一种统计分析方法。但不能把它当成一种降维技术( )
A:对 B:错 60.典型相关分析适用于分析由多变量组成的变量组之间的相关性( )
A:错 B:对 61.大数据时代中,相关关系不再那么重要,更注重因果关系。( )
A:对 B:错 62.决策树需要从根节点到叶子结点一层一层构建。( )
A:对 B:错 63.可以借助拉格朗日乘数来求解典型相关分析问题( )
A:对 B:错 64.随机森林中树的数量对整体性能影响不大。( )
A:错 B:对 65.主成分分析能够提升数据挖掘的效果。( )
A:对 B:错 66.回归分析就是研究自变量和因变量之间的关系。( )
A:对 B:错 67.堆栈自编码器得网络层在训练过程中是依次训练的。( )
A:错 B:对 68.特征工程就是建立神经网络模型结构的过程( )
A:对 B:错 69.图像经过卷积之后,尺寸一定会变小( )
A:错 B:对 70.决策树的模型可解释性较差。( )
A:错 B:对 71.主成分分析可以用于降维。( )
A:错 B:对 72.岭回归通过引入二次项参数作为正则惩罚项,起到了放大参数,降低误差的作用。( )
A:错误 B:正确 73.用一个线性SVM分类器用来处理二分类问题,随意移动支持向量以外的点,对分类结果会有影响。( )
A:错 B:对 74.增大卷积核的大小一定会提高卷积神经网络的性能。( )
A:错 B:对 75.主成分从数学角度来说就是方差最大且相互正交的投影方向上的信息。( )
A:对 B:错 76.池化层实际上是一种形式的降采样( )
A:对 B:错 77.自编码器的编码器与解码器只能使用多层感知机(MLP)。( )
A:错 B:对 78.随机森林是基于Bagging算法提出的。( )
A:对 B:错

温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(3) dxwkbang
返回
顶部