1.图片是训练数据集(样本非常少)的快照(属性x、y分别用“+” 和 “o”表示),设定kNN的k=1,那么留一法交叉验证的误差是( ) 
A:0 到 100% B:其余选项均不正确 C:0% D:100%
答案:100%
2.下列哪一项在神经网络中引入了非线性?______( ) 
A:其余选项都不正确 B:卷积函数 C:修正线性单元(ReLU) D:随机梯度下降
答案:修正线性单元(ReLU)
3.BP(反向传播 Back Propagation)算法主要是利用了_________( ) 
A:隐函数求导方法; B:倒数求导法; C:链式求导法则; D:分段函数求导法;
答案:链式求导法则
4.门限循环单元(Gated Recurrent Unit,GRU)是一种比LSTM更加简化的版本。在LSTM中,输入门和遗忘门是互补关系,因为同时用两个门比较冗余。GRU将输入门与和遗忘门合并成一个门:_______( ) 
A:记忆门; B:更新门; C:重置门; D:输出门;
答案:更新门;
5.点击率的预测是一个数据比例不平衡问题(比如训练集中样本呈阴性的比例为99%,阳性的比例是1%),如果我们用这种数据建立模型并使得训练集的准确率高达99%。我们可以得出结论是:( ) 
A:其余选项都不正确 B:无法评价模型 C:模型不好,我们应建一个更好的模型 D:模型的准确率非常高,我们不需要进一步探索
答案:模型不好,我们应建一个更好的模型
6.虽然简单循环网络从理论上可以建立长时间间隔的状态之间的依赖关系(Long-Term Dependencies),但是由于梯度爆炸或消失问题,实际上只能学习到短周期的依赖关系。这就是所谓的__________问题。( ) 
A:中程依赖; B:不依赖; C:短程依赖; D:长期依赖;
答案:长期依赖;
7.前馈神经网络的输入和输出的维数都是__________。( ) 
A:固定的; B:人为按规则选取的; C:随机的; D:会随训练而变化的;
答案:随机的;
8.逻辑回归与多元回归分析有哪些不同?( ) 
A:逻辑回归回归系数的评估 B:逻辑回归有较高的拟合效果 C:其余选项全选 D:逻辑回归预测某事件发生的概率
答案:其余选项全选
9.卷积层虽然可以显著减少连接的个数,但是每一个特征映射的神经元个数并没有显著减少。这样,如果后面接一个分类器,分类器的输入维数依然很高,很容易出现过拟合。为了解决这个问题,在卷积神经网络一般会在卷积层之后再加上一个__________操作。( ) 
A:损失函数加正则化项; B:批规范化 batch normalizatin; C:池化(Pooling); D:增加测试样本数量;
答案:池化(Pooling);
10.卷积神经网络(Convolutional Neural Networks,CNN)是一种前馈神经网络。卷积神经网络是受生物学上_________的机制而提出的。( ) 
A:非线性激活; B:感受野; C:条件反射; D:线性激活;
答案:感受野;
11.SoftMax 回归是Logistic 回归的多类推广,在SoftMax 回归中,机器学习模型预测目标为每一个类别的_____概率。( ) 
A:联合; B:后验; C:条件; D:先验;

12.对于一个语音识别任务(识别用户说的话),下面哪种神经网络可以更好地解决这个问题?( ) 
A:卷积神经网络; B:循环神经网络; C:多层感知机; D:感知机; 13.如果使用sigmoid作为神经网络激活函数,由于在BP算法中,误差从输出层反向传播时,在每一层都要乘以该层激活函数的导数,所以可能会遇到前面层比后面层梯度变化更小且慢得多的情况,这种情况被称为__________。( ) 
A:梯度爆炸; B:梯度消失; C:梯度下降; D:梯度上升; 14.经验风险最小化原则很容易导致模型在训练集上错误率很低,但是在未知数据上错误率很高。这就是所谓的_____。( ) 
A:过拟合; B:正则化; C:欠拟合; D:样本不足; 15.评估模型之后,得出模型存在偏差,下列哪种方法可能解决这一问题:( ) 
A:向模型中增加更多的特征 B:B 和 C C:增加更多的数据 D:减少模型中特征的数量 16.在训练神经网络时,损失函数(loss)在最初的几个epochs时没有下降,可能的原因是?_______( ) 
A:其余选项都有可能 B:陷入局部最大值 C:学习率太低 D:正则参数太高 17.梯度下降算法的正确步骤应该是什么?对于下述的1-5按正确顺序排序 _______(        )1.计算预测值和真实值之间的误差2.重复迭代,直至得到网络权重的最佳值3.把输入传入网络,得到输出值4.用随机值初始化权重和偏差5.对每一个产生误差的神经元,调整相应的(权重)值以减小误差
A:3, 2, 1, 5, 4 B:1, 2, 3, 4, 5  C:4, 3, 1, 5, 2 D:5, 4, 3, 2, 1  18.为了对于LSTM进行简化,提出了一种新的循环神经网络单元,该单元称作:__________单元。( ) 
A:控制; B:门循环; C:长短时记忆; D:简单循环; 19.下列是常见的交叉验证法:a.自助法(bootstrapping)b.留一法(Leave-One-Out)c.5折交叉验证d.2次5折交叉验证样本量为1000时,根据所需的执行时间排列上述四种方法:( ) 
A:b>c>d>a B:b>d>c>a C:d>a>b>c D:a>b>c>d 20.顾名思义,Word2Vec就是把单词转换成向量。它本质上是一种_______的方法。( ) 
A:单词聚类; B:单词分类; C:单词生成; D:单词回归; 21.有监督学习根据输出类型又可以分为回归和分类两类。( )
A:错 B:对 22.过拟合问题往往是由于训练数据少和噪声造成的。( ) 
A:错 B:对 23.牛顿法是用来对函数求根的。( )
A:错 B:对 24.假设在庞大的数据集上使用Logistic回归模型。可能遇到一个问题,logistics回归需要很长时间才能训练。增加学习率,增加迭代次数可以提高训练速度。( )
A:错 B:对 25.泛化错误是和过拟合相对应的一个概念。( )
A:错 B:对 26.对于未标记的训练样本进行学习,以发现这些样本中的结构知识,该学习方法称为:监督学习。( )
A:错 B:对 27.解决非凸优化问题并不是深度学习的难点。( )
A:错 B:对 28.动量法、AdaGrad、AdaDelta是常见的设置学习率的方法。( )
A:错 B:对 29.GRU网络中包含输入门;遗忘门;输出门。( )
A:对 B:错 30.SVM的全称是support vector machine。( ) 
A:错 B:对 31.在梯度下降训练的过程中,在训练样本上收敛的参数,并不一定在测试集上最优。。( )
A:对 B:错 32.Hinge Loss 0-1 损失函数是逻辑回归的损失函数。( ) 
A:对 B:错 33.聚类是一个典型的无监督学习问题。( )
A:对 B:错 34.训练一个支持向量机,除去不支持的向量后仍能分类。( )
A:错 B:对 35.如果自变量和因变量之间高度非线性且关系复杂,那么运用树回归优于经典回归模型。( )
A:错 B:对 36.深度学习是由在计算机上模拟人类神经回路的神经元网络技术发展而来。。( )
A:错 B:对 37.在梯度下降训练的过程中,我们开发集来测试每一次迭代的参数在验证集上是否最优。( )
A:错 B:对 38.在模型训练过程中,进行梯度下降法进行参数更新时,使用学习率这个参数来控制参数变化的快慢。( ) 
A:错 B:对 39.过拟合是有监督学习的挑战,而不是无监督学习。( ) 
A:错 B:对 40.逻辑回归用来做回归任务的。( )
A:对 B:错 41.一个回归模型存在多重共线问题。在不损失过多信息的情况下,你该怎么做:( )
A:移除相关变量可能会导致信息的丢失,为了保留这些变量,我们可以使用岭回归(ridge)或lasso等回归方法对模型进行惩罚 B:移除共线的两个变量 C:移除共线的两个变量其中一个 D:我们可以计算方差膨胀因子(variance inflation factor)来检查存在的多重共线性并采取相应的措施 42.以下哪种方法可以减少数据集中的特征?( ) 
A:根据相关表提出相关性高的特征 B:使用“前向”搜索 C:我们把模型中的所有特征都训练一次,得到测试中模型的精确性。每次取一个特征,对测试数据集的特征值进行清洗,并且对测试数据进行预测,然后评估模型。若模型的精确性提高,则移除次特征。 D:使用“后向”搜索 43.在一个包含5000个特征及超过一百万个观测值的数据集上建立一个机器学习的模型,下面哪种方法能更高效地训练模型?( ) 
A:使用在线学习算法 B:使用支持向量机SVM来建立模型  C:从数据集中随机抽取样本来建立模型 D:使用主成分分析法(PCA)对数据降维 44.下列哪种算法可以用神经网络构建?( ) 
A:K-NN最近邻算法 B:线性回归 C:逻辑回归 D:K-mean聚类算法 45.下列属于常见的池化方式的有:( ) 
A:平均池化; B:最大池化; C:概率池化; D:随机池化; 46.下列属于SVM核函数的有:( ) 
A:logistic核函数; B:线性核函数 C:高斯核函数; D:多项式核函数; 47.L-BFGS的描述中,正确的是( ) 
A:空间消耗相对于BFGS小 B:具备牛顿法收敛速度快的特点 C:不需要存储Hesse矩阵 D:适合大规模的数值计算 48.小明参加某公司的大数据竞赛,他的成绩在大赛排行榜上原本居于前二十,后来他保持特征不变,对原来的模型做了1天的调参,将自己的模型在自己本地测试集上的准确率提升了5%,然后他信心满满地将新模型的预测结果更新到了大赛官网上,结果懊恼地发现自己的新模型在大赛官方的测试集上准确率反而下降了。对此,他的朋友们展开了讨论,下列哪些说法是正确的( ) 
A:小月:早就和你说过了,乖乖使用默认的参数就好了,调参是不可能有收益的 B:小芳:从机器学习理论的角度,这样的情况不应该发生,快去找大赛组委会反应 C:小平:你可以考虑一下,使用交叉验证来验证一下是否发生了过拟合 D:小刚:你这个有可能是由于过拟合导致的 49.下列表述中,在k-fold交叉验证中关于选择K说法正确的是:( ) 
A:在交叉验证中通过均值法来选择K值 B:相对于期望误差来说,选择较大的K会导致低偏差(因为训练folds会变得与整个数据集相似) C:在交叉验证中通过最小化方差法来选择K值 D:较大的K并不总是好的,选择较大的K可能需要较长的时间来评估你的结果 50.下列关于“集成学习”说法错误的是?( ) 
A:个体学习器间相关性较高 B:个体学习器间相关性较低 C:使用“加权平均”而不是“投票法”产生结果 D:个体学习器由相同的学习算法生成 51.下列关于梯度树提升说法正确的是?( )
A:降低拟合个体学习器样本的分数可以降低方差 B:当分裂所需最小样本数增加时,模型拟合过度 C:降低拟合个体学习器样本的分数可以减少偏差 D:当分裂所需最小样本数增加时,模型拟合不足 52.在梯度下降训练的过程中,由于过拟合的原因,在训练样本上收敛的参数,并不一定在测试集上最优。因此,我们使用一个验证集(Validation Dataset)(也叫开发集(Development Dataset))来测试每一次迭代的参数在验证集上是否最优。如果没有验证集,哪几项不适合在训练集上进行:( ) 
A:依次验证; B:随机验证; C:顺序验证; D:交叉验证; 53.下述领域中可以用机器学习来参与解决的为_______。( ) 
A:机器翻译; B:语音识别; C:图像分类; D:视频动作定位; 54.下面哪一项 用决策树法训练大量数据集不会节约时间?( ) 
A:增加树的深度 B:减少树的深度 C:增加学习率 D:减少树的个数 55.下列机器学习的应用中,属于自然语言处理领域的有:( ) 
A:机器翻译; B:目标识别; C:智能问答; D:机器阅读; 56.在一个线性回归模型中增加新的变量,下列说法不正确的是?( ) 
A:R^2和调整的R^2都增大 B:R^2不变,调整的R^2增大 C:R^2和调整的R^2都减小 D:R^2减小,调整的R^2增大 57.在建立线性回归模型时,3对变量(Var1和Var2,Var2和Var3,Var3和Var1)之间的相关性分别为-0.98,0.45和1.23。我们可以从中推断出什么?( ) 
A:由于Var1和Var2之间相关性较高,因此存在多重共线性,应该移除这两个变量 B:Var1和Var2之间相关性较高 C:Var1和Var2之间相关性较低 D:Var3和Var1之间的相关系数为1.23是不可能的 58.关于L1正则和L2正则 下面的说法正确的是( ) 
A:L2正则化有个名称叫“Lasso regularization” B:L2范数可以防止过拟合,提升模型的泛化能力。但L1正则做不到这一点 C:L2正则化标识各个参数的平方的和的开方值。 D:L1范数会使权值稀疏 59.下面对于logistic回归与SVM的分析正确的有:( ) 
A:从目标函数来看,logistic回归采用的是 logistical loss,SVM 采用的是 hinge loss; B:logistic回归和SVM都可以处理分类问题,且一般都用于处理线性二分类问题。但是logistic回归改进后可以处理多分类问题,而SVM不能处理多分类问题; C:SVM 的处理方法是只考虑 support vectors,也就是和分类最相关的少数点,去学习分类器。而逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重; D:两个方法都可以增加不同的正则化项,如 l1、l2 等等; 60.下面不属于过拟合解决方法的有:________。( ) 
A:损失函数加正则化项; B:增加测试样本数量; C:加dropout层; D:批规范化 batch normalizatin;

温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(8) dxwkbang
返回
顶部