- 因为HDFS 有多个副本,所以NameNode 是不存在单点问题的。
- ID3算法的理论基础是信息论中的信息熵和信息增益
- 支持向量机的核函数负责输入变量和分类变量(输出)之间的映射。
- 对于小样本集,支持向量机的分类准确度可能优于其他对样本数量要求比较高的分类算法。
- 在做聚类时,DBSCAN会删掉它认为是噪声点的数据点。
- 多元线性回归的分布实现主要是把训练样本集拆分成数据块,以便Map程序直接计算回归系数。
- 基于内容的推荐和基于协同的推荐都需要领域知识。
- 实施机器学习项目下面说法错误的是哪些?
- 下列选项中,哪两项是可以用于数据采集的技术?
- 以下有关决策树剪枝正确的说法是
- 大数据的业务应用处理需要经过哪些流程?
- Spark适用于那些场景?
- 下面哪个程序负责HDFS 数据存储。
- 大数据时代的到来,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘
- 在一个神经网络里,确定每一个神经元的权重和偏差是重要的一步。如果以某种方法确定了神经元准确的权重和偏差,你就可以近似任何函数。实现这个最佳的办法是什么?
- 以下两种描述分别对应哪两种对分类算法的评价标准?(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。
- 有关冷启动的理解,以下说法错误的是哪个?
- 关于NameNode和Secondary NameNode的说法错误的是
- DBSCAN之所以难以有效处理高维数据,其主要原因是?
- 关联规则可以用枚举的方法产生。
- 如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。
- C4.5算法是一种贪心算法,用来构造决策树,是以信息熵的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。
- DBSCAN能够很好的区分原始数据的形状,但受限于用户指定的参数。
- 频繁闭项集可用来无损压缩频繁项集。
- 对于项集来说,置信度没有意义。
- 决策树是一种简单但是使用广泛的分类器,决策树的优点有?
- 以下哪个步骤是大数据分析与预测所需的预处理工作?
- 下面哪些评测指标可以度量推荐系统的性能?
- 设有项目集X,X1是X的一个子集,则下列结论中成立的是
- 有关过拟合问题的说法正确的是哪些
- 以下有关随机森林算法正确的说法有哪些?
- 以下属于无监督学习的有哪些?
- Hadoop中节点之间的进程通信是通过什么协议来实现的
- 以下决策树说法错误的是哪个
- 在聚类分析中,簇之间的相似性越大,簇内样本的差别越大,聚类的效果就越好
- 误差逆传播算法(Error BackPropagation, 简称BP)是最成功的训练多层前馈神经网络的学习算法。
- 数据预处理包括以下哪几个重要步骤:数据清洗、数据集成、数据转换、数据归约、数据离散化、特征提取、选择和构造
- KNN没有显式的训练过程,是“懒惰学习”的著名代表
- 隐含层和输出层的神经元,都是具有激活函数的功能神经元
- 决策树剪枝的目的是为了减少训练过程的过拟合,从而提升决策树模型的准确性。
- 感知机可以求解那类问题?
- 以下有关传统机器学习算法处理大数据的说法正确的有哪些?
- 以下应用使用你的地理位置信息的是?
- 关联规则的评价度量主要有哪些?
- 关于Hadoop下列说法正确的是
- 有关决策树对大数据的处理,以下说法正确的是哪些?
- 传统神经网络主要分为以下哪几类?
- 以下有关机器学习理解不正确的是哪个?
- 当采用K-距离的方法选择DBSCAN的Eps和MinPts参数时,如果设置的K的值太大,则小簇(尺寸小于K的簇)可能会被标记为
- 假设属性income的最大最小值分别是1200元和9800元。利用最大最小归一化的方法将属性的值映射到0至1的范围内。属性income的6630元将被转化为?
- DBSCAN算法的过程是以下哪个?① 删除噪声点。② 每组连通的核心点形成一个簇。③ 将所有点标记为核心点、边界点和噪声点。④ 将每个边界点指派到一个与之关联的核心点的簇中。⑤ 为距离在Eps之内的所有核心点之间赋予一条边。
- Apriori算法的加速过程依赖于以下哪个策略
- 在Spark的软件栈中,用于机器学习的是?
- 下面哪个回归分析的说法是正确的?
- 传统的机器学习方法包括监督学习、无监督学习和半监督学习,其中监督学习是学习给定标签的数据集。请问标签为离散的类型,称为分类,标签为连续的类型,称为什么?
- 下面有关神经网络梯度消失说法错误的是
- 学习没有标签的数据集的机器学习方法是?
- 建立一个模型,根据已知的多个变量值来预测其他某个变量值属于数据挖掘的哪一类任务?
- mapreduce计算模型适用于哪种任务?
- 逐步判别法的基本思想是:逐步引入变量,每次引入一个"最重要"的变量,同时也检验先前引入的变量,如果先前引入的变量其判别能力随新引入变量而变不显著,则及时将其从判别式中剔除,直到判别式中的变量都很显著,且剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束。
- 随机森林中的决策树之间是没有关联的,当测试数据进入随机森林时,其实就是让每一颗决策树进行分类看看这个样本应该属于哪一类,最后取所有决策树中分类结果最多的那个类作为最终的结果(每棵树的权重需要考虑进来)。
- NoSQL数据库作为非关系型数据库,能够用来存储结构化和非结构数据。
- SSE在无监督的簇评估中能起到很好的作用。
- 逻辑回归方法的可解释性强,可控性高,并且训练速度快,特别是经过特征工程之后效果更好。
- 业务监控是指组织应用数据仓库、商业智能技术和工具来监控组织的业务绩效。
- 过拟合是因为训练样本太多了,把训练样本的规律都拟合进去了,因此检测样本的准确率也很高。
- 信息熵值越小,当前样本集合D 的纯度越小,属于同一类别的可能性越大
- 知识图谱是知识的一种表示方法,其中通过丰富语义形成了概念、实体和属性的网络关系。
- DBSCAN会把所有点划分到各自的簇中。
- 根据患者的视网膜图像等相关医疗信息,使用机器学习算法进行建模,预测患者患糖尿病的可能性。这个任务需要无监督的机器学习算法。
- 对于同样的样本集,Apriori算法的速度要比FP增长算法慢一些,但前者获得的关联规则比后者全面。
- BP神经网络模型拓扑结构包括以下哪些?
- 机器学习的预测建模任务主要包括哪几大类方法?
- 关于神经网络的相关概念,说法错误的是哪些?
- 下列说法正确的是哪些?
- 随机森林的优点有哪些?
- 训练分类机器学习模型时需要避免过拟合和欠拟合的问题,关于这些问题以下说法错误的是
- 下列选项中,是用于数据存储的技术有哪些?
- 以下哪个属于大数据在电信行业的数据商业化方面的应用?
- 以下属于监督学习是哪些?
- 以下有关协同推荐说法正确的是哪些?
- 有关推荐系统的组成,正确的说法有哪些?
- 以下有关推荐系统评估的说法,正确的是哪些?
- 下面有关各类推荐算法的理解,正确的有哪些?
- 大数据可以被应用到的行业有?
- 下面哪个针对MapReduce的说法是错误的?
- 自然语言处理难点目前有四大类,下列选项中不是其中之一的是?
- HDfS 中的block 默认保存几份?
- “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应()、高增长率和多样化的信息资产。
- BP神经网络的学习规则是?
- 以下不是大数据特征的是?
- 下面有关聚类算法的分布式实现说法错误的是哪个?
- 人工智能、机器学习、深度学习的包含关系是?
- 组织利用数据,分析和洞察力来改变它的业务模式或业务转型,这属于大数据应用成熟度的哪一个阶段?
- 置信度(confidence)是衡量兴趣度度量( )的指标。
- 有关基于关联规则的推荐的说法,错误的是哪个?
- 梯度下降算法的正确步骤是什么?1. 计算预测值和真实值之间的误差2. 迭代更新,直到找到最佳权重3. 把输入传给网络,得到输出值4. 初始化随机权重和偏差5. 对每一个产生误差的神经元,改变相应的(权重)值以减小误差
- 有关数据质量正确的说法是哪个?
- 人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,请问它的英文缩写是?
- 以下的决策树哪个是二叉树?
- 如果处理以下形状的数据时,适宜采用DBSCAN的是?
- 整个MapReduce的过程大致分为Map、Shuffle、Combine和以下哪个?
- 在数据量一定的情况下,MapReduce是一个线性可扩展模型,请问服务器数量与处理时间是什么关系?
- HDFS适用于哪些场景?
- Spark是基于什么的迭代计算框架?它适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小
- 关于RDD,说法正确的两项是?
- Yarn架构在Hadoop生态圈中有哪些作用?
- Spark Streaming是什么软件栈中的流计算?
- HBASE的特点不包括哪两项?
- 下列选项中,不是kafka适合的应用场景是?
- NoSQL数据库具有以下哪几个特点?
- 有关可视化分析错误的说法有哪些?
- 可视化分析的说法正确的是哪一个?
- 有关可视化分析与其他机器学习方法的关系,错误的说法是哪一种?
- 有关可视化分析的方法,下面错误的说法是哪种?
- 下面哪种可视化方法比较适合聚类分析?
- 在线教学学生行为的分析中,下面哪个选项不是可视化的作用?
- 标签云是图像数据常用的可视化方法
- 在可视化分析的应用过程中,最终用户抱怨没有看到有用的信息,可能的原因有以下哪些?
- 有关箱(线)图的说法,正确的是哪些?
- 以下有关可视化方法作用的说法,正确的有哪些?
- 下面哪种方法是文本特征获取的方法?
- 下面有关文本分析正确的说法是哪些?
- 下面哪个选项不是文本分析的组成?
- 有关文本特征的理解,错误的说法是哪个?
- 面关于词法分析的描述中,正确的说法有哪些?
- 使用基于统计的方法进行特征选择、分词等分析都对语料库的要求比较高。
- 有关文本分析的说法,正确的是哪些?
- 下面哪些算法不能用于文本的分词?
- 下面有关向量空间模型(VSM)的描述中,错误的是哪个?
- 以下有关文本分词的说法正确的是哪个?
- 基于邻近度的异常检测算法的局限性有哪些?
- 异常检测(Anomaly detection)是发现与大部分其他对象不同的对象,所以又成为离群点检测
- 以下哪个场景用到基于统计方法的异常检测?
- 下面这些场景中哪些用到异常检?
- 基于统计方法的异常检测有以下哪些局限性?
- 常用的异常检测算法有哪些?
- 在基于邻近度的方法中,离群点的定义不包括以下哪个?
- 下面哪个是基于密度的方法算法的局限性?
- 数据分析任务通常是去掉离群点,离群点是没有意义的点
- 高维空间里,数据是稀疏的,我们会用到以下哪种异常检测的方法
- 假设{花生,啤酒,可乐,牛奶}项目集的支持度大于最小支持度,请问下面哪些项目集的支持度一定能达到最小值支持度要求?
- 下面哪个通常不是关联算法的应用领域?
- 以下哪种情景最不适合用关联分析?
- 关联规则中前向和后项存在因果关系才能投入使用。
- 关联规则是有方向的,A->B与B->A的支持度相同,它们的置信度也相等。
- 在频繁项目集的分析过程中,以下说法哪种是正确的?
- 以下有关关联算法错误的说法是哪个?
- 以下哪些领域可比较适合使用关联分析?
- 以下有关关联分析的说法,正确的是哪些?
- 有关Apriori算法和FP-增长算法,正确的说法有哪些?
- 有关聚类的算法,正确的说法有以下哪些?
- 对于Kmeans而言,不同的初始聚类中心选择可能导致不同的聚类结果。
- 根据用户使用移动运营商的数据,可以为他们设计合适的套餐,使用哪种挖掘方法比较合适?
- 以下哪些数据的特征会对聚类有影响?
- 有关聚类算法不正确的说法是?
- 在kmeans的训练过程中,可以选择不同的k值,比较使绝对误差标准较小的k值,结合聚类业务的可解释性,从而选择合适的k值。
- 对联通客户进行分组,以便根据各组的特点,策划不同的营销方案,需要客户哪些数据?
- 聚类是一类重要的机器学习算法,以下哪些场景不属于聚类问题?
- 有关k-means下列说法正确的是?
- 减少神经网络过拟合可以通过增加网络的神经元个数或层数解决。
- 神经网络由许多神经元(Neuron)组成,下列关于神经元的陈述中哪一个是正确的?
- 下面关于感知机的说法中正确的是?
- 有关前馈神经网络的认识正确的是?
- 以下关于人工神经网络(ANN)的描述正确的说法是?
- 有关神经网络训练时使用的学习率参数说法正确的是
- 在一个神经网络里,确定每一个神经元的权重和偏差是模型拟合训练样本的目标,比较有效的办法是什么?
- BP神经网络在训练过程中,损失函数可能比较大,但随着训练的进行,损失函数基本不变化了,这种现象说明神经网络陷入全局最优解
- 在神经网络训练中,有关学习率调整说法错误的是?
- 激活函数通过具有以下哪些性质?
- 以下哪个指标不能用于决策树的性能评价指标?
- 以下哪些不是贝叶斯网络的应用场景?
- 以下哪个算法不是基于规则的分类器 ?
- 如果发现决策树模型的检验结果达不到要求,可以执行下面哪些方法进行改进?
- 有关决策树的说法哪个是错误的?
- 下面有关支持向量机错误的说法是?
- 下面有关线性判别分析错误的说法是哪个?
- 如果从员工的日常表现数据预测其升职的可能性可以使用下面哪种机器学习方法?
- 下面有关随机森林的说法哪个是错误的?
- 有关决策树与特征工程的关系,以下说法错误的是?
- 特征选择的目标有哪些?
- 以下哪几个是数据归约的策略?
- 下面不属于创建新属性的相关方法的是
- 以下哪些是数据离散化技术?
- 下面哪种不属于数据预处理的方法?
- 以下哪种方法不属于特征选择的标准方法
- 下面哪个步骤不属于数据预处理的过程?
- 特征选择算法一般分为那几类?
- 数据清洗包括以下哪几个方面?
- 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?
- 组织通过销售数据或洞察以创造新的收入来源,这属于大数据应用成熟度的哪一个阶段?
- 有关数据质量的认识正确的是?
- 大数据分析的预测建模任务主要包括哪几大类问题?
- 根据患者的视网膜图像等相关医疗信息,使用机器学习算法进行建模,预测患者患糖尿病的可能性。这个任务需要以下使用哪一类机器学习算法?
- NoSQL数据库作为非关系型数据库,只能够用来存储非结构数据。
- 下列哪些分析需要机器学习?
- 以下哪些情景可以使用大数据分析与预测建模技术?
- 下面有关机器学习正确的说法是?
- 如果以药品B来代替药品A的使用,那么这个病人生存的几率有多大?这种分析属于
- 有关大数据分析与预测的过程认识正确的是?
答案:错
答案:对
答案:对
答案:对
答案:对
答案:错
答案:错
答案:做机器学习项目一劳永逸,不必考虑数据的更新。###可以直接使用同类公司机器学习的结果。###需求只要由用户给定就行了。
答案:Kafka###Flume
答案:预剪枝可能导致欠拟合,因此要通过训练样本检验确定合适的树深度。###预剪枝是在节点分枝前确定是否要继续树增长,可以比较分枝前后的准确率确定。
答案:数据采集###数据加工###数据清洗###数据建模
温馨提示支付 ¥5.00 元后可查看付费内容,请先翻页预览!