提示:内容已经过期谨慎付费,点击上方查看最新答案
大数据分析与预测技术
- 关于NameNode和Secondary NameNode的说法错误的是
当采用K-距离的方法选择DBSCAN的Eps和MinPts参数时,如果设置的K的值太大,则小簇(尺寸小于K的簇)可能会被标记为
- 人工智能、机器学习、深度学习的包含关系是?
- 自然语言处理难点目前有四大类,下列选项中不是其中之一的是?
- 以下决策树说法错误的是哪个
- DBSCAN之所以难以有效处理高维数据,其主要原因是?
- 在Spark的软件栈中,用于机器学习的是?
- 有关基于关联规则的推荐的说法,错误的是哪个?
- DBSCAN算法的过程是以下哪个?① 删除噪声点。
② 每组连通的核心点形成一个簇。
③ 将所有点标记为核心点、边界点和噪声点。
④ 将每个边界点指派到一个与之关联的核心点的簇中。
⑤ 为距离在Eps之内的所有核心点之间赋予一条边。 - 大数据分析将出现革命性的新方法,从前的很多算法和基础理论可能会产生理论级别的突破。而哪项技术将继续成为大数据智能分析的核心技术?
- mapreduce计算模型适用于哪种任务?
- 大数据时代的到来,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘
- 以下的决策树哪个是二叉树?
- Apriori算法的加速过程依赖于以下哪个策略
- 如果处理以下形状的数据时,适宜采用DBSCAN的是?
- BP神经网络的学习规则是?
- 机器学习的预测建模任务主要包括哪几大类方法?
- 设有项目集X,X1是X的一个子集,则下列结论中成立的是
- 训练分类机器学习模型时需要避免过拟合和欠拟合的问题,关于这些问题以下说法错误的是
- Spark适用于那些场景?
- 传统神经网络主要分为以下哪几类?
- 关联规则的评价度量主要有哪些?
- 下列说法正确的是哪些?
- 下列选项中,是用于数据存储的技术有哪些?
- 自然语言处理包括以下哪些?
- 有关可视化分析的方法,下面说法正确的有哪些?
- 下面哪些评测指标可以度量推荐系统的性能?
- 大数据的业务应用处理需要经过哪些流程?
- 有关决策树对大数据的处理,以下说法正确的是哪些?
- 关于训练样本的描述中,正确的是哪些?
- 支持向量机的核函数负责输入变量和分类变量(输出)之间的映射。
- DBSCAN会把所有点划分到各自的簇中。
- 误差逆传播算法(Error BackPropagation, 简称BP)是最成功的训练多层前馈神经网络的学习算法。
- 在做聚类时,DBSCAN会删掉它认为是噪声点的数据点。
- 决策树剪枝的目的是为了减少训练过程的过拟合,从而提升决策树模型的准确性。
- 基于内容的推荐会遇到用户数据稀疏问题和新用户问题。
- 过拟合是因为训练样本太多了,把训练样本的规律都拟合进去了,因此检测样本的准确率也很高。
- 基于内容的推荐和基于协同的推荐都需要领域知识。
- 如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。
- 在聚类分析中,簇之间的相似性越大,簇内样本的差别越大,聚类的效果就越好
- 信息熵值越小,当前样本集合D 的纯度越小,属于同一类别的可能性越大
- 朴素贝叶斯分类器对于小样本数据集效果不如决策树好。
A:协议的容器是jetty B:NameNode上实现的NamenodeProtocol用于二者命令通信 C:数据的通信使用的是ftp协议 (http协议) D:数据通信使用的是http协议
答案:错误AI参考:关于NameNode和Secondary NameNode的说法错误的是C:数据的通信使用的是ftp协议(http协议)。在Hadoop中,NameNode和Secondary NameNode之间的数据通信是通过Hadoop文件系统(HDFS)的RPC协议进行的,而不是使用ftp或http协议。NameNode是HDFS的中央管理器,负责管理文件系统的元数据,如文件和目录的权限、位置信息等。Secondary NameNode的主要作用是定期从NameNode那里收集和验证文件系统的元数据,以检测NameNode的错误。因此,ABD选项都是正确的。'
A:边界簇 B:核心簇 C:其他选项都不对 D:噪声
答案:密度阈值AI参考:答案:D:噪声。K-距离的方法选择DBSCAN的Eps和MinPts参数时,如果设置的K的值太大,意味着较大距离的点会被认为在同一个簇内,这可能会导致一些小的簇(尺寸小于K的簇)被错误地标记为噪声(D选项)。核心簇(B选项)指的是被核心点(即密度足够高的点)连接的所有点所形成的簇,边界簇(A选项)则是位于核心点和噪声点之间的簇。因此,C选项和其他选项都不对。'
A:人工智能>机器学习>深度学习 B:人工智能>深度学习>机器学习 C:机器学习>深度学习>人工智能 D:深度学习>人工智能>机器学习
答案:对AI参考:正确选项是【B:人工智能>深度学习>机器学习】。人工智能是一个广泛的领域,包括机器学习、深度学习等子领域。机器学习是人工智能的一个分支,它通过使用算法和统计学方法使计算机自主地学习和改进。深度学习是机器学习的一个子领域,它使用神经网络和深度学习算法来处理和解释数据,以实现更高的性能和准确性。因此,人工智能>深度学习>机器学习。'
A:语境 B:语言歧义性 C:机器性能 D:知识依赖
答案:机器性能;机器性能
A:相对于神经网络,决策树可解释性好,而且训练效率高。 B:决策树的过拟合时因为树的深度比较大引起,因此可以限制分支的最小样本数或控制树的深度解决。 C:决策树中没有出现的属性是对分类无用的。 D:决策树算法对样本的噪声非常敏感,少数噪声可能引起决策树的很大变化。
答案:决策树的深度越大越好AI参考:正确答案是C:决策树中没有出现的属性是对分类无用的。决策树是一种基于树形结构的分类算法,其优点是可解释性好、训练效率高,缺点是对噪声敏感,容易过拟合。在决策树中,如果一个属性在决策树中没有出现,并不代表它对分类无用,而是因为它在数据集中出现的概率太低,不足以影响决策树的分类结果。因此,选项C的说法是错误的。其他选项A、B、D都是关于决策树的正确说法。'
A:簇的大小未知 B:数据的形状太复杂 C:开销过大 D:噪声点过多
A:Spark Streaming B:GraphX C:Mllib
A:基于关联规则的推荐主要是基于相似客户群体的推荐。 B:关联推荐是一种基于物品之间因果关系的推荐方法。 C:关联规则用于推荐实质上是一种基于用户的协同推荐。 D:关联规则的推荐算法常用的有Apriori和FP树增长等算法。
A:①②④⑤③ B:③①⑤②④ C:③①②④⑤ D:①④⑤②③
A:智能终端 B:智能物流 C:机器学习 D:脑科学
A:实时数据变化处理 B:有关联的行处理 C:多线程处理 D:批处理
A:C4.5 B:Bayes Network C:K-means D:Apriori
A:CART B:ID3 C:C4.5 D:CHAID
A:并行 B:缓冲 C:抽样 D:剪枝
A:椭球形 B:SS形 C:球形 D:方形
AI参考:正确选项是【C:球形】。DBSCAN是一种基于密度的聚类算法,它能够发现任何形状的簇,但是对噪声敏感。对于球形数据,由于其空间分布较为均匀,不容易出现局部密集的情况,因此更适合使用DBSCAN进行聚类。而椭球形、SS形和方形等其他形状的数据,由于其空间分布不均匀或者存在局部密集的情况,可能会影响DBSCAN的效果。因此,在处理球形数据时,DBSCAN的效果会更好。'
A:梯度下降法 B:梯度提升法 C:梯度上升法 D:梯度曲线法
A:神经网络 B:回归分析 C:决策树 D:模式发现
A:如果X1是频繁项目集,则X也是频繁项目集; B:如果X是频繁项目集,则X1也是频繁项目集; C:如果X是非频繁项目集,则X1也是非频繁项目集; D:如果X1是非频繁项目集,则X也是非频繁项目集;
A:复杂的模型时容易发生欠拟合问题 B:正则化方法可以减少过拟合问题 C:神经网络不会出现过拟合问题 D:增加数据量不能减少过拟合问题
A:系统业务受理 B:数据量大 C:计算量大 D:效率要求高
A:反馈型神经网络 B:自组织神经网络 C:反向传播 D:前馈型神经网络
A:提升度 B:支持度 C:置信度 D:准确度
A:噪声和异常是数据错误这一相同表述的两种叫法。 B:离散属性总是具有有限个值。 C:离群(异常)点可以是合法的数据对象或者值。 D:定量属性可以是整数值或者是连续值。
AI参考:正确选项是:A:噪声和异常是数据错误这一相同表述的两种叫法。C:离群(异常)点可以是合法的数据对象或者值。解释:B选项描述不准确,离散属性可能存在无限多个值。D选项也不完全准确,虽然定量属性常常是连续的,但是有些数据集的定量属性也可能是整数或浮点数。但是噪声和异常的确常常被用来描述数据中的问题,它们可以用来指示可能的数据错误或不一致。所以,选项A和C是正确的。'
A:HDFS B:MongoDB C:Java D:MySQL
A:句法分析 B:词法分析 C:语义分析 D:机器翻译
AI参考:正确选项为:ABCD。自然语言处理包括句法分析、词法分析、语义分析以及机器翻译等多个方面。句法分析是将自然语言转化为语法结构的形式,词法分析是将自然语言分解成单词和短语,语义分析是对单词和短语的意义进行分析和理解,机器翻译则是将一种自然语言翻译成另一种自然语言。因此,所有选项都正确。'
A:可视化分析有多种图形可供选择,每种图形只适用某些场合。 B:可视化只是表格数据的另一种简单呈现。 C:错误的数据如果不进行处理,可能会影响可视化分析的结果质量。 D:可视化分析在分析前,对数据进行一定的变换,可能会提升分析结果的有用性。
AI参考:有关可视化分析的方法,以下说法正确的有:C:错误的数据如果不进行处理,可能会影响可视化分析的结果质量;D:可视化分析在分析前,对数据进行一定的变换,可能会提升分析结果的有用性。解释:A选项说法过于绝对,并非每种图形只适用于某些场合;B选项,可视化不仅仅是对表格数据的简单呈现,它还可以用于数据挖掘、趋势预测等领域。因此,A和B选项不正确。而C和D选项则较为准确地描述了可视化分析的一些重要方面。错误的数据如果不进行处理可能会影响分析结果的质量,而通过对数据进行一定的变换可能会提升分析结果的有用性。'
A:推荐结果的新颖性 B:用户调查满意度 C:平均绝对误差(MAE) D:覆盖率
A:数据建模 B:数据采集 C:数据清洗 D:数据加工
AI参考:正确选项是:A:数据建模,C:数据清洗,D:数据加工。大数据的业务应用处理需要经过数据采集、数据清洗、数据建模和数据加工等流程。其中,数据采集是从数据源获取数据的过程;数据清洗是对采集回来的数据进行去重、转换、整合等处理,以消除噪声、错误或冗余数据;数据建模是根据业务需求,对数据进行分类、聚类等操作,以构建相应的模型;数据加工是对数据进行转换、整合、提取等操作,以满足业务需求。因此,选项A、C和D都是正确的。而选项B虽然也是大数据处理流程中的一环,但数据采集通常是在数据建模和数据加工之前进行的,因此不是最佳答案。'
A:通过对决策表的每个字段进行数据分片(然后每个字段再按照记录分片),可以实现决策树重要分枝属性的选择。 B:可以对决策表的样本进行划分,并行计算每个分片数据各种属性取值对应的类别个数,从而可以合并这些数据得到某个属性在整个数据集的重要性度量。 C:决策树的分布式学习可以借助MapReduce计算框架。 D:决策树对大数据的处理只能采用批处理的算法。
A:如果模型性能不佳,可增加样本多样性进行优化。 B:增加数据可以减少模型方差。 C:样本越多,模型训练越慢,性能一定越好。 D:训练样本越少,模型的方差越大。
A:错 B:对
A:对 B:错
A:对 B:错
AI参考:答案是B:错。误差逆传播算法(Error Backpropagation)是神经网络训练中常用的算法之一,但它并不是最成功的多层前馈神经网络学习算法。多层前馈神经网络的学习算法有很多种,如梯度下降法、共轭梯度法、拟牛顿法等,其中最经典的是梯度下降法。因此,这个说法是错误的。'
A:错 B:对
A:对 B:错
A:错 B:对
A:对 B:错
A:对 B:错
A:对 B:错
A:对 B:错
A:对 B:错
AI参考:答案是B:错。信息熵值越小,当前样本集合D的纯度越大,属于同一类别的可能性越小。信息熵是用于衡量样本集合D的混乱度或纯度的指标,值越小表示样本集合D越集中,属于同一类别的可能性越大。因此,这个说法是错误的。'
A:错 B:对
温馨提示支付 ¥1.75 元后可查看付费内容,请先翻页预览!