⬆️⬆️⬆️本课程2024最新同名章节期末答案⬆️⬆️

大数据分析与预测技术期末考试答案2023春

所有课程章节/期末均有答案,可提供word版,点击联系客服✅

104 阅读 0 评论 1 点赞

提示:内容已经过期谨慎付费，点击上方查看最新答案

大数据分析与预测技术

关于NameNode和Secondary NameNode的说法错误的是

答案:错误AI参考:关于NameNode和Secondary NameNode的说法错误的是C：数据的通信使用的是ftp协议（http协议）。在Hadoop中，NameNode和Secondary NameNode之间的数据通信是通过Hadoop文件系统（HDFS）的RPC协议进行的，而不是使用ftp或http协议。NameNode是HDFS的中央管理器，负责管理文件系统的元数据，如文件和目录的权限、位置信息等。Secondary NameNode的主要作用是定期从NameNode那里收集和验证文件系统的元数据，以检测NameNode的错误。因此，ABD选项都是正确的。'

当采用K-距离的方法选择DBSCAN的Eps和MinPts参数时，如果设置的K的值太大，则小簇（尺寸小于K的簇）可能会被标记为

答案:密度阈值AI参考:答案：D：噪声。K-距离的方法选择DBSCAN的Eps和MinPts参数时，如果设置的K的值太大，意味着较大距离的点会被认为在同一个簇内，这可能会导致一些小的簇（尺寸小于K的簇）被错误地标记为噪声（D选项）。核心簇（B选项）指的是被核心点（即密度足够高的点）连接的所有点所形成的簇，边界簇（A选项）则是位于核心点和噪声点之间的簇。因此，C选项和其他选项都不对。'

人工智能、机器学习、深度学习的包含关系是?

答案:对AI参考:正确选项是【B:人工智能>深度学习>机器学习】。人工智能是一个广泛的领域，包括机器学习、深度学习等子领域。机器学习是人工智能的一个分支，它通过使用算法和统计学方法使计算机自主地学习和改进。深度学习是机器学习的一个子领域，它使用神经网络和深度学习算法来处理和解释数据，以实现更高的性能和准确性。因此，人工智能>深度学习>机器学习。'

自然语言处理难点目前有四大类,下列选项中不是其中之一的是?

答案:机器性能;机器性能

以下决策树说法错误的是哪个

答案:决策树的深度越大越好AI参考:正确答案是C：决策树中没有出现的属性是对分类无用的。决策树是一种基于树形结构的分类算法，其优点是可解释性好、训练效率高，缺点是对噪声敏感，容易过拟合。在决策树中，如果一个属性在决策树中没有出现，并不代表它对分类无用，而是因为它在数据集中出现的概率太低，不足以影响决策树的分类结果。因此，选项C的说法是错误的。其他选项A、B、D都是关于决策树的正确说法。'

DBSCAN之所以难以有效处理高维数据，其主要原因是？

内容已经隐藏，点击付费后查看

在Spark的软件栈中,用于机器学习的是?

内容已经隐藏，点击付费后查看

有关基于关联规则的推荐的说法，错误的是哪个？

内容已经隐藏，点击付费后查看

DBSCAN算法的过程是以下哪个？① 删除噪声点。
② 每组连通的核心点形成一个簇。
③ 将所有点标记为核心点、边界点和噪声点。
④ 将每个边界点指派到一个与之关联的核心点的簇中。
⑤ 为距离在Eps之内的所有核心点之间赋予一条边。

内容已经隐藏，点击付费后查看

大数据分析将出现革命性的新方法,从前的很多算法和基础理论可能会产生理论级别的突破。而哪项技术将继续成为大数据智能分析的核心技术?

内容已经隐藏，点击付费后查看

mapreduce计算模型适用于哪种任务?

内容已经隐藏，点击付费后查看

大数据时代的到来，我们更应该注重数据中的相关关系，而不是因果关系。其中，数据之间的相关关系可以通过以下哪个算法直接挖掘

内容已经隐藏，点击付费后查看

以下的决策树哪个是二叉树？

内容已经隐藏，点击付费后查看

Apriori算法的加速过程依赖于以下哪个策略

内容已经隐藏，点击付费后查看

如果处理以下形状的数据时，适宜采用DBSCAN的是?

内容已经隐藏，点击付费后查看

AI参考:正确选项是【C:球形】。DBSCAN是一种基于密度的聚类算法，它能够发现任何形状的簇，但是对噪声敏感。对于球形数据，由于其空间分布较为均匀，不容易出现局部密集的情况，因此更适合使用DBSCAN进行聚类。而椭球形、SS形和方形等其他形状的数据，由于其空间分布不均匀或者存在局部密集的情况，可能会影响DBSCAN的效果。因此，在处理球形数据时，DBSCAN的效果会更好。'

BP神经网络的学习规则是?

内容已经隐藏，点击付费后查看

机器学习的预测建模任务主要包括哪几大类方法？

内容已经隐藏，点击付费后查看

设有项目集X,X1是X的一个子集，则下列结论中成立的是

内容已经隐藏，点击付费后查看

训练分类机器学习模型时需要避免过拟合和欠拟合的问题，关于这些问题以下说法错误的是

内容已经隐藏，点击付费后查看

Spark适用于那些场景？

内容已经隐藏，点击付费后查看

传统神经网络主要分为以下哪几类？

内容已经隐藏，点击付费后查看

关联规则的评价度量主要有哪些？

内容已经隐藏，点击付费后查看

下列说法正确的是哪些？

AI参考:正确选项是：A:噪声和异常是数据错误这一相同表述的两种叫法。C:离群（异常）点可以是合法的数据对象或者值。解释：B选项描述不准确，离散属性可能存在无限多个值。D选项也不完全准确，虽然定量属性常常是连续的，但是有些数据集的定量属性也可能是整数或浮点数。但是噪声和异常的确常常被用来描述数据中的问题，它们可以用来指示可能的数据错误或不一致。所以，选项A和C是正确的。'

下列选项中,是用于数据存储的技术有哪些?

内容已经隐藏，点击付费后查看

自然语言处理包括以下哪些？

内容已经隐藏，点击付费后查看

AI参考:正确选项为：ABCD。自然语言处理包括句法分析、词法分析、语义分析以及机器翻译等多个方面。句法分析是将自然语言转化为语法结构的形式，词法分析是将自然语言分解成单词和短语，语义分析是对单词和短语的意义进行分析和理解，机器翻译则是将一种自然语言翻译成另一种自然语言。因此，所有选项都正确。'

有关可视化分析的方法，下面说法正确的有哪些？

内容已经隐藏，点击付费后查看

AI参考:有关可视化分析的方法，以下说法正确的有：C:错误的数据如果不进行处理，可能会影响可视化分析的结果质量；D:可视化分析在分析前，对数据进行一定的变换，可能会提升分析结果的有用性。解释：A选项说法过于绝对，并非每种图形只适用于某些场合；B选项，可视化不仅仅是对表格数据的简单呈现，它还可以用于数据挖掘、趋势预测等领域。因此，A和B选项不正确。而C和D选项则较为准确地描述了可视化分析的一些重要方面。错误的数据如果不进行处理可能会影响分析结果的质量，而通过对数据进行一定的变换可能会提升分析结果的有用性。'

下面哪些评测指标可以度量推荐系统的性能？

内容已经隐藏，点击付费后查看

大数据的业务应用处理需要经过哪些流程?

AI参考:正确选项是：A：数据建模，C:数据清洗，D:数据加工。大数据的业务应用处理需要经过数据采集、数据清洗、数据建模和数据加工等流程。其中，数据采集是从数据源获取数据的过程；数据清洗是对采集回来的数据进行去重、转换、整合等处理，以消除噪声、错误或冗余数据；数据建模是根据业务需求，对数据进行分类、聚类等操作，以构建相应的模型；数据加工是对数据进行转换、整合、提取等操作，以满足业务需求。因此，选项A、C和D都是正确的。而选项B虽然也是大数据处理流程中的一环，但数据采集通常是在数据建模和数据加工之前进行的，因此不是最佳答案。'

有关决策树对大数据的处理，以下说法正确的是哪些？

内容已经隐藏，点击付费后查看

关于训练样本的描述中，正确的是哪些？

内容已经隐藏，点击付费后查看

支持向量机的核函数负责输入变量和分类变量（输出）之间的映射。

内容已经隐藏，点击付费后查看

DBSCAN会把所有点划分到各自的簇中。

内容已经隐藏，点击付费后查看

误差逆传播算法（Error BackPropagation，简称BP）是最成功的训练多层前馈神经网络的学习算法。

内容已经隐藏，点击付费后查看

AI参考:答案是B：错。误差逆传播算法（Error Backpropagation）是神经网络训练中常用的算法之一，但它并不是最成功的多层前馈神经网络学习算法。多层前馈神经网络的学习算法有很多种，如梯度下降法、共轭梯度法、拟牛顿法等，其中最经典的是梯度下降法。因此，这个说法是错误的。'

在做聚类时，DBSCAN会删掉它认为是噪声点的数据点。

内容已经隐藏，点击付费后查看

决策树剪枝的目的是为了减少训练过程的过拟合，从而提升决策树模型的准确性。

内容已经隐藏，点击付费后查看

基于内容的推荐会遇到用户数据稀疏问题和新用户问题。

内容已经隐藏，点击付费后查看

过拟合是因为训练样本太多了，把训练样本的规律都拟合进去了，因此检测样本的准确率也很高。

内容已经隐藏，点击付费后查看

基于内容的推荐和基于协同的推荐都需要领域知识。

内容已经隐藏，点击付费后查看

如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。

内容已经隐藏，点击付费后查看

在聚类分析中，簇之间的相似性越大，簇内样本的差别越大，聚类的效果就越好

内容已经隐藏，点击付费后查看

信息熵值越小，当前样本集合D 的纯度越小，属于同一类别的可能性越大

内容已经隐藏，点击付费后查看

AI参考:答案是B：错。信息熵值越小，当前样本集合D的纯度越大，属于同一类别的可能性越小。信息熵是用于衡量样本集合D的混乱度或纯度的指标，值越小表示样本集合D越集中，属于同一类别的可能性越大。因此，这个说法是错误的。'

朴素贝叶斯分类器对于小样本数据集效果不如决策树好。

内容已经隐藏，点击付费后查看

温馨提示支付 ￥1.75 元后可查看付费内容,请先翻页预览!

微信支付

点赞(1) dxwkbang

本文分类：智慧树知到期末考试答案2023春
本文标签：大数据分析与预测技术
浏览次数：104 次浏览
发布日期：2023-12-16 17:13:14

上一篇 > 文件与档案管理期末考试答案2023春
下一篇 > 财务会计期末考试答案2023春