提示:内容已经过期谨慎付费,点击上方查看最新答案

大数据分析与预测技术

  1. 关于NameNode和Secondary NameNode的说法错误的是

  2. A:协议的容器是jetty B:NameNode上实现的NamenodeProtocol用于二者命令通信 C:数据的通信使用的是ftp协议 (http协议) D:数据通信使用的是http协议
    答案:错误AI参考:关于NameNode和Secondary NameNode的说法错误的是C:数据的通信使用的是ftp协议(http协议)。在Hadoop中,NameNode和Secondary NameNode之间的数据通信是通过Hadoop文件系统(HDFS)的RPC协议进行的,而不是使用ftp或http协议。NameNode是HDFS的中央管理器,负责管理文件系统的元数据,如文件和目录的权限、位置信息等。Secondary NameNode的主要作用是定期从NameNode那里收集和验证文件系统的元数据,以检测NameNode的错误。因此,ABD选项都是正确的。'
  3. 当采用K-距离的方法选择DBSCAN的Eps和MinPts参数时,如果设置的K的值太大,则小簇(尺寸小于K的簇)可能会被标记为


  4. A:边界簇 B:核心簇 C:其他选项都不对 D:噪声
    答案:密度阈值AI参考:答案:D:噪声。K-距离的方法选择DBSCAN的Eps和MinPts参数时,如果设置的K的值太大,意味着较大距离的点会被认为在同一个簇内,这可能会导致一些小的簇(尺寸小于K的簇)被错误地标记为噪声(D选项)。核心簇(B选项)指的是被核心点(即密度足够高的点)连接的所有点所形成的簇,边界簇(A选项)则是位于核心点和噪声点之间的簇。因此,C选项和其他选项都不对。'
  5. 人工智能、机器学习、深度学习的包含关系是?

  6. A:人工智能>机器学习>深度学习 B:人工智能>深度学习>机器学习 C:机器学习>深度学习>人工智能 D:深度学习>人工智能>机器学习
    答案:对AI参考:正确选项是【B:人工智能>深度学习>机器学习】。人工智能是一个广泛的领域,包括机器学习、深度学习等子领域。机器学习是人工智能的一个分支,它通过使用算法和统计学方法使计算机自主地学习和改进。深度学习是机器学习的一个子领域,它使用神经网络和深度学习算法来处理和解释数据,以实现更高的性能和准确性。因此,人工智能>深度学习>机器学习。'
  7. 自然语言处理难点目前有四大类,下列选项中不是其中之一的是?

  8. A:语境 B:语言歧义性 C:机器性能 D:知识依赖
    答案:机器性能;机器性能
  9. 以下决策树说法错误的是哪个

  10. A:相对于神经网络,决策树可解释性好,而且训练效率高。 B:决策树的过拟合时因为树的深度比较大引起,因此可以限制分支的最小样本数或控制树的深度解决。 C:决策树中没有出现的属性是对分类无用的。 D:决策树算法对样本的噪声非常敏感,少数噪声可能引起决策树的很大变化。
    答案:决策树的深度越大越好AI参考:正确答案是C:决策树中没有出现的属性是对分类无用的。决策树是一种基于树形结构的分类算法,其优点是可解释性好、训练效率高,缺点是对噪声敏感,容易过拟合。在决策树中,如果一个属性在决策树中没有出现,并不代表它对分类无用,而是因为它在数据集中出现的概率太低,不足以影响决策树的分类结果。因此,选项C的说法是错误的。其他选项A、B、D都是关于决策树的正确说法。'
  11. DBSCAN之所以难以有效处理高维数据,其主要原因是?

  12. A:簇的大小未知 B:数据的形状太复杂 C:开销过大 D:噪声点过多

  13. 在Spark的软件栈中,用于机器学习的是?

  14. A:Spark Streaming B:GraphX C:Mllib

  15. 有关基于关联规则的推荐的说法,错误的是哪个?

  16. A:基于关联规则的推荐主要是基于相似客户群体的推荐。 B:关联推荐是一种基于物品之间因果关系的推荐方法。 C:关联规则用于推荐实质上是一种基于用户的协同推荐。 D:关联规则的推荐算法常用的有Apriori和FP树增长等算法。

  17. DBSCAN算法的过程是以下哪个?① 删除噪声点。
    ② 每组连通的核心点形成一个簇。
    ③ 将所有点标记为核心点、边界点和噪声点。
    ④ 将每个边界点指派到一个与之关联的核心点的簇中。
    ⑤ 为距离在Eps之内的所有核心点之间赋予一条边。

  18. A:①②④⑤③ B:③①⑤②④ C:③①②④⑤ D:①④⑤②③

  19. 大数据分析将出现革命性的新方法,从前的很多算法和基础理论可能会产生理论级别的突破。而哪项技术将继续成为大数据智能分析的核心技术?

  20. A:智能终端 B:智能物流 C:机器学习 D:脑科学

  21. mapreduce计算模型适用于哪种任务?

  22. A:实时数据变化处理 B:有关联的行处理 C:多线程处理 D:批处理

  23. 大数据时代的到来,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘

  24. A:C4.5 B:Bayes Network C:K-means D:Apriori

  25. 以下的决策树哪个是二叉树?

  26. A:CART B:ID3 C:C4.5 D:CHAID

  27. Apriori算法的加速过程依赖于以下哪个策略

  28. A:并行 B:缓冲 C:抽样 D:剪枝

  29. 如果处理以下形状的数据时,适宜采用DBSCAN的是?

  30. A:椭球形 B:SS形 C:球形 D:方形
    AI参考:正确选项是【C:球形】。DBSCAN是一种基于密度的聚类算法,它能够发现任何形状的簇,但是对噪声敏感。对于球形数据,由于其空间分布较为均匀,不容易出现局部密集的情况,因此更适合使用DBSCAN进行聚类。而椭球形、SS形和方形等其他形状的数据,由于其空间分布不均匀或者存在局部密集的情况,可能会影响DBSCAN的效果。因此,在处理球形数据时,DBSCAN的效果会更好。'
  31. BP神经网络的学习规则是?

  32. A:梯度下降法 B:梯度提升法 C:梯度上升法 D:梯度曲线法

  33. 机器学习的预测建模任务主要包括哪几大类方法?

  34. A:神经网络 B:回归分析 C:决策树 D:模式发现

  35. 设有项目集X,X1是X的一个子集,则下列结论中成立的是

  36. A:如果X1是频繁项目集,则X也是频繁项目集; B:如果X是频繁项目集,则X1也是频繁项目集; C:如果X是非频繁项目集,则X1也是非频繁项目集; D:如果X1是非频繁项目集,则X也是非频繁项目集;

  37. 训练分类机器学习模型时需要避免过拟合和欠拟合的问题,关于这些问题以下说法错误的是

  38. A:复杂的模型时容易发生欠拟合问题 B:正则化方法可以减少过拟合问题 C:神经网络不会出现过拟合问题 D:增加数据量不能减少过拟合问题

  39. Spark适用于那些场景?

  40. A:系统业务受理 B:数据量大 C:计算量大 D:效率要求高

  41. 传统神经网络主要分为以下哪几类?

  42. A:反馈型神经网络 B:自组织神经网络 C:反向传播 D:前馈型神经网络

  43. 关联规则的评价度量主要有哪些?

  44. A:提升度 B:支持度 C:置信度 D:准确度

  45. 下列说法正确的是哪些?

  46. A:噪声和异常是数据错误这一相同表述的两种叫法。 B:离散属性总是具有有限个值。 C:离群(异常)点可以是合法的数据对象或者值。 D:定量属性可以是整数值或者是连续值。
    AI参考:正确选项是:A:噪声和异常是数据错误这一相同表述的两种叫法。C:离群(异常)点可以是合法的数据对象或者值。解释:B选项描述不准确,离散属性可能存在无限多个值。D选项也不完全准确,虽然定量属性常常是连续的,但是有些数据集的定量属性也可能是整数或浮点数。但是噪声和异常的确常常被用来描述数据中的问题,它们可以用来指示可能的数据错误或不一致。所以,选项A和C是正确的。'
  47. 下列选项中,是用于数据存储的技术有哪些?

  48. A:HDFS B:MongoDB C:Java D:MySQL

  49. 自然语言处理包括以下哪些?

  50. A:句法分析 B:词法分析 C:语义分析 D:机器翻译
    AI参考:正确选项为:ABCD。自然语言处理包括句法分析、词法分析、语义分析以及机器翻译等多个方面。句法分析是将自然语言转化为语法结构的形式,词法分析是将自然语言分解成单词和短语,语义分析是对单词和短语的意义进行分析和理解,机器翻译则是将一种自然语言翻译成另一种自然语言。因此,所有选项都正确。'
  51. 有关可视化分析的方法,下面说法正确的有哪些?

  52. A:可视化分析有多种图形可供选择,每种图形只适用某些场合。 B:可视化只是表格数据的另一种简单呈现。 C:错误的数据如果不进行处理,可能会影响可视化分析的结果质量。 D:可视化分析在分析前,对数据进行一定的变换,可能会提升分析结果的有用性。
    AI参考:有关可视化分析的方法,以下说法正确的有:C:错误的数据如果不进行处理,可能会影响可视化分析的结果质量;D:可视化分析在分析前,对数据进行一定的变换,可能会提升分析结果的有用性。解释:A选项说法过于绝对,并非每种图形只适用于某些场合;B选项,可视化不仅仅是对表格数据的简单呈现,它还可以用于数据挖掘、趋势预测等领域。因此,A和B选项不正确。而C和D选项则较为准确地描述了可视化分析的一些重要方面。错误的数据如果不进行处理可能会影响分析结果的质量,而通过对数据进行一定的变换可能会提升分析结果的有用性。'
  53. 下面哪些评测指标可以度量推荐系统的性能?

  54. A:推荐结果的新颖性 B:用户调查满意度 C:平均绝对误差(MAE) D:覆盖率

  55. 大数据的业务应用处理需要经过哪些流程?

  56. A:数据建模 B:数据采集 C:数据清洗 D:数据加工
    AI参考:正确选项是:A:数据建模,C:数据清洗,D:数据加工。大数据的业务应用处理需要经过数据采集、数据清洗、数据建模和数据加工等流程。其中,数据采集是从数据源获取数据的过程;数据清洗是对采集回来的数据进行去重、转换、整合等处理,以消除噪声、错误或冗余数据;数据建模是根据业务需求,对数据进行分类、聚类等操作,以构建相应的模型;数据加工是对数据进行转换、整合、提取等操作,以满足业务需求。因此,选项A、C和D都是正确的。而选项B虽然也是大数据处理流程中的一环,但数据采集通常是在数据建模和数据加工之前进行的,因此不是最佳答案。'
  57. 有关决策树对大数据的处理,以下说法正确的是哪些?

  58. A:通过对决策表的每个字段进行数据分片(然后每个字段再按照记录分片),可以实现决策树重要分枝属性的选择。 B:可以对决策表的样本进行划分,并行计算每个分片数据各种属性取值对应的类别个数,从而可以合并这些数据得到某个属性在整个数据集的重要性度量。 C:决策树的分布式学习可以借助MapReduce计算框架。 D:决策树对大数据的处理只能采用批处理的算法。

  59. 关于训练样本的描述中,正确的是哪些?

  60. A:如果模型性能不佳,可增加样本多样性进行优化。 B:增加数据可以减少模型方差。 C:样本越多,模型训练越慢,性能一定越好。 D:训练样本越少,模型的方差越大。

  61. 支持向量机的核函数负责输入变量和分类变量(输出)之间的映射。

  62. A:错 B:对

  63. DBSCAN会把所有点划分到各自的簇中。

  64. A:对 B:错

  65. 误差逆传播算法(Error BackPropagation, 简称BP)是最成功的训练多层前馈神经网络的学习算法。

  66. A:对 B:错
    AI参考:答案是B:错。误差逆传播算法(Error Backpropagation)是神经网络训练中常用的算法之一,但它并不是最成功的多层前馈神经网络学习算法。多层前馈神经网络的学习算法有很多种,如梯度下降法、共轭梯度法、拟牛顿法等,其中最经典的是梯度下降法。因此,这个说法是错误的。'
  67. 在做聚类时,DBSCAN会删掉它认为是噪声点的数据点。

  68. A:错 B:对

  69. 决策树剪枝的目的是为了减少训练过程的过拟合,从而提升决策树模型的准确性。

  70. A:对 B:错

  71. 基于内容的推荐会遇到用户数据稀疏问题和新用户问题。

  72. A:错 B:对

  73. 过拟合是因为训练样本太多了,把训练样本的规律都拟合进去了,因此检测样本的准确率也很高。

  74. A:对 B:错

  75. 基于内容的推荐和基于协同的推荐都需要领域知识。

  76. A:对 B:错

  77. 如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。

  78. A:对 B:错

  79. 在聚类分析中,簇之间的相似性越大,簇内样本的差别越大,聚类的效果就越好

  80. A:对 B:错

  81. 信息熵值越小,当前样本集合D 的纯度越小,属于同一类别的可能性越大

  82. A:对 B:错
    AI参考:答案是B:错。信息熵值越小,当前样本集合D的纯度越大,属于同一类别的可能性越小。信息熵是用于衡量样本集合D的混乱度或纯度的指标,值越小表示样本集合D越集中,属于同一类别的可能性越大。因此,这个说法是错误的。'
  83. 朴素贝叶斯分类器对于小样本数据集效果不如决策树好。

  84. A:错 B:对

温馨提示支付 ¥1.75 元后可查看付费内容,请先翻页预览!
点赞(1) dxwkbang
返回
顶部