提示:内容已经过期谨慎付费,点击上方查看最新答案

大数据与人工智能

  1. 在降维技术方面,PCA的中文含义是( )。

  2. A:特征选择技术。 B:线性判别方法 C:数据压缩技术 D:主成分分析
    答案:线性判别方法
  3. Combiner和Reducer类都指向继承于Reducer的内部类( )。

  4. A:TaskTracker B:Hdfs C:Reduce D:JobTracker
    答案:Reduce
  5. ( )是一种消极学习方法,它不需要建立模型,然而测试样例的开销很大,因为需要逐个计算测试样例和训练样例之间的相似度。

  6. A:支持向量机 B:最近邻分类器 C:神经网络 D:决策树分类法
    答案:最近邻分类器
  7. 在一元线性回归中y的取值的波动称为( )。

  8. A:变差 B:差值 C:误差 D:偏差
    答案:变差
  9. ( )是指在决策树生成过程中,对每个结点在划分前进行估计,若当前结点的划分不能带来决策树泛化性能的提升,则停止划分并将当前结点标记为叶结点。

  10. A:预剪枝 B:分枝 C:后剪枝 D:剪枝
    答案:前
  11. C4.5决策树学习算法以( )为准则划分属性。

  12. A:信息增益 B:增益率 C:基尼系数 D:信息熵

  13. 网络附加存储的英文缩写是(    )。


  14. A:DAS B:SAN C:BAS D:NAS

  15. VGG构建深度模型是通过重复使用( )。

  16. A:平均池化层 B:VGG块 C:推理机 D:感知机 E:LeNet模型
    AI参考:正确选项是B:VGG块。VGG构建深度模型是通过重复使用VGG块。VGG块包含卷积层、ReLU激活函数、最大池化层和shortcut connection(捷径连接),这些组成部分可以组合在一起形成更深的网络结构。通过重复使用这些块,VGG可以构建深度模型,从而提高模型的性能和表达能力。平均池化层、推理机、感知机和LeNet模型不是构建深度模型的关键部分。'
  17. LDA是一种( )的降维技术,也就是说它的数据集的每个样本是有类别输出的。

  18. A:非监督学习 B:监督学习 C:群智能 D:自适应学习
    AI参考:正确选项是【B:监督学习】。LDA(Linear Discriminant Analysis)是一种监督学习中的降维技术,它通过线性判别分析的方法对数据进行降维,主要用于分类问题。在LDA中,数据集的每个样本是有类别输出的,因此它是一种监督学习算法。非监督学习是指在没有标签数据的情况下,通过聚类等算法对数据进行分析和建模;群智能算法是一种模拟群体行为的人工智能算法;自适应学习则是通过不断调整自身以适应环境变化的学习方式。因此,B选项是正确答案。'
  19. ( )通常考虑的也是同质弱学习器。它以一种高度自适应的方法顺序地学习这些弱学习器(每个基础模型都依赖于前面的模型),并按照某种确定性的策略将它们组合起来。

  20. A:boosting B:bagging C:wrappering D:stacking
    AI参考:正确答案是A:boosting。boosting通常考虑的也是同质弱学习器,它以一种高度自适应的方法顺序地学习这些弱学习器(每个基础模型都依赖于前面的模型),并按照某种确定性的策略将它们组合起来。bagging、wrappering和stacking都是集成学习中的方法,但它们不涉及顺序地学习弱学习器并组合起来,因此不是正确答案。因此,本题答案为A。'
  21. 大部分自然科学的本质( )。

  22. A:数学函数 B:数据分析 C:物理定律 D:专家系统 E:信息采样
    AI参考:正确选项为C:物理定律。物理定律是描述自然现象的基本规律,具有普适性和可重复性,是自然科学中最基本的研究方法之一。数学函数、数据分析、信息采样等不是自然科学最本质的特征,专家系统则是人工智能等领域的产物,与自然科学没有直接关系。'
  23. ( )思想是通过将这些弱学习器的偏置和/或方差结合起来,从而创建一个强学习器,从而获得更好的性能。

  24. A:Embedded方法 B:集成方法 C:Wrapper方法 D:PCA方法

  25. 大数据价值体现的手段和前进的基石是( )。

  26. A:实践 B:思想 C:技术 D:理论

  27. 遗传算法中首要解决的问题( )。

  28. A:适应度函数的设计 B:遗传操作的设计 C:初始种群的设定 D:参数编码
    AI参考:正确答案是C:初始种群的设定。遗传算法首要解决的问题是初始种群的设定,这是所有遗传算法都存在的问题。因为遗传算法是通过模拟达尔文的自然选择和遗传学机理的生物进化过程搜索最优解,初始种群的选择对于遗传算法的搜索效率有着至关重要的影响。适应度函数的设计、遗传操作的设计和参数编码都是遗传算法中需要解决的问题,但不是首要解决的问题。'
  29. ( )是认知的必经途径,也是被广泛认同和传播的基线。

  30. A:理论 B:思想 C:技术 D:实践
    AI参考:正确答案是D:实践。认知的必经途径是实践,只有在实践中不断探索和总结经验,才能形成自己的认知和见解,同时也才能被广泛认同和传播的基线。因此,实践是认知的必经途径,也是被广泛认同和传播的基线。其他选项如理论、思想、技术等,虽然也是认知的途径之一,但是它们并不一定是唯一的、必然的途径,也不一定是被广泛认同和传播的基线。因此,答案为D。'
  31. 借助某种存储工具或媒介对采集到的数据进行持久化的保存是指( )。

  32. A:数据建模 B:数据获取 C:数据存储 D:数据清洗

  33. ( )通常考虑的是异质弱学习器,并行地学习它们,并通过训练一个元模型将它们组合起来,根据不同弱模型的预测结果输出一个最终的预测结果。

  34. A:wrappering B:stacking C:bagging D:boosting

  35. 在实例中可用于读入数据文件的函数是( )。

  36. A:fit() B:train_test_split() C:loadtext() D:mgrid()

  37. 在大数据组成中,数据的主要部分是( )。

  38. A:半结构化数据 B:结构化数据 C:视频数据 D:非结构化数据
    AI参考:正确答案是D:非结构化数据。大数据组成中,数据的主要部分是非结构化数据,例如社交媒体上的评论、图片、音频和视频等。半结构化数据和非结构化数据都属于大数据的范畴,但非结构化数据在大数据中的占比更大。结构化数据是预先定义好的数据格式,通常存储在关系型数据库中,相对来说占比较小。视频数据虽然也是数据的一种,但与大数据的其他组成部分相比,其复杂性和处理难度较大。因此,本题答案为D。'
  39. ID3决策树学习算法以( )为准则来选择划分属性。

  40. A:信息增益 B:增益率 C:基尼系数 D:信息熵

  41. 数据格式的多样性表现在(   )。


  42. A:音频数据 B:数值信息 C:图片 D:文本数据 E:视频数据
    AI参考:正确选项为:A:音频数据、B:数值信息、C:图片、E:视频数据。数据格式的多样性表现在音频数据、数值信息、图片、视频数据等多种形式。文本数据虽然也是数据的一种形式,但并不具有多样性。因此,选项D和文本数据无关。'
  43. MapReduce分布式并行编程使程序员只关注( )的实现。

  44. A:Hadoop函数 B:Map函数 C:Split函数 D:Reduce函数 E:HDFS函数

  45. Hadoop 生态圈的组件包括(   )。


  46. A:数据分析工具 B:数据处理 C:数据采集 D:数据集成 E:数据存储

  47. 核函数的作用(   )。


  48. A:实现低维映射 B:非线性支持向量机 C:变量替换 D:不用计算高维映射特征 E:减少计算量
    AI参考:正确答案是【DE】。核函数的主要作用是在高维空间中寻找一个映射函数,使原本的高维特征能够用低维数据进行表达,或者通过某种方式对数据进行降维,以减少计算量和计算复杂度。选项A、B、C和E并不直接与核函数的作用相关。因此,核函数的作用是实现低维映射(D对)或不用计算高维映射特征(E对)。'
  49. 数据来源的多样性包括( )。

  50. A:存在较强关联性的其他领域的数据 B:来源于使用者自身产生的数据信息 C:计算机产业的数据 D:视频数据信息 E:来源于机器自身装配备装置的测量报告
    AI参考:数据来源的多样性包括以下几项选项:A存在较强关联性的其他领域的数据,B来源于使用者自身产生的数据信息,E来源于机器自身装配备装置的测量报告。这三个选项都是多样化的数据来源方式,分别从不同的领域、使用者自身和设备自身测量报告等方面来获取数据。C选项,计算机产业的数据虽然也是一个重要领域的数据来源,但它并不是多样性所强调的各个方面都要包含在内。D选项,视频数据信息虽然也是数据的一种表现形式,但它并不是多样性所强调的数据来源方式。因此,正确选项为:A、B、E。'
  51. AlphaGo 主要分为两大部分,分别是( )。

  52. A:Agent网络 B:神经网络 C:目标优化网络 D:价值评估网络 E:落子决策网络
    AI参考:正确选项为:A:Agent网络 C:目标优化网络 D:价值评估网络。AlphaGo主要由三个主要部分组成:Agent网络、目标优化网络和价值评估网络。其中,Agent网络负责与人类玩家进行交互,理解人类玩家的行为并作出相应的回应;目标优化网络则负责对各种可能的走法进行评估,以找到最优的策略;价值评估网络则负责对棋盘上的各种局面进行评估,以提供对下一步棋的预判。因此,选项A、C和D是正确的。选项B神经网络是机器学习的一种方法,而选项E落子决策网络则是Agent网络的一部分,负责根据价值评估网络的输出进行决策。'
  53. 下列选项属于语音识别的主要应用的是( )。

  54. A:电脑系统声控 B:电话客服 C:医疗领域听写 D:语音书写 E:电话外呼

  55. 科学计算可分为( )。

  56. A:符号运算 B:定性计算 C:纯数值的计算 D:理论计算 E:定量计算
    AI参考:科学计算可分为符号运算、纯数值的计算、定量计算和理论计算等多个选项。其中,选项A、C、E都属于科学计算的一部分。具体来说,符号运算通常用于数学和物理等领域的公式和符号计算;纯数值的计算主要涉及数值计算方法、算法和程序等;定量计算则是在一定假设和前提下,对现实世界中某一特定系统进行定量描述的计算方法;理论计算则是在给定条件下,通过分析推导和数学建模等方法,对系统进行理论分析和计算。因此,以上选项都是科学计算的重要组成部分。所以,正确选项为【多选题】科学计算可分为符号运算、纯数值的计算、定量计算和理论计算。'
  57. 有监督学习的分类( )。

  58. A:回归分析 B:二元分类 C:无监督学习 D:有监督学习 E:多元分类
    AI参考:正确选项为【ABD】。有监督学习分为回归分析和二元分类,其中回归分析是预测连续变量的分类方法,而二元分类则是预测两个类别中的一种的分类方法。无监督学习是用于发现数据集中隐藏的模式和结构的分类方法,而多元分类则是预测多个类别的分类方法。因此,选项C和E是不正确的。'
  59. 特征选择的目的(   )。


  60. A:减少特征数量、降维 B:降低数据的复杂性 C:降低学习任务的难度,提升模型的效率 D:使模型泛华能力更强,减少过拟合 E:增强对特征和特征值之间的理解
    AI参考:正确选项为:A、C、D。特征选择的目的包括:1. 减少特征数量、降维(A对):特征选择可以将数据中的冗余或无关特征剔除,降低数据维度,从而简化模型,提升模型效率。2. 降低学习任务的难度,提升模型的效率(C对):特征选择可以剔除那些与目标关系不大的特征,减轻模型的训练难度,加快模型的学习速度。3. 使模型泛化能力更强,减少过拟合(D对):在机器学习中,过拟合是一个常见的问题。通过特征选择,可以选择出对目标变量影响较大的特征,使模型在训练数据和测试数据上表现都更好。而B选项“降低数据的复杂性”和E选项“增强对特征和特征值之间的理解”更多地是描述特征选择的作用,而不是特征选择的目的。因此,B、E选项不是正确答案。'
  61. 支持向量机又被分为( )。

  62. A:非线性支持向量机 B:高斯向量机 C:多项式向量机 D:线性支持向量机 E:线性核
    AI参考:正确选项为:A、D、E。支持向量机(SVM)是一种常用的分类和回归方法,它可以被分为线性支持向量机(LSSVM)、多项式支持向量机(PSVM)和非线性支持向量机(NLSVM)。其中,线性支持向量机使用线性核函数,多项式支持向量机使用多项式核函数,非线性支持向量机则通过使用核函数将输入空间映射到高维特征空间,从而在非线性数据上实现分类。而高斯向量机和线性核都是常用的核函数类型,但不是支持向量机的分类方式。因此,选项A、D、E是正确的分类方式。'
  63. 遗传算法中常见的交叉操作主要有以下几种( )。

  64. A:均匀交叉 B:单点交叉 C:前后交叉 D:两点交叉 E:算术交叉

  65. 数据库类型包括( )。

  66. A:操作性处理数据库 B:数据编辑库 C:分析型数据库 D:联机事务处理库 E:操作型数据库
    AI参考:正确选项为:C、分析型数据库;E、操作型数据库。数据库类型分为三种:操作型数据库、分析型数据库和中间型。* 操作型数据库,是用于处理各种事务、流程的操作处理型数据库。常见的数据库系统,如Oracle、SQL Server、MySQL等都是典型的操作型数据库。* 分析型数据库是一种用于业务处理结束后分析型处理,主要是处理、储存大量的交易数据的数据库类型,比如MPP架构的数据仓库,大数据系统中的数据湖等。* 中间型数据库主要是根据需求动态的转化成操作型或分析型的数据库,以OLAP多维数据库为例,当数据业务需要分析和洞察的时候就可以变成操作型的数据库来读取和使用,又比如ETL工具工具、实时流计算工具等也可以认为是中间型数据库的一种。所以本题选择C、分析型数据库;E、操作型数据库。A、B、D项错误,不符合题意。'
  67. Mapper类是一个泛型类,四个参数分别指定map函数的(   )。


  68. A:输出值 B:输入值 C:环境值 D:输出键 E:输入键

  69. 相似系数度量包含( )。

  70. A:离散系数 B:余弦相似度 C:杰卡德相似系数 D:皮尔逊系数 E:正弦相似度
    AI参考:正确选项为:C:杰卡德相似系数 D:皮尔逊系数相似系数度量通常包括皮尔逊相关系数、斯皮尔曼秩相关系数、余弦相似度、杰卡德相似系数等。其中,皮尔逊相关系数和杰卡德相似系数是常见的相似度度量方法。'
  71. 特征分类包括( )。

  72. A:规模特征 B:数量特征 C:相关特征 D:无关特征 E:冗余特征
    AI参考:多选题,特征分类包括(ABCDE)。特征分类通常包括以下几类:* 规模特征:例如,一个公司的员工数量、销售额等。* 数量特征:例如,一个公司的产品种类、库存数量等。* 相关特征:与预测目标有直接或间接关系的特征,例如,一个公司的员工年龄、性别、教育背景等可能与公司的销售业绩有关。* 无关特征:与预测目标没有直接关系的特征,但可能对模型产生干扰,例如,一个公司的地理位置、天气情况等。* 冗余特征:指那些对预测结果贡献不大的特征,例如,一个公司过去几年的销售业绩,虽然与预测目标有关,但已经是已知信息,对预测结果没有太大的帮助。因此,答案为A、B、C、D、E都是正确的。'
  73. 将目标函数转换成适应度函数一般应遵循的原则包括( )。

  74. A:适应度必须非正 B:优化过程中目标函数的变化方向应与群体进化过程中适应度函数变化方向一致 C:优化过程中目标函数的变化方向应与群体进化过程中适应度函数变化方向相反 D:适应度必须非负 E:必须是实数

  75. 对于企业存储设备而言,根据存储实现方式,可将数据存储划分为( )。

  76. A:文件存储 B:直接附加存储 C:网络附加存储 D:网络存储 E:存储区域网络

  77. 深度学习近十年保持高速发展的原因有( )。

  78. A:多层次设计 B:生成对抗网络 C:注意力机制 D:多阶设计 E:优秀的容量控制法
    AI参考:正确选项为:A:多层次设计、B:生成对抗网络、C:注意力机制、E:优秀的容量控制法。深度学习近十年保持高速发展的原因主要有以下几个方面:1. 多层次设计:深度学习模型通常采用多层次设计,使得模型能够更好地处理复杂的任务,提高模型的性能和泛化能力。2. 生成对抗网络(GANs):GANs是一种深度学习模型,它通过生成器和判别器之间的竞争来训练模型,从而生成高质量的图像等数据。3. 注意力机制:注意力机制可以增强模型对输入信息的关注程度,提高模型的识别和判断能力。4. 优秀的容量控制法:深度学习模型需要消耗大量的计算资源和存储空间,因此优秀的容量控制法是深度学习得以快速发展的关键之一。这些方法包括优化算法、使用稀疏表示等技术,有效地控制了模型的计算和存储需求。综上所述,以上四个因素是深度学习近十年保持高速发展的主要原因。而D选项“多阶设计”并不是深度学习高速发展的主要原因,因此被排除在外。'
  79. 一元线性回归的显著性检验包括( )。

  80. A:回归系数的检验 B:密度检验 C:回归检验 D:统计决策检验 E:线性关系的检验
    AI参考:正确答案是【E:线性关系的检验】。一元线性回归的显著性检验包括线性关系的检验(E对),即检验样本数据是否符合一元线性回归方程的假设条件,即样本数据是否符合直线关系。其他选项与一元线性回归的显著性检验无关。'
  81. 最大池化取池化窗口中输入元素的最大值作为输出。

  82. A:对 B:错

  83. 所谓推理, 就是为了达到某一目标而多次地进行某种操作、 运算、 推理或计算的过程。

  84. A:错 B:对

  85. 线性判别式分析也叫做Fisher线性判别。

  86. A:对 B:错

  87. 集成性特性是数据仓库和操作型数据库的根本区别。

  88. A:对 B:错
    AI参考:正确答案是A:对。数据仓库与操作型数据库的根本区别在于数据仓库具有集成性特性,能够有效地集成企业多维度的数据,为决策分析提供充分的数据支持。因此,集成性特性是数据仓库和操作型数据库的根本区别。'
  89. 数据处理是对数据的采集,存储检索,加工变换和传输等操作。

  90. A:对 B:错

  91. 在进行模型训练之前,不需要对Iris数据集进行任何处理。

  92. A:对 B:错
    AI参考:B:错。在进行模型训练之前,通常需要对Iris数据集进行一些预处理操作,例如数据清洗、特征选择、数据标准化等,以便更好地适应模型训练。因此,对Iris数据集进行任何处理是必要的。'
  93. 多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。

  94. A:对 B:错

  95. 深度学习的可解释性差。

  96. A:错 B:对

  97. 卷积运算是卷积窗口中的输入子数组与核数组按照对应元素相除并求和。

  98. A:错 B:对

  99. 卷积层和最大池化层的作用是一样的。

  100. A:对 B:错
    AI参考:B:错。卷积层和最大池化层在卷积神经网络(CNN)中的作用是不同的。卷积层通常用于特征提取和数据增强,而最大池化层则用于减小空间尺寸并提取局部特征。两者在处理图像数据时具有不同的作用。因此,卷积层和最大池化层的作用是不一样的。'
  101. 两个等长的字符串s1和s2之间的汉明距离定义为将其中一个变为另一个所需要做的最小替换次数。

  102. A:对 B:错
    AI参考:答案是A。两个等长的字符串s1和s2之间的汉明距离定义为将其中一个变为另一个所需要做的最小替换次数。所以这个表述是正确的。'
  103. 数据可视化是指把数据通过直观的可视化的方式展示给用户。

  104. A:对 B:错

  105. 填充是在输入四个角的位置填充元素255。

  106. A:对 B:错

  107. 数据工程是指面向不同计算平台和应用环境,使用信息系统设计开发和评价的工程化技术和方法。


  108. A:错 B:对

  109. 传统的数据采集不仅能够按照某种匹配模式抓取数据,同时能够实时监控数据质量。

  110. A:对 B:错
    AI参考:答案:B:错。传统的数据采集工具通常只能抓取数据,而不能实时监控数据质量。数据质量监控通常需要使用专门的工具或服务来实现。'
  111. PCA 原理中,找出第一个主成分的方向,也就是数据方差最大的方向。

  112. A:对 B:错
    AI参考:正确答案是B:错。在PCA(主成分分析)原理中,找出第一个主成分的方向,也就是数据方差最大的方向,这个说法是错误的。实际上,第一个主成分的方向是数据协方差矩阵的特征向量,它反映了数据集中最主要的特征方向。这些特征向量不一定是方差最大的方向,而是根据数据协方差矩阵的特征值大小来确定的。因此,在PCA中,找到第一个主成分的方向并不一定是数据方差最大的方向。'
  113. Apriori算法具有这样一条性质:任一频繁项集的所有非空子集也必须是频繁的。

  114. A:对 B:错
    AI参考:B:错Apriori算法是一种频繁项集挖掘算法,它的性质是任一频繁项集的所有子集不一定是频繁的,只有满足一定条件的子集才能被称为频繁的。因此,选项B是错误的。'
  115. AlexNet证明手工设计的特征仍然比学习到的特征好。

  116. A:对 B:错
    AI参考:B. 错。AlexNet表明学习到的特征往往优于手工设计的特征。AlexNet利用了大量的学习到的特征来处理图像分类任务,而这些特征是从原始图像中学习得到的。这意味着深度学习算法能够从大量的数据中学习到更有效和更有用的特征,而不需要手动设计它们。'
  117. 集成性是指数据仓库会将不同来源数据库中的数据汇总到一起。

  118. A:对 B:错
    AI参考:答案:B:错。集成性是指数据仓库能够对来自多个不同类型和来源的数据进行汇总、整合、一致性和优化处理,以便支持分析。集成性不仅仅是简单地将不同来源的数据库中的数据汇总在一起,还包括数据的清洗、转换、融合、组织和访问控制等方面的处理。因此,该说法是错误的。'
  119. 计算机视觉主要研究目标是使计算机具有通过二维图像认知三维环境信息的能力。

  120. A:对 B:错
    AI参考:答案是A。计算机视觉主要研究目标是使计算机具有通过二维图像认知三维环境信息的能力。这是计算机视觉领域的核心目标,通过图像处理和分析技术,使计算机能够理解和识别三维环境中的物体和场景。因此,这个判断题的答案是A,即“对”。"

温馨提示支付 ¥1.85 元后可查看付费内容,请先翻页预览!
点赞(1) dxwkbang
返回
顶部