1.数据产品开发是数据科学的重要研究任务之一,关于数据产品开发正确的叙述()。
A:数据产品开发更加强调的是数据加工的增值活动。 B:数据产品开发具有以数据为中心、多样性、层次性和增值性等特征。 C:数据产品开发能力也是数据科学家的核心竞争力。 D:数据科学的学习目的之一是提升自己的数据产品开发能力。
答案:数据产品开发具有以数据为中心、多样性、层次性和增值性等特征。###数据产品开发更加强调的是数据加工的增值活动。###数据产品开发能力也是数据科学家的核心竞争力。###数据科学的学习目的之一是提升自己的数据产品开发能力。
2.数据数据科学家的工作包括()。
A:用多种高级算法对数据进行深层分析 B:基于数据的管理 C:洞悉数据背后的价值 D:开发能对数据进行整合、存储和提取的软件,并从软件的应用中获取数据。
答案:基于数据的管理; 洞悉数据背后的价值; 用多种高级算法对数据进行深层分析
3.从理论体系看,数据科学主要以()为理论基础,其主要研究内容包括数据科学基础理论、数据加工、数据计算、数据管理、数据分析和数据产品开发。
A:机器学习 B:统计学 C:数据可视化 D:(某一)领域知识
答案:(某一)领域知识###数据可视化###机器学习###统计学
4.数据故事化的情景包括()。
A:虚构情景 B:变换情景 C:移植情景 D:还原情景
答案:移植情景###虚构情景###还原情景
5.数据科学项目中的数据工程师负责()
A:负责在具体的软/硬件上部署和实施数据科学家提出的方法与技术方案。 B:数据管理策略以及数据处理方法与技术方案的选择。 C:管理软硬件系统和基础设施。 D:数据产品的研发。
答案:数据科学家
6.列表(List)是 R 中最复杂的数据类型,可包含()类型的数据。
A:数组 B:向量 C:数据框 D:矩阵
答案:向量; 矩阵; 数组; 数据框
7.数据加工的目的包括()。
A:提升数据质量 B:提升数据计算量 C:降低数据计算的复杂度 D:提升数据处理的准确性
答案:提升数据处理的准确性###提升数据质量###降低数据计算的复杂度
8.关于KNN算法的叙述正确的是()
A:算法的关键在于“计算新增数据特征与已有样本特征之间的相似度”。 B:K值是分类的类别值。 C:算法应用的前提条件是在训练集及其每个样本的分类标签信息为已知。 D:计算特征之间的相似度的方法有很多,最基本且最常用的方法就是距离法。
答案:算法的关键在于“计算新增数据特征与已有样本特征之间的相似度”。; 算法应用的前提条件是在训练集及其每个样本的分类标签信息为已知。; 计算特征之间的相似度的方法有很多,最基本且最常用的方法就是距离法。
9.机器学习是()。
A:实现和优化机器的自我学习。 B:一种能够赋予机器学习的能力的方法。 C:计算机模拟人的学习行为,通过学习获取知识和技能的系统。 D:一个系统自我改进的过程。
答案:"AI参考:正确选项是【B,C】。 机器学习是一种能够赋予机器学习的能力的方法,通过模拟人类学习行为,通过学习获取知识和技能的系统,是一种实现和优化机器的自我学习的方法。机器学习是计算机科学的一个分支,其目的是使机器能够从数据中学习并利用所学知识做出决策,无需明确编程即可执行预测和决策任务。机器学习的主要任务是通过构建适当的算法和模型来自动从数据中提取有用的信息,以优化机器的性能和适应不同的任务。因此,选项B和C都是正确的答案。选项A和D虽然也涉及到机器学习的一些方面,但不是机器学习的核心概念。"
10.数据可视化是()
A:将数据映射成符合用户视觉感知的可见视图的过程。 B:一种洞察统计分析无法发现的结构和细节分析方法。 C:本质是视觉编码。 D:用来处理统计图形、抽象地理信息或概念模型的空间数据。
答案:"AI参考:正确选项是【多选题】 A:将数据映射成符合用户视觉感知的可见视图的过程。 数据可视化是将数据转化为图形图像的过程,它通过视觉手段帮助用户更好地理解和分析数据,将数据映射成符合用户视觉感知的可见视图的过程。它是一种洞察统计分析无法发现的结构和细节分析方法,同时也可以用来处理统计图形、抽象地理信息或概念模型的空间数据。虽然它不是视觉编码的本质,但它确实涉及到了视觉编码这一过程。因此,选项A、B、D都是正确的解释。选项C虽然也是关于数据可视化的,但“本质是视觉编码”这一表述不够准确。"
11.数据科学需要解决的终极问题是将大数据放在一个完整的生态系统之中去认识与利用,建设“数据生态系统”。
A:错误 B:正确

12.数据可视化的基础方法建立在视觉编码方法论基础上,应用不仅限于特定领域或任务范围。
A:错误 B:正确 13.一些在低维度空间上表现较好的算法很可能在高维度空间数据上效果低或效率低,甚至不可行。该现象在机器学习算法的过拟合现象。
A:错误 B:正确 14.将数据的特征值按比例缩放,使之落入一个特定的区间,这种加工方法称为数据清洗。
A:错误 B:正确 15.数据工程师需要开发能对数据进行整合、存储和提取的系统,并从软件的应用中获取数据。
A:正确 B:错误 16.数据产品开发更加强调的是数据加工的增值活动。
A:错误 B:正确 17.矩阵是包含同种数据的二维数据结构。
A:正确 B:错误 18.矩阵是包含各种数据的二维数据结构。
A:正确 B:错误 19.预定义审计的前提条件来源数据带有自描述性信息。
A:对 B:错 20.数据审计、数据清洗、数据变换、数据集成等数据预处理活动并不一定存在互斥关系,多个活动在内涵和外延存在一定的重叠关系,在一项预处理任务中可能采用多种加工方法。
A:错 B:对 21.数据科学以揭示“大数据” 的内容、形态、规律为核心内容。
A:正确 B:错误 22.视觉通道是一种数据可视化的基础方法,在视觉上将目标物体或形象与另一领域的参照物进行相似性对比。
A:正确 B:错误 23.数据学科是一门通过认识数据问题,用技术的方法解决数据问题的科学。
A:正确 B:错误 24.黑客 Hacker是一个闯入计算机网络系统,目的在于破坏和偷窃信息的个体。
A:正确 B:错误 25.K-means 算法是一个经典的分类算法。
A:错误 B:正确 26.数据科学中的“计算”包括数据的查询、挖掘、洞见、分析、可视化等更多类型。
A:正确 B:错误 27.函数knn()返回一个因子向量,为测试数据集中的每一个案例返回一个预测标签值。
A:错误 B:正确 28.KNN(K-Nearest Neighbor)算法是决策树学习的机器学习算法的一种。
A:错误 B:正确 29.KNN(K-Nearest Neighbor)算法是基于实例的学习的机器学习算法的一种。
A:正确 B:错误 30.write.table()与write.csv()函数可以很方便的将数据写入表格型数据文档。
A:正确 B:错误 31.将“原始数据”转换为“一次数据”(或“二次数据”)的过程,在数据科学中称为()
A:数据柔术(Data Jujitsu) B:数据产品(Data Products) C:数据打磨(Data Wrangling) D:数据改写(Data Munging) 32.x = c(42,7,64,9)x[-2]的执行结果是()
A:42 7 9 B:64 9 C:42 64 9 D:42 7 33.m1n1c(m1,n1) 执行结果:()
A:9 2 8 3 7 4 B:9 7 2 4 C:1 1 1 1 1 1 D:9 8 7 2 3 4 34.图灵奖获得者Jim Gray提出了科学研究的第四范式,是指()。
A:需要直接面对所研究的物理对象。 B:只需要从大量数据中查找和挖掘所需要的信息和知识。 C:模拟仿真要研究的物理对象。 D:理论推导物理模型 35.如果一个计算机系统在完成某一类任务T的性能P能够随着经验E而改进,则称该系统在从经验E中学习,将此系统称为()。
A:手写体识别系统 B:机器学习系统 C:机器人驾驶学习系统 D:西洋双陆棋对弈系统 36.主要采用分类分析法和趋势分析法,关注的重点是“未来”的数据分析类型是()
A:推断性分析 B:规范性分析 C:描述性分析 D:预测性分析 37.K-Means 算法聚类的原始数据集假如有150个对象,选择3个对象作为初始聚类中心对象,那么k值是
A:50 B:3 C:5 D:150 38.()函数可对数据对象进行统计概述。
A:mean() B:max() C:sum() D:summary() 39.通常用于从数据中发现未知的模式信息,当训练集中未带标签信息时,常采用的机器学习算法是()
A:半监督学习 B:无监督学习 C:随机森林算法 D:有监督学习 40.在大数据时代,人们对数据的认识与研究视角是()。
A:数据能为我做什么 B:如何设计算法和模型 C:我能为数据做什么 D:如何降低计算复杂度 41.data1<-c(1,2,3,NA,4)mean(data1)的执行结果是()
A:NA B:NULL C:2.5 D:T 42.KNN算法模型中,选择未知样本一定范围内确定个数的K个样本,该K个样本中(),则未知样本判定为该类型。
A:第一个样本属于某一类型 B:最后一个样本属于某一类型 C:大多数样本属于某一类型 D:居中的样本属于某一类型 43.向量age1中保存如下值:3,6,7,2,5,4,1,5,8,1,6,9,4,3,7,8,4。哪个命令用于找出25%和75%分位数。
A:Quantile(data1,25%,75%) B:quantile(data1,100)0.25,0.75 C:quantile(data1,c(0.25,0.75) D:quantile(data1)0.25,0.75 44.数据产品开发具有以数据为中心、多样性、层次性和()等特征。
A:结构性 B:功能性 C:增值性 D:延展性 45.经过一定的转换处理之后,可以用传统的关系型数据库存储和管理的数据是()
A:半结构化数据 B:非结构化数据 C:结构化数据 D:海量数据 46.IBM认为,大数据是拥有以下四个共同特点(又称为"4V"):极大的数据量级、 以极快的速度移动、极广泛的数据源类型 以及()
A:极高的准确性 B:极高的真实性 C:极高的多样性 D:极高的长久性 47.R程序包加载到内存可以使用()函数。
A:install.packages() B:install.package() C:install() D:library() 48.数据集合:3,4,8,7,6,3,2,5,7,1,5,8,3,2,7,6,4,保存向量dd中。哪个命令用于找出25%分位数。
A:quantile(dd)0.25 B:quantile(dd,100)0.25 C:quantile(dd,0.25) D:Quantile(d'd,25%) 49.quantile()函数中默认的分位点是()
A:0%、25%、50%、75%和100% B:0%、20%、40%、60%、80%和100% C:0%和100% D:0%、50%和100% 50.seq(from=3, to=21, by=3 )执行结果是()
A:3 6 9 12 15 18 21 B:3 5 7 12 15 18 21 C:3 6 9 13 15 19 21 D:3 5 7 9 13 17 21

温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(4) dxwkbang
返回
顶部