1.在创建数据库时数据库名称最长可以 ( ) 字符
A:128 B:256 C:64 D:1024
答案:AI参考:在创建数据库时,数据库名称的最长字符数通常取决于所使用的数据库管理系统(DBMS)。在大多数情况下,数据库名称的最大长度为255个字符。因此,正确选项是B:256。'
2.开源大数据平台Hadoop体系,HBase组件的分布式存储最小单元是什么? ( )
A:Cloumn Family B:Cell C:Region D:Table,
答案:AI参考:在开源大数据平台Hadoop体系中,HBase组件的分布式存储最小单元是Cell。Cell是HBase的基本存储单位,代表了存储在数据库中的数据的最小单元,它包含了数据、时间戳以及相关元数据。因此,答案为B:Cell。'
3.在se-score表中查询存在成绩为空的学生的学号和课程号,以下逻辑可以实现的是? ( )
A:select studentno.courseno from se-cuurse where score is noll: B:select studentno,courseno from se-cuurse where score=null; C:select studentno,courseno from se-curse where score=/N; D:select studentno,courseno from se cuurse where score=",
答案:AI参考:正确答案是选项D:\n\nselect studentno,courseno from se-curse where score=","\n\n在SQL查询中,要查询存在成绩为空的学生的学号和课程号,需要使用条件语句来筛选出成绩为空的数据。选项D中的查询语句使用了“score=","”作为条件,表示成绩字段值为空字符串,即成绩为空的情况。其他选项中的语法错误或逻辑不正确,无法实现所需的功能。因此,选项D是正确答案。'
4.目前最多支持指定( )张小表,所以小表占用的内存总和不得超过( )MB。
A:4,640 B:6,640 . C:12,1024 D:8,640
答案:AI参考:正确答案是:B:6,640。\n系统支持最大连接数一般与系统硬件有关,比如内存大小,磁盘大小等,如果按照目前技术发展水平来看,一个系统最大支持1000个左右小表连接,同时需要支持每个小表不超过25MB的内存,则最大支持6640个左右小表,总内存不超过6MB。故答案为B。'
5.创建数据库、表应该使用数据那种语言?( )
A:DCL B:DDL C:TCL D:DML
答案:AI参考:正确答案是B:DDL(数据定义语言)。\n\n创建数据库、表等操作属于数据定义语言(DDL)的范畴,用于定义和描述数据库中的数据结构。选项A、C、D分别代表数据控制语言(DCL)、命令行界面语言(TCL)和数据操纵语言(DML),与创建数据库、表的操作不相关。因此,创建数据库、表应该使用DDL语言。'
6.MaxCompute将SQL语句的关键字作为保留字。在对表、列或是分区命名时如若使用关键字,需给关键字加符号进行转义,否则会报错。下列哪一项不属于保留字? ( )
A:FULL B:TEST C:IF D:IS
答案:AI参考:答案:B:TEST。\n\n解释:在MaxCompute中,关键字包括FULL、IF、IS等,而TEST不属于这些关键字,因此在对表、列或是分区命名时不需要对TEST进行转义。所以选项B不属于保留字。'
7.位运算符不支持隐式转换,只允许那种数据类型。( )
A:Boolean B:Decimal C:Double D:BIGNT
答案:AI参考:在位运算符中,不支持隐式转换,只允许对两种数据类型进行运算,它们是:Boolean、Byte、Short、Int、Long。因此,选项A:Boolean是正确答案。位运算符只能用于Boolean、Byte、Short、Int、Long这几种数据类型,而不支持Decimal、Double或BIGNT等其他数据类型。'
8.据清洗的方法不包括下列哪一项? ( )
A:一致性检查 B:重复数据记录处理 C:噪声数据清除 D:缺失处理
答案:AI参考:正确答案是A:一致性检查。\n\n清洗方法包括重复数据记录处理、噪声数据清除、缺失处理等,而一致性检查属于数据预处理中的一部分,不属于清洗方法。因此,本题答案为A。'
9.显示数据转换cast(1.65 as bigINT)的结果为? ( )
A:1.7 B:2 C:1 D:1.6
答案:AI参考:正确选项为B:2。\n\n在SQL中,cast函数用于将一种数据类型转换为另一种数据类型。在这个例子中,我们将浮点数1.65转换为bigINT类型。由于bigINT类型的范围大于浮点数类型,所以这个转换会导致数值被截断,只保留整数部分,因此结果为2。'
10.以下SQL函数中属于聚合函数的是? ( )
A:RAND B:ABS C:STDDEV D:EXTRACT
答案:AI参考:正确答案是C:STDDEV。\n\n聚合函数是SQL中用于对一组值进行统计和计算的一组函数,如COUNT、SUM、AVG、MAX、MIN、GROUP_CONCAT等。其中,STDDEV是标准差聚合函数,用于计算一组数值的离散程度。而ABS是绝对值函数,RAND是随机数函数,EXTRACT是日期时间函数,它们都不是聚合函数。因此,本题答案为C。'
11.2020年天猫双十一成交额4982亿元,最高峰值订单54.4万笔/秒,单日处理数据量达到970PB。这一现象体现了大数据什么特征? ( )
A:数据量大 B:处理速度快 C:数据种类多 D:价值密度低

12.开发工程师需要求数据3.256的平方根,下列函数中可以实现求取非负数平方根的是? ( )
A:EXP B:POW C:SQRT D:DIV 13.MaxCompute的SQL语言有以下三大类 ( )
A:DML B:DQL C:TCL D:DDL 14.大数据涉及的数据结构有下列哪些? ( )
A:半结构化数据 B:非结构化数据 C:全结构化数据 D:结构化数据 15.大数据的存储采用哪些存储方式? ( )
A:磁盘列阵 B:分布式存储 C:单硬盘存储 D:压缩存储 16.HBase的主节点HMaster的作用有哪些? ( )
A:负载均衡 B:处理对Region的10请求,切分过大的Region C:负责分配Region D:管理用户对表的增制改查操作 17.数据挖掘一般无需预先设定好的主题,主要是在现有数据上进行基于各种算法的计算,实现一些( )的需求。
A:高级别数据分析 B:高级别数据计算 C:高级别数据处理 D:高级别数据优化 18.根据判定系数R2与F统计量的关系可知,当R2=1时有( )。
A:F=∞ B:F=0 C:F=-1 D:F=1 19.决策树算法是一种贪心算法,是( )的逐次搜索方式,逐渐产生决策树模型结构。( )。
A:由下至上 B:由上至下 C:由右至左 D:由左至右 20.置信度(confidence)是衡量兴趣度度量( )的指标。
A:新颖性; B:简洁性; C:实用性; D:确定性; 21.训练数据集中对象的属性分为哪两类?( )。
A:分类属性和类别属性 B:数据属性和类别属性 C:分化属性和数据属性 D:分化属性和分类属性 22.系统性原理是指预测必须以系统的观点为指导,采用哪种方法实现预测的系统目标?( )。
A:系统分析; B:回归分析 C:相关性分析; D:时间分析; 23.大数据分析并不是简单的数据分析的延伸,对大数据进行分析需要高性能的( )。
A:计算架构和存储系统 B:计算结构和存储系统 C:计算结构和存储库 D:计算架构和存储库 24.推荐系统的构成有哪些( )。
A:行为记录模块 B:推荐算法模块 C:其他三个选项均正确 D:模型分析模块 25.EM算法的引入是因为概率模型中包含( )。
A:隐变量 B:随机变量 C:观测变量 D:固定值 26.使用聚类方法确定最相似用户群的时候,使用离目标用户( )一类用户的中心处的打分。
A:最远 B:不近不远 C:最近 D:其他三个选项都不正确 27.预测的基本要素不包括以下哪点?( )。
A:预测结果 B:发展趋势 C:预测者 D:预测方法和技术 28.基于产品的协同过滤需要回答( )。
A:其他三个选项均正确 B:如何预测某一用户对某一产品的打分; C:如何计算产品之间的相似性 D:如何选择每个产品的最相似产品 29.发展系数a的有效区间为?( )。
A:(-1,1) B:(-4,4) C:(-3,3) D:(-2,2) 30.模型的作用是( ),以适于用户使用的方式重新组织和展现。
A:从数据中找到知识 B:从数据中找到信息 C:从知识中找到数据 D:从信息中找到数据 31.推荐是( )决策的一种手段。
A:辅助 B:控制 C:其他三个选项均正确 D:主导 32.下列关于文本分析的说法错误的是( )。
A:词频是指某一个给定的词语在文本中出现的次数 B:无监督关键词提取方法将关键词提取视为分类过程 C:关键词提取算法主要有无监督关键词提取方法和有监督关键词提取算法 D:分词能够通过某种方式将句子中的各个词语识别并分离 33.常用的文本特征选取方式有( )。
A:其他三个选项均正确 B:根据专家的知识挑选出最有影响的特征 C:从原始特征中挑选出一些具有代表性的特征 D:用数学的方法进行选取 34.下列属于格式内容清洗的是?( )
A:修正矛盾内容 B:非法字符检测 C:去重 D:去掉不合理值 35.以下哪种属于系统抽样?( )
A:在100个人中选取第2、12....92人 B:从总体的N个样本中抽取n个 C:在饮料口味改变调查中多选取常购买的人 D:调查近视眼从一个班级中抽样 36.以下关于聚类分析的陈述,哪些是正确的( )。
A:进行聚类分析的变量应该进行标准化处理 B:进行聚类分析的统计数据有关于类的变量 C:递推公式有利于运算速度的提高 D:不同的类间距会产生不同的递推公式 37.预测方法选择原则( )。
A:从经济、时间与适用性的角度选择预测方法 B:根据预测结果的准确程度选择预测方法 C:根据预测对象资料的特征和规律选择预测方法 D:根据预测目标的要求选择预测方法 38.常见的权重组合的方法有( )。
A:综合加权 B:IR_IC加权 C:IC均值加权 D:等权加权 39.常用的决策树算法有?( )
A:CART B:Hunt C:ID3 D:C4.5 40.Aprior算法的关键步骤是( )
A:剪接步; B:中和步; C:减枝步; D:连接步; 41.以下哪些属于非结构化数据( )。
A:音频 B:视频 C:文本 D:图像 42.K-means聚类法的局限性体现在( )。
A:K-means聚类法对变量的要求也比较高 B:由K-means聚类法得到的聚类结果,轮廓系数都不是很大 C:K-means聚类法对噪声和离群点敏感 D:应用K-means聚类法需要预先直到聚类个数 43.在DBSCAN算法中,数据点分为哪几类( )。
A:边界点 B:核心样本 C:核心点 D:噪音点 44.经典的计算用户相似度可以用( )方法。
A:其他三个选项均不正确 B:皮尔逊相关度 C:调整余弦相似性 D:余弦相似性 45.属于度量的类型的有( )。
A:不可加性度量 B:不确定性度量 C:半可加性度量 D:可加性度量 46.假设线性回归模型满足全部基本假设,则其参数的估计量具备( )。
A:无偏性 B:有效性 C:可靠性 D:线性 47.logistic回归适用于因变量为( )。
A:多分类无序变量 B:多分类有序变量 C:连续型定量变量 D:二分类变量 48.对样本进行聚类,通常采用的相似性统计量( )。
A:绝对距离 B:欧式距离 C:切比雪夫距离 D:夹角余弦 49.回归分析中估计回归参数的方法主要有( )。
A:极大似然法 B:相关系数法 C:最小二乘估计法 D:矩估计法 50.以下哪几项属于分词的方法( )。
A:横向最大匹配法 B:双向最大匹配法 C:逆向最大匹配法 D:正向最大匹配法 51.数据缺失值填充方法?( )
A:预测填充 B:统计填充 C:统一填充 D:删除 52.推荐系统可以( )角度评估。
A:用户满意度 B:多样性 C:新颖性 D:惊喜度 53.数据可视化根据数据类型可以分为( )。
A:多维数据可视化 B:文本可视化 C:时空数据可视化 D:网络可视化 54.数据标准化与归一化方法?( )
A:反正切函数 B:log函数转换 C:0-1标准化 D:Z-score标准化 55.依据分析的数据类型,可将大数据分析模型分为( )。
A:面向非结构化文本数据的多元分析 B:面向结构化多维数据的多元分析 C:面向半结构化图数据的图分析 D:面向非结构化文本数据的文本分析 56.灰色预测的数据是通过生成数据的模型所得到的预测值的逆处理结果( )。
A:对 B:错 57.EM算法一定收敛。( )
A:对 B:错 58.用户喜好矩阵的两个维度分别是用户维度和产品维度。( )。
A:错 B:对 59.对于项集来说,置信度没有意义。( )
A:对 B:错 60.数据集市包含的数据量比较多。( )
A:对 B:错 61.词嵌入方法使用低维、稠密、实值的词向量来表示每一个词,从而赋予词语丰富的语义含义,并使得计算词语相关度成为可能。( )
A:对 B:错 62.传统数据分析建模方法与大数据分析建模方法是对立的。( )
A:对 B:错 63.剩余变差,是未被回归直线解释的部分,是由解释变量以外的因素造成的。( )
A:错 B:对 64.计量经济模型中的被解释变量一定是,内生变量。( )
A:错 B:对 65.分类分析是指在已知研究对象已经分为若干类的情况下,确定新的对象属于哪一类。( )
A:错 B:对 66.概率推断原理是指当被推断的结果能以较大的概率出现时,则认为该结果成立。( )。
A:对 B:错 67.为评论者打分目的是根据指定的人员对每个人进行打分,找出最接近的匹配结果。( )。
A:错 B:对 68.K-Medoids是对K-means聚类算法的优化,因此比K-means聚类法应用更为广泛。( )
A:错 B:对 69.轮廓系数的值越趋近于1则代表紧密度和分离度都相对较优,即聚类效果越好。( )
A:错 B:对 70.Apriori算法是一种典型的关联规则挖掘算法。( )
A:错误 B:正确 71.欧几里德距离通过判断两组数据与某一直线拟合程度来判断相似度。( )。
A:错 B:对 72.在大数据分析中,想要从文本中获取信息首先要将其转换为结构化的数据。( )
A:错 B:对 73.FP-Growth算法的优点是算法步骤的时间比较长。( )
A:错 B:对 74.密度可达是不具有传递性的。( )
A:错 B:对 75.先进行数据清洗,再进行数据仓库数据模型的优化。( )
A:对 B:错 76.以下SQL语句中,获取平均值的是?( )
A:select SUM(price) fromA B:select MIN(price) fromA C:select MAX(price) fromA D:select AVG(price) fromA 77.开源大数据平台Hadoop体系,系列哪一组件可以进行实时数据处理? ( )
A:MapReduce程序 B:Sqoop C:Hive D:Spark 78.下列日常工作场景,哪些适用于阿里云BI报表平台Quick BI? ( )
A:数据权限行级管控,实现同一份报表,不同的人看不同的数据 B:非结构化数据的表报分析需求 C:数据获取简单,业务人员分析各维度的数据不再需要频繁找技术写SQL取数 D:与内部系统集成,统一数据入口,解决员工使用多系统的麻烦,提高查看数据的效率。 E:适应多变的业务需求,解决统计指标经常随业务发展而频繁变动,负担重,响应慢等问题 79.用二维表来表示实体及实体之间联系的数据模型称为 ( )
A:网状模型 B:层次模型 C:实体联系模型 D:关系模型 80.下列不适用于大数据应用场景的是?( )
A:通过数据库上云,加快交易数据的增删改查速度 B:通过数据大屏实时展现数据 C:通过搭建数据仓库,实现传统的数据分析 D:通过智能算法,实现语音、图像、文本分析处理等 81.下列关于舍恩伯格对大数据特点的说法中,错误的是 ( ).
A:体量巨大 B:种类繁多 C:变化速度快 D:价值密度高 82.大数据存储的关键技术是分布式存储与访问,以下关于数据存储不正确的是?( )
A:列式存储按列存放,只读取查询到的列,能有效减少10消耗; B:列式存储不适合更新和删除的实时操作。 C:传统的关系型数据库采用行存储,分布式数据库大多采用列式存储; D:列式存储通过建立索引,来降低查询响应时间; 83.下列属于数据操纵语言的是 ( ) 分值5分
A:SELECT B:INSERT C:UPDATE D:DELETE 84.开源大数据体系下,HBase组件的特点有以下哪几项? ( )
A:可以支撑实时或批量数据更新 B:丰富的数据类型 C:更新后旧版本任然会保留 D:可以支撑高并发KV查询场景 85.order by子句只能通过指定列名的值进行排序分值5分 ( )
A:正确 B:错误 86.出现在查询的select列表中的每一列都必须同时出现在group by子句中。( )
A:错误 B:正确 87.大数据存储采用分布式存储技术,所以要求每个节点的存储磁盘高性能 ( )
A:错 B:对 88.大数据平台HBase支持简单的增删改查。( )
A:正确 B:错误 89.在Maxcompute SQL使用动态分区生成数据时,动态生成的成分区值不可以为NULL。 ( )
A:正确 B:错误 90.MaxCompute SQL支持事务、主外键约束、索引等分值5分 ( )
A:正确 B:错误 91.Spark运算比Hadoop的MapReduce框架快,原因是Hadoop在一次MapReduce运算之后,会将数据的运算结果从内存写入磁盘中,第二次MapReduce运算时在从磁盘中读取数据,所以其瓶颈在2次运算间的多余I0消耗。Spark则是将数据一直缓存在内存中, 直到计算得到最后的结果,再将结果写入到磁盘,所以多次运算的情况下,Spark是比较快的。( )
A:正确 B:错误 92.大数据关键技术包含数据采集、数据预处理、数据存储、数据挖掘、数据分析与可视化、数据安全等。( )
A:正确 B:错误 93.大数据平台HBase只支持字符串数据类型。( )
A:正确 B:错误 94.数据可视化的目的是为了尽可能多的发现问题并得出“不良结论",这样才能体现数据分析的价值。( )
A:错误 B:正确

温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(5) dxwkbang
返回
顶部