1.数据仓库的最终目的是( )。
A:建立数据仓库逻辑模型 B:收集业务需求 C:开发数据仓库的应用分析 D:为用户和业务部门提供决策支持
答案:为用户和业务部门提供决策支持
2.置信度(confidence)是衡量兴趣度度量( )的指标。
A:新颖性 B:实用性 C:简洁性 D:确定性
答案:简洁性
3.智能手环的研发,体现了数据采集的( )技术。
A:API接口 B:传感器 C:网络爬虫 D:统计报表
答案:传感器
4.有价值的信息往往是几( )内的数据。
A:分钟 B:小时 C:年 D:秒钟
答案:秒钟
5.如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有( )。
A:分类准则 B:已知类别样本质量 C:量纲 D:样本大小
答案:分类准则
6.在大数据时代,下列说法正确的是( )。
A:数据是最核心的部分 B:数据非常重要,一定要很好地保护起来,防止泄露 C:收集数据很简单 D:对数据的分析技术和技能是最重要的
答案:数据是最核心的部分
7.下列不属于4V特征的是( )。
A:Variety B:Value C:Volume D:Variability
答案:Variability
8.支撑大数据业务的基础是( )。
A:数据硬件 B:数据科学 C:数据人才 D:数据应用
答案:数据应用
9.中小型数据集,一般的预处理足够了,但超大型数据集,最可能采用( )处理。
A:数据清洗 B:数据变换 C:数据集成 D:数据归约
答案:数据归约
10.Apriori算法的加速过程依赖于以下( )策略。
A:抽样 B:并行 C:剪枝 D:缓冲
答案:剪枝
11.大数据公司的多样性表明了( )。
A:数据作用的体现 B:数据技术的发展 C:数据思维的创新 D:数据价值的转移

12.一元一次回归方程Y=a+bx中的a表示( )。
A:斜率 B:截距 C:回归直线 D:最小平均法 13.在数据生命周期的管理实践中,( )执行方法。
A:数据价值的发觉与利用 B:数据的管理和维护 C:数据存储和备份规范 D:数据应用开发和管理 14.大数据处理平台所涉及的关键技术主要起源于( )公司的科技成果。
A:阿里巴巴 B:谷歌 C:微软 D:IBM 15.收集湖水的PH值的来源数据是( )。
A:商业 B:互联网 C:科学实验 D:传感器 16.建立在相关关系的分析法技术上的预测是大数据的( )。
A:前提 B:核心 C:条件 D:基础 17.SPSS内部可以使用( )语言来编写程序,用于操作自动化,也适用于高级分析人员。
A:Sax Basic B:Python C:Java D:Go 18.属于信息时代的定律是( )。
A:摩尔定律 B:信息熵定律 C:二八定律 D:贝叶斯定律 19.数据清洗不包括( )。
A:异常检验 B:不一致性检查 C:数据归约 D:数据补全 20.属于多源数据剖析的技术有( )。
A:主题发现 B:表基础分析 C:值域分析 D:数据分布 21.HDFS的client拥有( )方法。
A:open B:creat C:read D:ack packet 22.异常检验的主要方法( )。
A:k-medioids B:基于聚类的异常挖掘 C:k-means D:k-近邻 23.影响聚类算法效果的主要因素有()
A:模式相似性测度 B:特征选取 C:已知类别的样本质量 D:分类准则 24.多节点计算涉及( )。
A:文件存储 B:任务调度 C:负载均衡 D:容错处理 25.大数据的科学价值和社会价值正是体现在( )。
A:大数据的价值已经不再是仅仅来源于它的基本用途,而更多的来源于它的二次运用 B:大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的用途 C:大数据已经撼动世界的方方面面,从商业科技到医疗、人文等社会的各个领域 D:大数据的掌握程度可以转化为经济价值的来源 26.大数据的含义包括( )。
A:变化很快 B:构成复杂 C:很有价值 D:数据很大 27.数据挖掘的预测建模任务主要包括( )问题。
A:分类 B:关联规则挖掘 C:回归 D:聚类 28.关于ID3算法,描述正确的是( )。
A:只能处理分类型变量 B:可以处理缺失值 C:使用信息增益来选择最佳分裂 D:不能处理缺失值 29.数据可视化中的对高维数据进行数据分析的可能操作有( )。
A:切块 B:降维 C:切片 D:旋转 30.在有监督学习中,我们如何使用聚类方法( )?
A:在进行监督学习之前,不能新建聚类类别 B:先创建聚类类别, 然后在每个类别上用监督学习分别进行学习 C:不可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习 D:使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习 31.属于大数据在社会综合治理中作用的是( )。
A:大数据的应用有利于办事效率提高 B:大数据的应用可以杜绝抗生素的滥用 C:大数据的运用能够维护社会治安 D:大数据的应用能够加强交通管理 32.下面符合舍恩伯格对于大数据特点看法的是( )。
A:数据价值密度高 B:数据类型多样 C:数据处理速度快 D:数据规模大 33.当前大数据产业发展的特点是( )。
A:规模较大 B:规模较小 C:增速缓慢 D:增速很快 34.大量的数据源导致( )爆炸式增长。
A:非结构化数据 B:结构化数据 C:去中心化数据 D:半结构化数据 35.数据再利用的意义在于( )。
A:挖掘数据的潜在价值 B:提高社会效益,优化社会管理 C:利用数据可拓展性拓宽业务领域 D:实现数据重组的创新价值 36.原始数据通常存在的质量问题是( )。
A:重复 B:高维度 C:有噪声 D:不完整 37.下列对于“脏数据”,说法正确的是( )。
A:格式不规范 B:意义不明确 C:编码不统一 D:数据不完整 38.在医疗领域,是怎么应用大数据技术的。
A:社保资金安全 B:用户行为分析 C:个性化医疗 D:临床决策支持 39.评估分类算法的要素的是( )。
A:避免过拟合 B:准确度 C:避免欠拟合 D:简洁性 40.下面大数据营销和传统营销的错误的是( )。
A:大数据营销比传统模式针对高 B:传统营销比大数据营销投入更少 C:大数据营销和传统营销平台不一样 D:传统营销模式比大数据营销实时性强 41.在数据预处理中能保持原始数据完整性基础上减少数据规模的操作是数据降维。
A:错 B:对 42.大数据的应用注重相关性法分析而不是重因果分析。
A:对 B:错 43.Namenode的作用是文件管理。
A:错 B:对 44.名义尺度的变量可以计算其频数、频率和累积频率。
A:对 B:错 45.对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据搜集的信息必须精确。
A:对 B:错 46.大数据具有大容量、高速度、多样性和价值密度低特征。
A:对 B:错 47.非结构化数据正在指数化增长。
A:错 B:对 48.大数据技术和云计算技术是两门完全不相关的技术。
A:对 B:错 49.大数据整合要保证各个数据源之间的一致性、相容性。
A:错 B:对 50.2008年9月,《Nature》在The next google第一次正式提出大数据。
A:对 B:错 51.SPSS中的宗教信仰变量属于有序尺度。
A:错 B:对 52.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题
A:错 B:对 53.Map的作用是结果的汇总。
A:对 B:错 54.将原始数据进行集成、变换、维度规约、数值规约是数据预处理步骤的任务。
A:错 B:对 55.在噪声数据中,波动数据比离群点数据偏离整体水平更大。
A:对 B:错 56.热力图中的亮色一般代表事件发生频率较高或事物分布密度较大,暗色则表示反之。
A:错 B:对 57.数据分类由两步过程组成:第一步,建立一个聚类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。
A:正确 B:错误 58.k-means是基于密度的聚类算法。
A:正确 B:错误 59.一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。因此分布式数据库具有物理的独立性、逻辑的一体性、性能上的可扩展性等特点。
A:对 B:错 60.大数据的核心思想就是用规模剧增来改变数据。
A:对 B:错

温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(7) dxwkbang
返回
顶部