云南大学
- 通过列联表研究定类变量之间的关联性,这实际上是通过相对频数条件分布的比较进行的。而如果两变量间是相关的话,必然存在着Y的相对频数条件分布相同,且和它的相对频数边际分布相同。
- 即使数据用于基本用途的价值会减少,但潜在价值却依然很大。
- Namenode的作用是文件管理。
- Hadoop只能在特定的PC下才能运行。
- MapReduce的思想是分治法。
- Hadoop是由HDFS和MapReduce组成的。
- 当前世界四大趋势指的是经济全球化、全球城市化、全球信息化和信息智慧化。
- SPSS不同变量间各属性不可以直接进行复制粘贴操作。
- 医疗行业产生的数据主要是PACS影像、B超、病理分析等他们主要是结构化数据。
- DataNode连续性发送报告给NameNode。
- 将原始数据进行集成、变换、维度规约、数值规约是数据预处理步骤的任务。
- 利用数据融合、数据模型、仿真技术等,可以逼近事物的本质,可以揭示出原来没有想到或难以展现的关联,大大提升政府决策的科学性。
- 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题
- 用于分类的离散化方法之间的根本区别在于是否使用类信息。
- 减少频繁模式的规模是关联规则应用的关键。
- 对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据搜集的信息必须精确。
- 消除信息孤岛的方法是统一化数据管理。
- 视频是结构化数据。
- SPSS中的宗教信仰变量属于有序尺度。
- 多节点计算中涉及的负载均衡,任务调度和容错处理都需要编程人员一一实现。
- 多节点计算涉及( )。
- 大量的数据源导致( )爆炸式增长。
- 数据分析师的职责是( )。
- 影响聚类算法效果的主要因素有()
- 当前大数据产业发展的特点是( )。
- 下面关于脏数据说法正确的是( )。
- 数据可视化中的对高维数据进行数据分析的可能操作有( )。
- 下列关于大数据说法,错误的是( )。
- 数据挖掘常用来( )。
- 传统的数据样式通常是( )。
- 大数据常见的挑战有( )。
- 下面属于结构化信息的有( )。
- 聚类算法可能基于( )划分。
- ( )是大数据应用的步骤。
- 大数据的含义包括( )。
- 有参数的特征值归约的方法有( )。
- 在医疗领域,是怎么应用大数据技术的。
- 大数据的科学价值和社会价值正是体现在( )。
- 大数据产生了新的( )。
- 决策树的经典生成算法有( )。
- 数据仓库之父是( )。
- 数据仓库的最终目的是( )。
- 关于OLAP的特性,下面正确的是: ( ) (1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性
- ( )是大数据最显著的特征。
- 分类变量使用( )建立预测模型。
- 支撑大数据业务的基础是( )。
- 下面( )不属于数据预处理。
- SPSS是由( )大学的三位学生创建的。
- 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的( )问题。
- 可用作数据挖掘分析中的关联规则算法有( )。
- 下面( )不是大数据可视化的工具。
- 相关分析和回归分析相辅相成,又各有特点,下面正确的描述有( )。
- NameNode的储存位置是( )。
- 关于KNN与K-means算法描述正确的是( )。
- Hadoop现在可以支持( )级别以上的大数据。
- 以下属于聚类算法的是( )。
- 采样分析的精确性随着采样随机性的增加而( ),但与样本数量的增加关系不大。
- ( )数据质量评估维度用来表示信息具有一个实体描述的所有必需的部分。
- 属于信息时代的定律是( )。
- 计算机溯源也称为世系(lineage)或者谱系(pedigree),用来描述( )的起源或者出处。
A:错 B:对
答案:错
A:错 B:对
答案:对
A:对 B:错
答案:对
A:错 B:对
答案:错
A:错 B:对
答案:对
A:对 B:错
答案:对
A:对 B:错
答案:对
A:错 B:对
答案:错
A:对 B:错
答案:错
A:对 B:错
A:错 B:对
A:对 B:错
A:对 B:错
A:对 B:错
A:错 B:对
A:错 B:对
A:错 B:对
A:错 B:对
A:错 B:对
A:对 B:错
A:负载均衡 B:文件存储 C:容错处理 D:任务调度
A:非结构化数据 B:半结构化数据 C:去中心化数据 D:结构化数据
A:对数据挖掘并呈现直观报告结果 B:对具体业务作出决策 C:建立合理的分析模型 D:对相关业务评估
A:分类准则 B:已知类别的样本质量 C:模式相似性测度 D:特征选取
A:增速很快 B:规模较大 C:规模较小 D:增速缓慢
A:有噪声 B:意义不明 C:完整 D:格式不统一
A:旋转 B:切块 C:降维 D:切片
A:大数据的应用注重因果分析,而不是相关分析 B:大数据的目的在于发现新的知识与洞察并进行科学决策 C:大数据具有体量大,结构单一,时效性强的体征 D:处理大数据需要采取新型计算构架和智能算法等新技术
A:分类 B:聚类 C:自然语言处理 D:文本情感分析
A:word B:html C:xml D:数据库表
A:标准不统一 B:处理效率低 C:数据剧增 D:无法共享
A:声音 B:医疗数据库 C:企业ERP D:视频
A:基于层次 B:基于偏差 C:基于统计 D:基于模型
A:数据输入 B:验证假设 C:使用决策支持工具输出结果 D:建模分析
A:构成复杂 B:变化很快 C:很有价值 D:数据很大
A:聚类 B:线性回归 C:选样 D:多元回归
A:社保资金安全 B:个性化医疗 C:用户行为分析 D:临床决策支持
A:大数据的价值已经不再是仅仅来源于它的基本用途,而更多的来源于它的二次运用 B:大数据的掌握程度可以转化为经济价值的来源 C:大数据已经撼动世界的方方面面,从商业科技到医疗、人文等社会的各个领域 D:大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的用途
A:科学研究方法 B:社会发展方式 C:管理决策方法 D:经济增长方式
A:RNN B:CRAT C:ID3 D:C4.5
A:Charles Bachman B:姚期智 C:Bill Inmon D:E. F. Codd
A:为用户和业务部门提供决策支持 B:建立数据仓库逻辑模型 C:开发数据仓库的应用分析 D:收集业务需求
A:(1) (2) (3) (4) (5) B:(2) (3) (4) C:(1) (2) (3) D:(1) (2) (3) (4)
A:数据类型单一 B:数据价值密度高 C:数据规模大 D:数据处理的速度比较快
A:二叉树 B:回归树 C:分类树 D:离散树
A:数据科学 B:数据人才 C:数据硬件 D:数据应用
A:数据清洗 B:数据归约 C:数据分析 D:数据变换
A:Princeton B:MIT C:Peking D:Stanford
A:关联规则发现 B:聚类 C:自然语言处理 D:分类
A:K均值法、SOM神经网络 B:决策树、对数回归、关联模式 C:Apriori算法、FP-Tree算法 D:RBF神经网络、K均值法、决策树
A:Jupyter B:Google Chart C:Photoshop D:Tableau
A:在相关分析中,相关的两变量都是随机的 B:在回归分析中,因变量和自变量都是随机的 C:在相关分析中,相关的两变量都不是随机的 D:在回归分析中,自变量是随机的,因变量不是随机的
A:虚拟内存 B:Cache C:内存 D:硬盘
A:都是在数据集中找离它最近的点 B:它们都是监督学习 C:都有明显的前期训练过程 D:KNN是分类算法,K-Means是聚类算法
A:GB B:EB C:PB D:TB
A:ARIMA B:朴素贝叶斯 C:K-MEANS D:支持向量机
A:不变 B:提高 C:无关 D:降低
A:Completeness B:Accuracy C:Accessibility D:Consistency
A:二八定律 B:信息熵定律 C:贝叶斯定律 D:摩尔定律
A:信息 B:数据 C:艺术品 D:数据库
温馨提示支付 ¥5.00 元后可查看付费内容,请先翻页预览!