山东建筑大学
- Spark提供了内存计算,带来了更高的迭代运算效率。( )
- 物联网是物物相连的网络,是互联网的延伸。( )
- pandas的DataFrame对象的drop_duplicates可以删除空数据行或列。( )
- 使用seaborn中的set_style()设置主题,有5个预设的主题。( )
- 数字经济就是电子商务。( )
- 物联网中每时每刻都在产生、传输海量数据,是大数据的主要来源之一。( )
- RDD(Resilient Distributed Dataset)是运行在工作节点的一个进程,负责运行任务。( )
- mv 命令可以移动文件和目录,还可以为文件和目录重新命名。( )
- MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数。( )
- 如果顾客的购物车中有多包羊肉片、糖蒜却没有火锅蘸料,则在结账时询问是否需要蘸料,这一过程需要人工介入( )
- 一般来说,组织内部的信息系统产生的数据体量大,质量不高。( )
- 基于文件的数据管理模式下,应用程序要依赖文件的存储结构,数据项位置发生变化时,应用程序就要相应改变。( )
- 数据挖掘指从大量数据中通过算法和分析工具获得隐藏于其中的信息的过程。( )
- 计算机外存中保存的数据断电后会消失。( )
- 云计算的用户知道哪台服务器为他(她)提供了服务。( )
- 在pandas中绘制水平柱状图需在plot函数中设置参数kind='barh'。( )
- 当前,大数据安全已经上升到了国家安全高度。( )
- 通过数学模型进行预测是科学方法,通过测量获取经验数据进而预测不是科学方法。( )
- pyecharts可基于Web浏览器显示所绘制图形。( )
- 在pyecharts中使用Barh类绘制水平柱状图。( )
- 爬虫程序的不当使用包括( )
- 以下是一段利用K-means算法进行聚类的Python代码,关于这段代码描述正确的是( )。
- 在大数据时代,可视化技术可以支持实现哪些目标?( )
- 下面有关逻辑回归的描述,正确的是( )。
- 关于下面这段代码,描述正确的是( )。
- 数据的形式有:( )。
- 以下( )属于NoSQL数据库。
- 传统的数据安全问题包括以下几个方面( )。
- 下列说法中,哪些选项描述正确?( )
- 下列哪些选项属于Hadoop的缺点?( )
- 大数据的来源包括( )。
- 关于以下这段代码,描述正确的是( )。
- 维克托·迈尔·舍恩伯格(Viktor Mayer-Schönberger)在《大数据时代:生活、工作与思维的大变革》中指出,大数据时代最大的转变是思维方式转变,包括:( )
- 数据节点(DataNode)的主要功能包括哪些?( )
- 以下属于K-means聚类步骤的是( )。
- 在实际应用中,大数据处理主要包括以下哪三种类型?( )
- 以下哪个方法可用于实现分类( )。
- 关于以下这段代码,描述正确的是( )。
- 在词频统计中,对于文本行"hello hadoop hello world",经过WordCount的Reduce函数处理后的结果是( )。
- 下面有关分类的描述,不正确的是( )。
- 以下关于绘图标准流程的说法错误的是( )。
- 下列函数中,可以设置坐标轴刻度标签的是( )。
- 下列关于RDD说法,描述有误的是?( )
- 请看下面这段代码,请问第几行代码可实现计算相关系数矩阵( )。
- HDFS属于大数据管理平台的哪一层? ( )
- 下列函数中,可以一次绘制多个子图的是( )。
- 下列说法错误的是?( )
- HDFS采用了什么模型?( )
- 计算线性回归模型判定系数R方的方法是( )。
- 在Spark生态系统组件的应用场景中,下列哪项说法是错误的?( )
关于以下这段代码,描述不正确的是( )。
- Linux文件权限一共10位长度,第5到7位表示的内容是( )。
A:错 B:对
答案:对
A:错 B:对
答案:对
A:对 B:错
答案:错
A:错 B:对
答案:对
A:对 B:错
答案:错
A:错 B:对
答案:对
A:对 B:错
答案:错
A:错 B:对
答案:对
A:对 B:错
答案:对
A:对 B:错
A:错 B:对
A:错 B:对
A:错 B:对
A:对 B:错
A:对 B:错
A:错 B:对
A:错 B:对
A:对 B:错
A:对 B:错
A:对 B:错
A:搜索引擎的爬虫采集信息 B:利用抢票软件购票 C:以研究和学习为目的进行少量数据采集 D:在社交平台自动“点赞”
A:第4-8行代码用于计算k=1,2,……,10时的内平方和WWS的值 B:第11行代码用于查看每个聚类的质心的坐标 C:第10行代码用于查看每个样本点的聚类标签 D:第9行代码用于指定K=2进行K-means聚类
A:辅助理解数据 B:增强数据吸引力 C:观测、跟踪数据 D:分析数据
A:逻辑回归中的因变量Y取值为0或1 B:逻辑回归用于解决二分类问题 C:逻辑回归中p(y=0)+p(y=1)=1 D:决策边界的概率估计值p(y=0)=p(y=1)=0.5
A:第2行代码建立了一个名为regr的线性回归模型 B:第7行代码用于查看所估计回归方程的判定系数R方 C:第6行代码用于对所建立的回归模型进行参数估计 D:第8行代码用于查看所估计回归方程的回归参数
A:视频 B:图形 C:图像 D:文字 E:音频 F:数值 G:动画
A:键值数据库 B:列族数据库 C:文档数据库 D:网状数据库
A:介质损坏 B:程序错误 C:计算机病毒 D:黑客攻击 E:人为失误
A:Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作 B:Hadoop MapReduce编程模型比Spark更灵活 C:Hadoop MapReduce提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高 D:Spark在借鉴Hadoop MapReduce优点的同时,很好地解决了MapReduce所面临的问题
A:在前一个任务执行完成之前,其他任务就无法开始,难以胜任复杂、多阶段的计算任务 B:表达能力有限 C:磁盘IO开销大 D:延迟高
A:互联网用户 B:智能设备和传感器 C:组织内部的信息系统 D:科学实验
A:所生成词云图中词语的最高词频为20 B:所生成词云图包含20个词语 C:该段代码可以根据cloud.jpeg生成相应形状的词云图 D:所生成词云图的背景颜色为黑色
A:数据挖掘而非统计学 B:效率而非精确 C:总体而非抽样 D:相关而非因果
A:用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间 B:根据客户端或者是名称节点的调度来进行数据的存储和检索 C:负责数据的存储和读取 D:向名称节点定期发送自己所存储的块的列表
A:反复迭代计算聚类中心,直到算法收敛 B:随机选取K个点作为每个类别的初始聚类中心 C:计算每个样本点与K个聚类中心的距离 D:将每个样本点分配给距离它最近的聚类中心对应的那一簇,进而重新计算每个簇的聚类中心
A:基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间 B:基于实时数据流的数据处理:通常时间跨度在数十秒到数分钟之间 C:基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间 D:复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间
A:sklearn.cluster.KMeans() B:sklearn.linear_model.LinearRegresstion() C:sklearn.linear_model.LogisticRegression() D:sklearn.metrics.adjusted_rand_score()
A:该段代码的运行结果是 [('北京', 3), ('上海', 2)] B:第4行代码用于输出词频为2的词语 C:该段代码的运行结果是 [('上海',2)] D:该段代码的运行结果是 '上海'
A:<“hadoop”,1><“hello”,1><“hello”,1><“world”,1> B:<“hello”,1,1><“hadoop”,1><“world”,1> C:<“hello”, <1, 1>><“hadoop”,1><“world”,1> D:<“hadoop”,1><“hello”,2><“world”,1>
A:分类包括学习过程和分类过程 B:分类是一种无监督学习 C:分类是一种监督学习 D:分类问题的因变量是类别变量
A:绘制简单的图形可以使用缺省的画布 B:添加图例可以在绘制图形之前 C:修改X轴、Y轴的标签和绘制的图形没有先后 D:添加X轴、Y轴的标签可以在绘制图形之前
A:axhline() B:xticks() C:grid() D:xlim()
A:RDD提供了一种高度受限的共享内存模型 B:RDD是可以直接修改的 C:每个RDD可分成多个分区,每个分区就是一个数据集片段 D:一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合
A:第5行 B:第3行 C:第6行 D:第4行
A:处理引擎层 B:资源管理层 C:其余选项都是 D:数据存储层
A:subplot() B:twinx() C:add_subplot() D:subplot2grid()
A:MapReduce采用“分而治之”策略 B:Hadoop MapReduce是MapReduce的开源实现,后者比前者使用门槛低很多 C:MapReduce主要用于批处理、实时、计算密集型应用 D:MapReduce采用非共享式架构,容错性好
A:分层模型 B:点对点模型 C:管道-过滤器模型 D:主从结构模型
A:LogisticRegression().score() B:LinearRegression().predict() C:LinearRegression().fit() D:LinearRegression().score()
A:GraphX是图结构数据的处理 B:Spark应用在复杂的批量数据处理 C:Spark SQL是基于历史数据的交互式查询 D:Spark Streaming是基于历史数据的数据挖掘
A:第3行代码用于对logist_reg逻辑回归模型进行参数估计 B:第6行代码用于预测y=1时的概率 C:第2行代码建立了一个名为logist_reg的逻辑回归模型 D:第6行代码用于预测因变量y的类别
A:文件所有者的权限 B:文件所有者所在组的权限 C:其他用户的权限 D:文件类型
温馨提示支付 ¥5.00 元后可查看付费内容,请先翻页预览!