⬆️⬆️⬆️本课程2024最新同名章节期末答案⬆️⬆️

大数据采集与存储期末答案和章节题库2024春

所有课程章节/期末均有答案,可提供word版,点击联系客服✅

121 阅读 0 评论 3 点赞

SELECT * FROM table 只查询了表中的一个列。（）

答案:错

域名和IP地址是等价的，都是唯一的表示网络中的一台主机的。（）

答案:对

列族数据库，采用面向列的存储模式，整个数据库由多行组成，每行包含多个列族，不同的行列族不同。（）

答案:对

缺失值表示的是“缺失的数据“，可能因为机械原因或者人为原因造成的数据缺失。( )

答案:对

MongoDB中，每个文档都有一个类似关系型数据库主键标识的_id字段来标识此条文档，如果没有设定文档记录的_id值，则通过ObjectId来生成_id。（）

答案:对

MongoDB查询时，只能返回全部字段，不能返回某些指定字段。（）

答案:错

设某网页解析后的BeautifulSoup对象soup中有多个标签＜li＞，则soup.findAll("li")返回的是该网页中所有的标签＜li＞组成的列表。（）

答案:对

如果一个网站没有发布自己的robots协议，或者robots协议的内容为空，说明它允许所有的爬虫来爬取数据.。（）

答案:对

https是超文本传输安全协议，它是在http协议的基础上，增加了加密协议，能实现数据的加密传输，安全性更好。（）

答案:对

物联网数据的特点有数据量大、更新快、数据价值低。（）

答案:对

WHERE条件中出现 LIKE '_A%'，下面哪一个结果是可以被检索出来的（）。

答案:BAI

大数据采集的数据有（）

内容已经隐藏，点击付费后查看

爬虫的一般思路为（）

内容已经隐藏，点击付费后查看

MongoDB数据库存储的基本单元为（）

内容已经隐藏，点击付费后查看

关系模型是用（）结构来描述数据间的联系。

内容已经隐藏，点击付费后查看

网站反爬虫的手段有（）

内容已经隐藏，点击付费后查看

下面不属于MongoDB应用场景的是（）

内容已经隐藏，点击付费后查看

下面关于数据集成，说法错误的是（）

内容已经隐藏，点击付费后查看

在k12日志处理案例中，根据课程难度划分等级，1-2 为初级 3-5为中级 6-7为高级。下面关于Kettle中的数据转换功能中，（）能实现课程难度到等级的转换。

内容已经隐藏，点击付费后查看

一名学生的信息在关系型数据库中就对应着表中的一行，而MongoDB以文档为单位存储数据，一名学生的信息就是一个（）

内容已经隐藏，点击付费后查看

在数据变换中，以下不能够进行平滑处理的是（）

内容已经隐藏，点击付费后查看

下列关于MongoDB数据库，描述错误的是（）

内容已经隐藏，点击付费后查看

用BeautifulSoup类的方法可以获取该网页内容对应的BeautifulSoup类型的标签树，从而根据标签进一步获取内容。以下语句中，第一个参数htmlText是（） soup = BeautifulSoup(htmlText,'html.parser') （）

内容已经隐藏，点击付费后查看

将“选课”表中的1002号课（CHAR(4)类型）的所有成绩（INTEGER类型）提高10分，正确的SQL语句是（）。

内容已经隐藏，点击付费后查看

在SQL语句中，对输出结果排序的语句是（）。

内容已经隐藏，点击付费后查看

智能路灯数据属于（）

内容已经隐藏，点击付费后查看

如果一个字段的数据必须来源于另一个表的主键，那么需要在这个字段上建立（）。

内容已经隐藏，点击付费后查看

在MongoDB中，查询已修学分大于20的文档正确的指令为（）

内容已经隐藏，点击付费后查看

MongoDB中，使用（）方法对数据进行排序

内容已经隐藏，点击付费后查看

在MongoDB中，返回info集合中的前三条信息正确的指令为（）

内容已经隐藏，点击付费后查看

Kettle提供的工作流（job）可以实现一系列的数据输入、清洗、格式转换等数据处理，但需要编写相应的程序来配合实现。（）

内容已经隐藏，点击付费后查看

在网络爬取过程中，用requests.get()函数爬取网页时，通过设置headers这个字段，可以模拟一个浏览器向url指定的服务器发起访问从而避免被网站的“反爬”程序识别出来。（）

内容已经隐藏，点击付费后查看

可以通过 try-except处理爬取网页过程中可能出现的异常。（）

内容已经隐藏，点击付费后查看

内连接查询INNER JOIN可以获得两个表中连接字段值相等的所有记录。（）。

内容已经隐藏，点击付费后查看

设r = requests.get( url)，则r.apparent_encoding比r.encoding能更准确的表示网页的编码方式。当网页出现乱码时，执行r.encoding = r.apparent_encoding ，即可有效解决。（）

内容已经隐藏，点击付费后查看

用kettle进行数据替换时，比如将0替换成男、1替换成女，可以设置不匹配时的默认值，从而在替换后确保没有空值。（）

内容已经隐藏，点击付费后查看

Spoon是构建ETL Jobs和Transformations的工具。（）

内容已经隐藏，点击付费后查看

用BeautifulSoup库可以解析网页，将HTML文件的内容转换为BeautifulSoup对象，实际上是将HTML文件转换为标签树。（）

内容已经隐藏，点击付费后查看

可以使用 MongoDB 存储游戏用户信息，用户的装备、积分等直接以内嵌文档的形式存储，方便查询、更新。（）

内容已经隐藏，点击付费后查看

搜索引擎和爬虫的功能是完全相同的，前者是正式的名称，后者是通俗的名称。（）

内容已经隐藏，点击付费后查看

所有的网站都有robots协议。（）

内容已经隐藏，点击付费后查看

在数据清洗中，重复值都是采用删除处理。（）

内容已经隐藏，点击付费后查看

在一个关系中，若某一个属性（或属性集）的值可唯一地表示每一个元组，即其值对不同的元组是不同的，这样的属性集合称为侯选建。（）

内容已经隐藏，点击付费后查看

在关系数据库中，一个关系对应一张二维表。（）

内容已经隐藏，点击付费后查看

主键不能成为另一个关系的外键。（）。

内容已经隐藏，点击付费后查看

可以使用下列那种方式填充缺失值（）

内容已经隐藏，点击付费后查看

MongoDB索引类型包括（）

内容已经隐藏，点击付费后查看

MongoDB中的（）类似于关系型数据库的行

内容已经隐藏，点击付费后查看

下列属性关系型数据库的是（）

内容已经隐藏，点击付费后查看

下面编写爬虫需要的相关知识为（）

内容已经隐藏，点击付费后查看

Hive能够将HQL语句转换为一系列（）任务来执行。

内容已经隐藏，点击付费后查看

键值数据库包括（）

内容已经隐藏，点击付费后查看

1、用BeautifulSoup类的方法可以获取该网页内容对应的BeautifulSoup类型的标签树，从而根据标签进一步获取内容。以下语句中，第二个参数html.parser是（） soup = BeautifulSoup(htmlText,'html.parser')

内容已经隐藏，点击付费后查看

假设学生关系S（S#,SNAME,SEX）,课程关系C（C#,CNAME），学生选课关系SC（S#,C#,GRADE）。要查询选修“Computer”课程的男生姓名，将涉及到关系（）。

内容已经隐藏，点击付费后查看

关于关系模型完整性的说法，不正确的是（）。

内容已经隐藏，点击付费后查看

已知如下关系：学生Student(S#, Sname)，课程Course(C#, Cname, T#)，选课SC(S#, C#, Score)，教师T(T#, Tname)。其中S#为学号，Sname为学生命名，C#为课号，Cname为课程名，T#为教师编号，Score为成绩，Tname为教师名。阅读SQL语句:SELECT Sname FROM Student, SC, Course WHERE Student.S#=SC.S# AND Course.C#=SC.C# AND T#= ‘T01’ AND Score＜60；关于其查询结果，下列说法正确的是（）。

内容已经隐藏，点击付费后查看

在表或视图上执行除了（）以外的语句都可以激活触发器。

内容已经隐藏，点击付费后查看

大数据中日志文件如何采集（）

内容已经隐藏，点击付费后查看

在数据预处理中，（）可以将数据属性的连续值离散化为区间值或者概念值，也就是将连续值划分为若干区间，再将每个小区间重新定义一个唯一的取值。

内容已经隐藏，点击付费后查看

可以使用（）语言操作MongoDB

内容已经隐藏，点击付费后查看

下面不属于MongoDB中索引类型的是（）

内容已经隐藏，点击付费后查看

某关系R的外键是指（）。

内容已经隐藏，点击付费后查看

爬虫可能突破简单的密码设置等访问控制，访问人类不容易浏览到的数据。这将会引发（）问题。

内容已经隐藏，点击付费后查看

下面引用BeautifulSoup库正确的写法是（）

内容已经隐藏，点击付费后查看

MongoDB中主键的默认格式是（）

内容已经隐藏，点击付费后查看

数值在[0-100]之间,最小值为0，最大值为100。按照等频划分，则该区间被划分为[0-45],[46-80],[81-100]，重新定义区间值为0，1，2，给定数值50，离散化的值是（）

内容已经隐藏，点击付费后查看

在数据集成过程中，实体识别问题指的是（）

内容已经隐藏，点击付费后查看

在MongoDB中，删除所有姓名为mark的文档正确的指令为（）

内容已经隐藏，点击付费后查看

以下那项不属于数据质量的内容（）

内容已经隐藏，点击付费后查看

SQL语言中，下列涉及空值的操作，不正确的是 ( )。。

内容已经隐藏，点击付费后查看

（）发表论文提出了关系数据库的理论。

内容已经隐藏，点击付费后查看

用Kettle输入文件时，可设置通配符表示某一类文件。下面文件中与通配符k12*.txt不匹配的是（）

内容已经隐藏，点击付费后查看

关于传统数据采集与大数据采集区别，说法错误的是（）

内容已经隐藏，点击付费后查看

在MongoDB使用insertMany()方法插入多条文档时，如果某条数据插入失败（）

内容已经隐藏，点击付费后查看

查找集合中的数据，使用（）方法。

内容已经隐藏，点击付费后查看

开发者工具中Network标签包括（）

内容已经隐藏，点击付费后查看

不同的关系型数据库管理系统，使用的SQL标准不一样。（）

内容已经隐藏，点击付费后查看

在本案例中，数据采集是通过（）获取。

内容已经隐藏，点击付费后查看

在数据采集后，python中使用（）库把数据存储到csv文件中。

内容已经隐藏，点击付费后查看

在数据清洗中，“输入”功能主要是实现ETL的数据抽取、加载、格式转换。（）

内容已经隐藏，点击付费后查看

kettle中的以下组件中，属于基本数据清洗的是（）

内容已经隐藏，点击付费后查看

Kettle 让我们在可视化的界面中，通过拖拽实现数据处理。无需掌握复杂的编程技术也可以帮助我们完成数据的ETL处理。（）

内容已经隐藏，点击付费后查看

Kettle能够支持多种格式的数据输出，但不支持下面（）文件格式。

内容已经隐藏，点击付费后查看

Kettle是一种常用的ETL工具，它支持图形化的GUI设计界面。（）

内容已经隐藏，点击付费后查看

Kettle中的job作业是指定时完成一系列指定的数据转换，并将结果以邮件的方式告知给我们。（）

内容已经隐藏，点击付费后查看

任何网站都有自己的Robots协议，用来保护网站的信息不会被恶意访问。（）

内容已经隐藏，点击付费后查看

HTML语言使用“标签对”来标记信息。其中，＜html＞ …… ＜/html＞标记一个HTML文件中标题的开始和结束。（）

内容已经隐藏，点击付费后查看

以下程序段的运行结果是from bs4 import BeautifulSouphtmlText = '＜p＞解析页面＜/p＞'soup = BeautifulSoup(htmlText, 'html.parser')print(soup.p) （）

内容已经隐藏，点击付费后查看

爬虫就是能够实现网页数据爬取的程序。（）

内容已经隐藏，点击付费后查看

如果有网络爬虫频繁的访问服务器，则容易引发（）问题。

内容已经隐藏，点击付费后查看

Python中提供的requests 库的get()方法能够实现爬取网页信息的功能。（）

内容已经隐藏，点击付费后查看

在使用requests库获取网页资源过程中，最重要的两个对象就是Request和Response，（）负责将客户端的请求发送给服务器。

内容已经隐藏，点击付费后查看

在数据离散化中，常见的离散化方法有（）

内容已经隐藏，点击付费后查看

数据清洗时重复值数据不能够删除。（）

内容已经隐藏，点击付费后查看

大数据采集，又称大数据获取，是指从（）等获取数据的过程。

内容已经隐藏，点击付费后查看

数据完整性指的是数据具有一个实体描述的所有必需的部分。（）

内容已经隐藏，点击付费后查看

在大数据预处理中，需要数据清洗的主要类型包括以下几类（）

内容已经隐藏，点击付费后查看

网络爬虫的步骤是1）选取一部分种子URL；2）从待抓取URL队列中取出待抓取的URL，解析DNS，得到主机的IP地址，并将URL对应的网页下载下来，存储到已下载网页库中。此外，将这些URL放进已抓取URL队列；3）将这些URL放到待抓取URL中；4）分析已抓取URL队列中的URL，分析其中的其他URL，并且将这些URL放入待抓取URL队列，从而进入下一个循环。（）

内容已经隐藏，点击付费后查看

查看当前正在使用的数据库命令（）

内容已经隐藏，点击付费后查看

MongoDB是一个开源、高性能、无模式的文档型数据库。（）

内容已经隐藏，点击付费后查看

关系型数据库遵循BASE和CAP理论。（）

内容已经隐藏，点击付费后查看

MongoDB通过（）来描述和存放数据。

内容已经隐藏，点击付费后查看

MongoDB中，用户可以将_id字段上的索引删除。（）

内容已经隐藏，点击付费后查看

查找kate同学的专业，使用指令（）完成。

内容已经隐藏，点击付费后查看

在下列关于视图的叙述中，正确的是（）

内容已经隐藏，点击付费后查看

有学生表Student(S# char(8), Sname char(10), Ssex char(2), Sage integer, D# char(2), Sclass char(6))。要检索学生表中“所有年龄小于等于19岁的学生的年龄及姓名”，SQL语句正确的是（）

内容已经隐藏，点击付费后查看

查询时，若要输出无重复的记录，SELECT子句中使用的保留字是：（）

内容已经隐藏，点击付费后查看

SQL语言中，删除一个表的命令是（）

内容已经隐藏，点击付费后查看

关于学生关系，下列哪一个属性适合作为候选码（）。

内容已经隐藏，点击付费后查看

有学生表Student(S# char(8), Sname char(10), Ssex char(2),Sage integer, D# char(2), Sclass char(6))。若要“检索名字为姓张的所有同学姓名”，SQL语句正确的是（）

内容已经隐藏，点击付费后查看

参照完整性规则是指表的（）必须是另一个表主键的有效值，或者是空值。

内容已经隐藏，点击付费后查看

下面有关HAVING子句，说法不正确的是（）

内容已经隐藏，点击付费后查看

关于数据模型，下列说法正确的是（）。

内容已经隐藏，点击付费后查看

查询结果输出时要求按“总评成绩”降序排列，相同者按“性别”升序，正确的子句是（）

内容已经隐藏，点击付费后查看

NoSQL的全称是（）

内容已经隐藏，点击付费后查看

键值数据库，是基于key-value模式，它使用简单的键值方法来存储数据。（）

内容已经隐藏，点击付费后查看

Oracle是一个开源、免费的中小型关系型数据库管理系统。（）

内容已经隐藏，点击付费后查看

关系模式学生信息（学号，姓名，年龄，性别，籍贯），其中的主键是（）

内容已经隐藏，点击付费后查看

（）是最原始的SQL On Hadoop的解决方案，它是基于Hadoop实现的分布式数据仓库。

内容已经隐藏，点击付费后查看

图数据库，以“图”数据结构存储和查询数据，使用节点表示数据模型中的实体，节点之间的边表示实体之间的关系。（）

内容已经隐藏，点击付费后查看

温馨提示支付 ￥5.00 元后可查看付费内容,请先翻页预览!

微信支付

点赞(3) dxwkbang

本文分类：知到智慧树期末考试答案章节题库2024春-非顺序
本文标签：大数据采集与存储
浏览次数：121 次浏览
发布日期：2024-05-04 23:51:35

上一篇 > 大数据平台技术期末答案和章节题库2024春
下一篇 > 大数据分析与可视化期末答案和章节题库2024春