山东交通学院
- https是超文本传输安全协议,它是在http协议的基础上,增加了加密协议,能实现数据的加密传输,安全性更好。( )
- 非关系型数据库可以通过表联合的方式实现多表查询。( )
- 网页的本质就是HTML文件,每个页面就是一个HTML文件。( )
- 用BeautifulSoup库可以解析网页,将HTML文件的内容转换为BeautifulSoup对象,实际上是将HTML文件转换为标签树。( )
- MongoDB中复合索引中列出的字段的顺序没有意义。( )
- Spoon是构建ETL Jobs和Transformations的工具。( )
- 域名和IP地址是等价的,都是唯一的表示网络中的一台主机的。( )
- Kettle提供的工作流(job)可以实现一系列的数据输入、清洗、格式转换等数据处理,但需要编写相应的程序来配合实现。( )
- 设r = requests.get( url),则r.apparent_encoding比r.encoding能更准确的表示网页的编码方式。当网页出现乱码时,执行r.encoding = r.apparent_encoding ,即可有效解决。 ( )
- Spark SQL提供了有关数据结构和计算结果等信息的接口。与Spark SQL交互的方法有几种,包括SQL、DataFrame API和最新的Dataset API。( )
- 业务系统数据的特点有数据量大、更新快、数据价值低、语义不明确、数据类型多。( )
- MongoDB通过XML来描述和存放数据。( )
- 在网络爬取过程中,用requests.get()函数爬取网页时,通过设置headers这个字段,可以模拟一个浏览器向url指定的服务器发起访问从而避免被网站的“反爬”程序识别出来 。( )
- 物联网数据的特点有数据量大、更新快、数据价值低。( )
- 在MongoDB中索引可以加快查询速度,所有只要是查询语句,就要创建索引。( )
- 网站反爬虫的手段有( )
- 下列属性关系型数据库的是( )
- 数据质量可以从以下个角度进行描述( )
- 关于爬虫的实现思路,说法正确的是( )
- MongoDB索引类型包括( )
- 数据预处理的过程包括( )①数据清洗②数据集成③数据变化④数据离散化⑤数据质量检测与提升
- 在网络爬虫中,使用( )库爬取网页
- MongoDB提供了更新操作符( )来修改某个字段值
- 关于传统数据采集与大数据采集区别,说法错误的是( )
- ( )发表论文提出了关系数据库的理论。
- 如果一个字段的数据必须来源于另一个表的主键,那么需要在这个字段上建立( )。
- 以下那项不属于数据质量的内容( )
- 服务器上的数据是有产权归属的,如果利用网络爬虫获取数据后谋取利益,将会带来( )问题。
- SQL语言中,删除一个数据库对象的命令是( )。
- 某关系R的外键是指( )。
- 在使用requests库获取网页资源过程中,最重要的两个对象就是Request和Response,( )负责将服务器的响应结果返回给客户端。
- 用BeautifulSoup类的方法可以获取该网页内容对应的BeautifulSoup类型的标签树,从而根据标签进一步获取内容。以下语句中,第一个参数htmlText是( ) soup = BeautifulSoup(htmlText,'html.parser') ( )
- 在表或视图上执行除了( )以外的语句都可以激活触发器。
- 大数据中日志文件如何采集( )
- 用Kettle输入文件时,可设置通配符表示某一类文件。下面文件中与通配符k12*.txt不匹配的是( )
- 微博数据属于( )
- 关于关系模型完整性的说法,不正确的是( )。
- 要求满足连接条件的记录,以及连接条件左侧表中的记录都包含在结果中,应使用( )。
- 数值在[0-100]之间,最小值为0,最大值为100。按照等频划分,则该区间被划分为[0-45],[46-80],[81-100],重新定义区间值为0,1,2,给定数值50,离散化的值是( )
- MongoDB数据库存储的基本单元为( )
- 下列数据库属于列族数据库的是( )
- MongoDB选择和创建数据库的语法格式为( )
- 已知如下关系:学生Student(S#, Sname),课程Course(C#, Cname, T#),选课SC(S#, C#, Score),教师T(T#, Tname)。其中S#为学号,Sname为学生命名,C#为课号,Cname为课程名,T#为教师编号,Score为成绩,Tname为教师名。阅读SQL语句:SELECT Sname FROM Student, SC, Course WHERE Student.S#=SC.S# AND Course.C#=SC.C# AND T#= ‘T01’ AND Score<60;关于其查询结果,下列说法正确的是( ) 。
- 在进行网络爬虫时,可以通过Response对象的( )属性我们可以判断是否爬取成功
- MongoDB是一种NoSQL数据库,具体地说,是( )存储数据库
A:错 B:对
答案:对
A:错 B:对
答案:错
A:对 B:错
答案:A:对
A:对 B:错
答案:对
A:对 B:错
答案:B:错
A:对 B:错
答案:对
A:错 B:对
答案:对
A:错 B:对
答案:错
A:错 B:对
答案:对
A:错 B:对
A:错 B:对
A:对 B:错
A:对 B:错
A:错 B:对
A:对 B:错
A:通过账号权限反爬
B:通过User-Agent校验反爬
C:通过访问频率反爬
D:通过验证码校验反爬
A:MongoDB
B:达梦数据库管理系统
C:MySQL
D:Oracle
A:数据准确性
B:数据一致性
C:数据完整性
D:数据及时性
A:第一步查看网页是否具备被爬取的可行性
B:第三步解析页面,提取数据
C:第四步保存数据或展示结果
D:第二步根据URL爬取指定网页的内容
A:多键索引和文本索引
B:单键索引和复合索引
C:哈希索引和地理空间索引
D:单集合索引和多集合索引
A:①②③④⑤ B:①②④⑤ C:②③④⑤ D:①②③⑤
A:pandas
B:requests
C:csv
D:numpy
A:$use
B:$update
C:$get
D:$set
A:传统数据采集数据结构单一,大数据采集的数据类型丰富
B:大数据采集后的数据只能采用关系型数据库存储
C:大数据的数据采集来源广泛,数据量巨大
D:传统数据采集来源单一,数据量少。
A:E.F.Kate B:E.F.Codd C:F.E.jom D:F.E.Jam
A:复合主键
B:主键
C:唯一键
D:外键
A:数据准确性
B:数据完整性
C:数据可靠性
D:数据一致性
A:个人隐私问题
B:法律风险
C:网站的性能下降
A:REMOVE
B:DELETE
C:CLEAR
D:DROP
A:其它关系的候选键,同时作为R的主属性
B:其它关系的候选键,同时作为R的非主属性
C:其它关系的候选键,可以是R中的主属性或非主属性
D:该关系除主键之外的另一个候选键
A:Request
B:Response
A:网页对应的html文件
B:显示在网上的内容
C:从爬取的网页对象中获取的网页源码字符串
D:爬取网页后获取的Response对象
A:CREATE
B:UPDATE
C:INSERT
D:DELETE
A:使用hadoop等工具进行数据的导入完成采集。
B:网络爬虫
C:web服务
D:使用海量数据采集工具用于对系统日志的采集,比如Facebook公司的Scribe,Hadoop平台的Chukwa,Cloudera公司的Flume。
A:k13.txt
B:k12-安卓日志.txt
C:k12日志.txt
D:k12-网站日志.txt
A:物联网数据
B:公共网络数据
C:业务系统数据
D:互联网数据
A:用户自定义完整性是指用户针对具体的数据库应用所定义的完整性约束条件
B:外键如果取空值,则违反了参照完整性
C:数据库中有了空值会影响许多方面,如影响聚集函数运算的正确性等
D:实体完整性和参照完整性一般由DBMS系统自动支持
A:左连接
B:完全连接
C:右连接
D:内部连接
A:0
B:2
C:其余选项都不正确
D:1
A:表格
B:文档
C:字段
D:集合
A:MongoDB
B:HBase
C:Riak
D:Redis
A:use 数据库名称
B:set数据库名称
C:is数据库名称
D:select数据库名称
A:学习T01号教师讲授课程及格的所有学生的姓名
B:学习非T01号教师讲授课程不及格的所有学生的姓名
C:学习T01号教师讲授课程不及格的所有学生的姓名
D:课程不及格的所有学生的姓名
A:status_code
B:text
C:request
D:code
A:文档
B:图形
C:XML
D:键值
温馨提示支付 ¥5.00 元后可查看付费内容,请先翻页预览!