提示:内容已经过期谨慎付费,点击上方查看最新答案

大数据采集与存储

  1. 一名学生的信息在关系型数据库中就对应着表中的一行,而MongoDB以文档为单位存储数据,一名学生的信息就是一个( )

  2. A:集合 B:数据库 C:表 D:文档
    AI参考:正确选项是D:文档。在MongoDB中,文档是以JSON格式存储数据的单位,每个文档都包含一组键值对,类似于关系型数据库中的一行数据。一个学生的信息可以作为一个独立的文档存储在MongoDB中,每个文档都代表一个学生的信息。因此,答案为D:文档。'
  3. 爬虫可能突破简单的密码设置等访问控制, 访问人类不容易浏览到的数据。这将会引发( )问题。

  4. A:网站的性能下降 B:个人隐私问题 C:法律风险
    AI参考:正确选项是【个人隐私问题】。爬虫可能突破简单的密码设置等访问控制,访问人类不容易浏览到的数据,这可能会侵犯个人隐私,包括但不限于个人数据、个人信息、隐私照片、私人邮件等,因此引发个人隐私问题。网站的性能下降和法律风险不是由爬虫引发的最常见的问题。'
  5. 1、设网htmlText的源码如下,则下面的语句段的执行结果是(     )。

    <!DOCTYPE: html>

    <html>

    <head>    <meta charset="UTF-8">    

    <title>一个简单的HTML示例</title>

    </head>

     

    <body>

        <h1>这是一级标题:山东交通学院</h1>

       <h2>这是二级标题:学院概况</h2>

    <ul>

        <li>学院简介</li>

             <li>学校章程</li>

        <li>历史沿革</li>

        <li>发展规划</li>

        <li><a href="https://www.sdjtu.edu.cn/xygk/xxbs.htm" >学校标识</a></li>

    </ul>

    </body>

    </html>

    语句段:

    soup = BeautifulSoup(htmlText,'html.parser')

    print(soup.find("li"))



  6. A:学院简介 学校章程 历史沿革 发展规划 学校标识 B:
  7. 学院简介
  8. C:学院简介 D:
  9. 学院简介
  10. 学校章程
  11. 历史沿革
  12.       
  13. 发展规划
  14.       
  15. 学校标识

  16. AI参考:正确选项是D。给出的HTML源码中,有一个无序列表(ul)包含多个列表项(li),每个列表项的内容分别为学院简介、学校章程、历史沿革、发展规划以及一个链接(a标签)。在给出的语句段中,使用BeautifulSoup库解析HTML源码,并使用find方法查找所有的列表项。由于HTML源码中只有一个无序列表,因此该语句段将输出所有的列表项,即“学院简介”、“学校章程”、“历史沿革”、“发展规划”以及“学校标识”。因此,选项D是正确的。'
  17. 下列关于MongoDB数据库,描述错误的是( )

  18. A:MongoDB支持各种编程语言:RUBY,PYTHON,JAVA,C++,PHP,C#等多种语言 B:MongoDB 字段值可以是数组及文档数组,但是不能包含其他文档 C:MongoDB数据库是一种开源、高性能、无模式的文档型数据库 D:MongoDB文档采用BSON 格式
    AI参考:选项B关于MongoDB字段值可以是数组及文档数组,但是不能包含其他文档的描述是错误的。MongoDB支持嵌套文档,也就是可以包含其他文档。所以选项B的描述是不准确的。其他选项A、C、D都是关于MongoDB数据库的正确描述。A表示MongoDB支持多种编程语言;C表示MongoDB是一种开源、高性能、无模式的文档型数据库;D表示MongoDB文档采用BSON格式。'
  19. MongoDB是一种NoSQL数据库,具体地说,是( )存储数据库

  20. A:图形 B:键值 C:文档 D:XML
    答案:文档
  21. MongoDB选择和创建数据库的语法格式为( )

  22. A:use 数据库名称 B:set数据库名称 C:select数据库名称 D:is数据库名称
    答案:数据库名;AI参考:正确选项是A:use 数据库名称。这是MongoDB选择和创建数据库的常用语法格式。通过使用“use”关键字后跟数据库名称,可以指定要使用的数据库。这样,后续的查询和操作将针对该数据库进行。选项B、C和D都不符合MongoDB的语法规范,因此不是正确答案。'
  23. 下面不属于MongoDB应用场景的是( )

  24. A:支持严格事务的场景 B:微博的评论和回复的场景 C:地理空间查询的场景 D:存储订单信息的场景
    AI参考:不属于MongoDB应用场景的是A:支持严格事务的场景。MongoDB是一个面向文档的数据库,主要用于存储和检索大数据量的非结构化和半结构化数据。它具有高可用性、可扩展性和易用性等特点,特别适合用于处理社交媒体数据、日志数据、Web 应用程序等场景。B、C、D选项都是MongoDB常见的应用场景,如微博的评论和回复、地理空间查询以及存储订单信息等。这些场景中,MongoDB的文档数据模型、复制集数据高可用性和丰富的查询语言等特性都能够很好地发挥作用。而A选项中的支持严格事务的场景,通常需要使用关系型数据库,如MySQL、Oracle等,它们提供了严格的事务支持和复杂的查询功能。因此,A选项不属于MongoDB的应用场景。'
  25. 在表或视图上执行除了( )以外的语句都可以激活触发器。

  26. A:CREATE B:INSERT C:UPDATE D:DELETE
    答案:Update
  27. 关系模式的候选码可以有1个或多个,而主码有( )。

  28. A:多个 B:1个 C:1个或多个 D:0个
    答案:1个
  29. 在MongoDB使用insertMany()方法插入多条文档时,如果某条数据插入失败( )


  30. A:终止插入,但已经插入成功的数据不会回滚掉 B:继续插入,对接下来的数据插入没有影响 C:其余选项都不对 D:终止插入,已经插入成功的数据回滚掉
    答案:B:insert()AI参考:在MongoDB中使用insertMany()方法插入多条文档时,如果某条数据插入失败,选项A:终止插入,但已经插入成功的数据不会回滚掉是正确的。当一条数据插入失败,insertMany()方法会停止插入剩余的数据,但是已经成功插入的数据不会受到影响,不会回滚掉。因此,这个选项是正确的答案。其他选项C和D都是不正确的描述。'
  31. https://www.sdjtu.edu.cn/info/1051/18731.htm的协议为(     )



  32. A:18731.htm B:info C:www.sdjtu.edu. D:https
    AI参考:正确选项是:D:https。因为这是一个HTTPS协议的网址,所以选项D是正确的。HTTPS是Hyper Text Transfer Protocol over Secure Socket Layer的简写,是一种用于网页浏览的协议,它使用SSL加密技术来保证传输过程的安全性。因此,该网址的协议为https。'
  33. 某关系R的外键是指( )。

  34. A:该关系除主键之外的另一个候选键 B:其它关系的候选键,可以是R中的主属性或非主属性 C:其它关系的候选键,同时作为R的非主属性 D:其它关系的候选键,同时作为R的主属性

  35. MongoDB 删除数据库的语法( )

  36. A:db.dropDatabase() B:db.集合名.dropDatabase() C:db.drop() D:db.deleteDatabase()
    AI参考:正确答案是A: `db.dropDatabase()`。MongoDB中删除数据库的语法是 `db.dropDatabase()`,不需要指定集合名。选项B、C、D都存在错误,因为它们需要指定集合名,而删除数据库时不需要指定集合名。因此,A选项是正确的。'
  37. 若某属性非该关系的主键,却是另外一个关系的主键,则该属性称为( )。

  38. A:主键 B:外键 C:候选键 D:其余都不是

  39. 在SQL语句中,对输出结果排序的语句是( )。

  40. A:ORDER BY B:HAVING C:GROUP BY D:WHERE

  41. SQL语言中,下列涉及空值的操作,不正确的是 ( )。。

  42. A:AGE IS NOT NULL B:NOT (AGE IS NULL) C:AGE = NULL D:AGE IS NULL

  43.    发表论文提出了关系数据库的理论


  44. A:E.F.Kate B:E.F.Codd C:F.E.Jam D:F.E.jom
    AI参考:正确答案是 B:E.F.Codd。E.F.Codd 是关系数据库理论的重要开创者,他在发表论文中提出了关系数据库理论。因此,答案是 B。其他选项都是错误的。'
  45. 下面不属于MongoDB中索引类型的是( )

  46. A:单键索引 B:双建索引 C:文本索引 D:复合索引
    AI参考:正确选项是 B:双建索引。在 MongoDB 中,常见的索引类型包括单键索引、复合索引、文本索引等。其中,单键索引是指仅使用一个字段进行索引的索引类型;复合索引是指同时使用多个字段进行索引的索引类型,可以提高查询效率;而文本索引则是用于文本数据的全文搜索索引类型。因此,双建索引并不是 MongoDB 中的一种索引类型,所以选项 B 是不正确的。'
  47. 在MongoDB中,查询已修学分大于20的文档正确的指令为( )

  48. A:db.info.find({xf:{$gte:20}}) B:db.info.find({xf:20}) C:db.info.find({xf:{$gt:20}}) D:db.info.find({xf:{$lt:20}})
    AI参考:在MongoDB中,查询已修学分大于20的文档正确的指令为选项C:db.info.find({xf:{$gt:20}})。$gt(大于)和$lt(小于)是MongoDB中用于比较运算符的关键字,用于查询符合条件的文档。在此查询中,我们查找已修学分大于20的文档,所以应使用$gt。$gte(大于或等于)用于查找已修学分至少为20的文档。因此,选项C是正确的。'
  49. 在MongoDB中,删除所有姓名为mark的文档正确的指令为( )

  50. A:db.info.deleteOne({xm:"mark"}) B:db.info.deleteOne({xm="mark"}) C:db.info.deleteMany({xm="mark"}) D:db.info.deleteMany({xm:"mark"})
    AI参考:正确答案是B: `db.info.deleteOne({xm="mark"})`。在MongoDB中,删除特定条件的单个文档可以使用`deleteOne`或`deleteMany`方法。这两个方法都需要一个查询对象作为参数,该对象表示要删除的文档应满足的条件。因此,在删除所有姓名为mark的文档时,正确的指令为`db.info.deleteOne({xm:"mark"})`,其中`xm`表示“姓名”字段,`mark`表示要匹配的值。B选项是正确的。'
  51. 关系模型中,实体完整性是指( )。

  52. A:实体不允许是空实体 B:实体的属性值不能是空值 C:实体的主码中的属性值不能为空值 D:实体的外键值不允许是空值

  53. MongoDB数据库存储的基本单元为( )

  54. A:字段 B:集合 C:表格 D:文档
    AI参考:正确选项是D:文档。MongoDB数据库存储的基本单元是文档,而不是字段、集合或表格。文档是一组字段的集合,可以包含嵌套文档和其他复杂的数据结构。MongoDB的设计理念是面向文档的,这意味着它以文档的形式存储数据,而不是传统的关系型数据库中的表格。因此,选项D是正确的答案。选项A、B和C虽然在某些情况下可能有用,但不是MongoDB数据库存储的基本单元。'
  55. 假设学生关系S(S#,SNAME,SEX),课程关系C(C#,CNAME),学生选课关系SC(S#,C#,GRADE)。要查询选修“Computer”课程的男生姓名,将涉及到关系( )。

  56. A:S B:S,SC C:S,C,SC D:SC

  57. 设r = requests.get( url),则关于网页的编码方式,下面( )的值是从header中charset字段中提取的编码方式,默认为ISO-8859-1编码模式,无法解析中文。

  58. A:r.encoding B:r.status_code C:r.apparent_encoding D:r.text
    AI参考:正确选项是 `C:r.apparent_encoding`。在Python的requests库中,`requests.get(url)` 函数用于获取网页的内容,返回的是一个Response对象。这个对象包含了网页的许多信息,其中包括编码方式。在Response对象中,`apparent_encoding` 属性表示从header中提取的编码方式,默认为ISO-8859-1编码模式,无法解析中文。因此,选项C是正确的。选项A、B、D都可能包含网页的内容,但不一定能准确反映网页的编码方式。选项A的 `r.encoding` 可能受到其他因素的影响,不一定准确;选项B的 `r.status_code` 通常用于表示HTTP状态码,与编码方式无关;选项D的 `r.text` 是网页内容的字符串表示,同样可能受到编码方式的影响,但不一定准确。'
  59. 大数据中日志文件如何采集( )

  60. A:使用海量数据采集工具用于对系统日志的采集,比如Facebook公司的Scribe,Hadoop平台的Chukwa,Cloudera公司的Flume。 B:web服务 C:使用hadoop等工具进行数据的导入完成采集。 D:网络爬虫
    AI参考:正确选项是【A:使用海量数据采集工具用于对系统日志的采集,比如Facebook公司的Scribe,Hadoop平台的Chukwa,Cloudera公司的Flume】。系统日志的采集一般需要专门的工具进行采集,比如Facebook公司的Scribe,Hadoop平台的Chukwa,Cloudera公司的Flume等都是海量数据采集工具,这些工具可以用于对系统日志的采集。而B选项的web服务和D选项的网络爬虫主要是用于网页数据的采集,与系统日志的采集不相关。C选项虽然提到了使用hadoop等工具进行数据的导入,但是并没有明确指出是用于采集系统日志的。因此,最符合题目要求的答案是A选项。'
  61. 关于爬虫的实现思路,说法正确的是( )

  62. A:第一步查看网页是否具备被爬取的可行性 B:第四步保存数据或展示结果 C:第二步根据URL爬取指定网页的内容 D:第三步解析页面,提取数据
    AI参考:关于爬虫的实现思路,说法正确的是( )正确答案是:A:第一步查看网页是否具备被爬取的可行性 C:第二步根据URL爬取指定网页的内容 D:第三步解析页面,提取数据。实现爬虫的第一步应该是了解并确定目标网站是否具备被爬取的可行性,也就是进行风险评估;第二步是根据指定的URL爬取指定网页的内容;第三步则是解析页面,提取数据。B选项中“第四步”顺序错误。因此,正确的说法是:A、C、D选项正确。'
  63. 下面编写爬虫需要的相关知识为( )

  64. A:BeautifulSoup B:Pandas C:Html D:Requests
    AI参考:正确选项为:ABCD。编写爬虫需要的相关知识包括:* BeautifulSoup:用于解析HTML或XML等网页源代码,以便从中提取所需的数据。* Pandas:用于数据分析和处理的库,可以用于处理爬取到的数据。* Html:要爬取的网页的HTML代码。* Requests:用于发送HTTP请求,获取网页数据。因此,所有选项都与编写爬虫相关,应全部选中。'
  65. MongoDB创建覆盖查询,要满足两个条件( )

  66. A:所有返回的字段可以不在同一索引中 B:所有返回的字段位于同一索引中 C:所有查询的字段是索引的一部分 D:要返回所有的字段
    AI参考:正确选项是【所有查询的字段是索引的一部分】。在MongoDB中,创建覆盖查询需要满足的条件是所有查询的字段必须是索引的一部分。这是因为MongoDB的覆盖查询是基于索引的,如果没有索引,覆盖查询将无法执行。只有当查询的字段是索引的一部分时,MongoDB才能根据索引快速返回结果,而不需要扫描整个文档。如果所有返回的字段不在同一索引中,那么可能需要扫描整个集合以获得结果,这可能会导致性能问题。因此,选项A和C是正确的,而选项B和D则是不正确的。'
  67. 数据质量可以从以下个角度进行描述( )

  68. A:数据准确性 B:数据一致性 C:数据完整性 D:数据及时性
    AI参考:正确选项为:ABCD。数据质量可以从以下角度进行描述:* 数据准确性:数据的数值描述是否准确。* 数据一致性:数据在不同的系统中是否保持一致,是否具有连贯性。* 数据完整性:数据是否包含所有需要的信息,是否存在缺失或错误的数据。* 数据及时性:数据是否及时更新,是否能够反映当前的情况。因此,ABCD都是数据质量的重要方面,需要综合考虑。'
  69. MongoDB中查询集合的所有文档( )

  70. A:db.集合名.find({}) B:db.集合名.find() C:db.集合名.query({}) D:db.集合名.query()
    AI参考:正确选项是:B:db.集合名.find()。在MongoDB中,查询集合的所有文档可以使用`find()`方法,无需传递任何参数即可返回集合中的所有文档。选项A、C和D中的语法有误,不符合MongoDB的查询语法。因此,B选项是正确的选择。'
  71. 用BeautifulSoup库可以解析网页,将HTML文件的内容转换为BeautifulSoup对象,实际上是将HTML文件转换为标签树。( )

  72. A:对 B:错

  73. 在MongoDB中索引可以加快查询速度,所有只要是查询语句,就要创建索引。( )

  74. A:对 B:错
    AI参考:正确答案是B:错。在MongoDB中,并不是所有的查询都需要创建索引,因为索引虽然可以加快查询速度,但也可能会降低插入、更新和删除的速度。只有在对特定的字段或集合执行大量查询操作时,才需要创建索引以提高查询速度。如果一个查询条件复杂且查询频率较低,创建索引可能会浪费资源。因此,是否需要创建索引需要根据具体的应用场景和查询需求来决定。'
  75. 非关系型数据库可以通过表联合的方式实现多表查询。( )

  76. A:对 B:错
    AI参考:答案是B:错。非关系型数据库(如NoSQL数据库)通常不支持表联合查询,因为它们通常使用键值对或文档模型来存储数据,而不是关系型数据库中的表结构。因此,多表查询在非关系型数据库中通常需要通过逐个查询每个表并组合结果来实现。'
  77. Spark SQL提供了有关数据结构和计算结果等信息的接口。与Spark SQL交互的方法有几种,包括SQL、DataFrame API和最新的Dataset API。( )

  78. A:对 B:错
    AI参考:答案是A:对。根据问题描述,Spark SQL提供了有关数据结构和计算结果等信息的接口,并且提供了多种与Spark SQL交互的方法,包括SQL、DataFrame API和最新的Dataset API。因此,该判断题的答案是A。'
  79. 物联网数据的特点有数据量大、更新快、数据价值低。( )

  80. A:对 B:错
    AI参考:答案是B:错。物联网数据的特点不仅仅是数据量大、更新快,还包括结构化、非结构化等多种数据类型,以及数据价值密度低、处理速度快等特征。因此,选项B不准确。'
  81. 设某网页解析后的BeautifulSoup对象soup中有多个标签<li>,则soup.find("li")返回的是该网页中所有的标签<li>组成的列表。( )

  82. A:错 B:对
    AI参考:答案是B:对。根据BeautifulSoup对象的find()方法,它可以返回匹配指定标签名的第一个元素。在这个问题中,网页解析后的BeautifulSoup对象soup中有多个标签<li>,而soup.find("li")返回的是该网页中第一个匹配的标签<li>,即所有标签<li>中的第一个。因此,返回的是该网页中所有的标签<li>组成的列表,而不是只返回一个元素。所以答案为B:对。'
  83. 内连接查询INNER JOIN可以获得两个表中连接字段值相等的所有记录。( )。

  84. A:对 B:错

  85. Spoon是构建ETL Jobs和Transformations的工具。( )

  86. A:对 B:错
    AI参考:答案是B:错。Spoon是构建Hadoop ETL Jobs的工具,而不是ETL Jobs和Transformations的工具。ETL是数据集成和处理的常用术语,它涉及从不同的数据源获取数据,将其整合到一起,并转换格式以满足特定需求的过程。而Spoon主要用于在Hadoop平台上进行数据加载、转换和存储等操作。因此,Spoon不是构建ETL Jobs和Transformations的工具。'
  87. 如果一个网站没有发布自己的robots协议,或者robots协议的内容为空,说明它允许所有的爬虫来爬取数据.。( )

  88. A:错 B:对
    AI参考:答案是B:对。根据robots协议的定义,如果一个网站没有发布自己的robots协议或者robots协议的内容为空,通常意味着该网站允许所有的爬虫来爬取数据。因此,这个判断题是正确的。'
  89. https是超文本传输安全协议,它是在http协议的基础上,增加了加密协议,能实现数据的加密传输,安全性更好。( )

  90. A:对 B:错
    AI参考:答案是B:错。HTTPS是超文本传输安全协议,它是在HTTP协议的基础上,增加了加密协议,能实现数据的加密传输,安全性更高。但是HTTPS不是协议http协议的基础,因此答案为B,错误。'
  91. 可以通过 try-except处理爬取网页过程中可能出现的异常。( )

  92. A:错 B:对
    AI参考:正确答案是B:对。通过try-except语句可以处理爬取网页过程中可能出现的异常,这是一种常见的错误处理方式。在try块中尝试执行可能会引发异常的代码,如果发生异常,程序会跳转到except块中处理异常,而不是让程序崩溃。因此,这个判断题的答案是B:对。'
  93. 在数据清洗中,重复值都是采用删除处理。( )

  94. A:对 B:错
    AI参考:答案是B:错。在数据清洗中,重复值并不总是采用删除处理。有时候,重复的值可能是有用的,可以用于填充缺失值或者提供额外的信息。因此,具体的处理方式需要根据数据集的具体情况和需求来决定。'
  95. 缺失值表示的是“缺失的数据“,可能因为机械原因或者人为原因造成的数据缺失。( )

  96. A:对 B:错
    AI参考:答案是B:错。缺失值表示的是“缺失的数据”,是由于各种原因导致的数据缺失,可能因为机械故障、人为疏忽等机械原因或者人为因素造成的数据缺失。分析时需要对缺失值进行特殊处理或者采用其他方法来应对。'
  97. 在一个关系中,若某一个属性(或属性集)的值可唯一地表示每一个元组,即其值对不同的元组是不同的,这样的属性集合称为侯选建。( )

  98. A:错 B:对
    AI参考:答案是B:对。在一个关系中,如果某个属性(或属性集)的值可唯一地表示每一个元组,即其值对不同的元组是不同的,那么这个属性集合被称为候选键(或候选码)。因此,选项B是正确的。选项A是错误的。'
  99. 业务系统数据的特点有数据量大、更新快、数据价值低、语义不明确、数据类型多。( )

  100. A:对 B:错
    AI参考:正确答案是A:对。业务系统数据的特点有数据量大、更新快、数据价值低、语义不明确、数据类型多,所以该判断题为对。'

温馨提示支付 ¥1.00 元后可查看付费内容,请先翻页预览!
点赞(1) dxwkbang
返回
顶部