⬆️⬆️⬆️本课程2024最新同名章节期末答案⬆️⬆️

网络数据爬取与处理期末考试答案2023春

所有课程章节/期末均有答案,可提供word版,点击联系客服✅

45 阅读 0 评论 1 点赞

提示:内容已经过期谨慎付费，点击上方查看最新答案

网络数据爬取与处理

用字典类型的数据来创建一个DataFrame时，它会自动的将以下哪一项作为列名（）。

答案:字典的键

执行以下程序输出的结果是（）。
import pandas as pd
s=pd.Series([3,5,6,7,9],index=['a','b','c','d','e'])
print(list(s[['d','a']]))

答案:

变量df的值如图所示，执行以下代码后输出的结果是（）。

print(df['gender'].isnull().sum()

答案:7

以下关于dataframe的连接描述错误的是（）。

答案:等价于二维的ndarray对象AI参考:选项B关于merge()能够在任意列上对齐连接描述错误。merge()函数只能在指定的行索引或列上进行对齐连接。它不支持在任意列上对齐连接。选项D是正确的，因为concat()函数只能在对齐行索引或列索引的情况下进行连接。而选项A和C在描述merge()和concat()的功能时是正确的。因此，答案是B:merge()能够在任意列上对齐连接。'

以下关于重复值的处理描述错误的是（）。

答案:在重复博弈中,每次博弈的条件.规则和内容可以是不同的.AI参考:描述错误的是：C: 通过drop_duplicates()执行删除重复行操作，默认保留最后一条重复行。drop_duplicates()方法用于删除dataframe中的重复行，默认情况下是删除所有重复行，而不是只保留最后一条重复行。所以描述是错误的。其他选项均是正确的。A选项，通过dataframe的duplicated()方法可以查询每一行是否重复。B选项，通过dataframe的drop_duplicates()方法可以删除重复行。D选项，对于dataframe的重复行一般进行删除处理，这是数据分析中常见的方法。'

以下关于时间序列dataframe描述错误的是（）。

内容已经隐藏，点击付费后查看

AI参考:答案：D：时间序列dataframe的行索引具有weekofyear属性。解释：A选项正确，时间序列dataframe没有自动索引，需要手动创建索引。B选项正确，行索引为datetime类型的dataframe可以进行时间序列操作。C选项正确，时间序列dataframe可以按年月日切片引用。D选项错误，时间序列dataframe的行索引没有weekofyear属性，一般使用pandas库中的date_range函数生成的时间序列数据才有weekofyear属性。本题为选是题，故本题答案为D。'

执行以下程序输出的结果是（ D）。
from bs4 import BeautifulSoup
html='<html><p>ss<a id="name1">Alice</a></p><a id="name2">Amy</a></html>'
soup=BeautifulSoup(html,'html.parser')
soup.select('#name2')

内容已经隐藏，点击付费后查看

‎使用以下哪一种方法，可以将字符串中的英文字符转换为小写字母（）。

AI参考:正确答案是 B:lower( )。lower() 方法可以将字符串中的英文字符转换为小写字母。upper() 方法可以将字符串中的英文字符转换为大写字母。replace() 方法用于替换字符串中的特定字符或字符串。split() 方法用于将字符串按指定的分隔符拆分成多个子字符串。因此，正确答案为 B。'

执行以下程序输出的结果是（）。
from bs4 import BeautifulSoup
html='<html><p class="story">ss<a id="name1">Alice</a></p><a id="name2">Amy</a></html>'
soup=BeautifulSoup(html,'html.parser')
print(soup.a.attrs)

内容已经隐藏，点击付费后查看

以下关于dataframe描述错误的是（C）。

内容已经隐藏，点击付费后查看

AI参考:错误选项是（B）：dataframe没有行索引。DataFrame是一种数据结构，它由行和列组成，每一列都有一个列名，每一行对应一个元素，并且可以看成是一个由行列构成的二维表。因此，它是有行索引的。所以，答案为（B）：dataframe没有行索引。'

下列第三方库中，哪个库可以用于从HTML或XML文件中提取数据（）。

AI参考:正确答案是D:BeautifulSoup。BeautifulSoup是一个用于从HTML或XML文件中提取数据的Python库，它可以解析HTML或XML文档并提取所需的数据。其他选项中，matplotlib是一个用于绘制图表的库，urllib是一个用于处理URL的库，requests是一个用于发送HTTP请求的库。因此，只有BeautifulSoup可以用于从HTML或XML文件中提取数据。'

下列描述错误的是（）。

内容已经隐藏，点击付费后查看

关于groupby方法，以下描述错误的是（）。

内容已经隐藏，点击付费后查看

变量df的值如图所示，执行以下代码后返回的结果是（）。

df[df.duplicated()

内容已经隐藏，点击付费后查看

运行以下程序后的结果是（）。

内容已经隐藏，点击付费后查看

AI参考:程序本身没有输出结果，因为它是一个空程序。因此，正确选项应该是D:【0123456789】。这个选项中的字符串"[0123456789]"是一个合法的字符序列，表示数字的集合。另外，由于该程序本身没有任何执行的操作，因此也无法得出任何特定的运行结果。值得注意的是，D选项是合理的答案，因为"[0123456789]"这个字符串在很多上下文中表示的是一个数字集合。但是，如果程序本身有特定的逻辑或操作，那么结果可能会有所不同。因此，无法根据空程序得出确切的结果。'

变量df1与df2的值如下图所示，执行以下程序后，变量df的值为（）。
df=pd.concat([df1,df2])

内容已经隐藏，点击付费后查看

以下关于实现网络爬虫的描述中，错误的是（）。

内容已经隐藏，点击付费后查看

执行以下程序输出的结果是（ D）。
import pandas as pd
d={'one':[1,3,5,7],'two':[2,4,6,8]}
df=pd.DataFrame（）
df['three']=df['two']-df['one']
df.index=['a','b','c','d']
print(df.loc[['a','d']])

内容已经隐藏，点击付费后查看

执行以下程序输出的结果是（ C）。
from bs4 import BeautifulSoup
html='<html><p>ss<a id="name1">Alice</a></p><a id="name2">Amy</a></html>'
soup=BeautifulSoup(html,'html.parser')
soup.select('p a')

内容已经隐藏，点击付费后查看

以下关于requests的描述中，正确的是（）。

内容已经隐藏，点击付费后查看

AI参考:正确答案是A:requests库可以处理HTTP协议。requests库是一个用于发送HTTP请求的库，可以处理HTTP协议，因此A选项是正确的。B选项关于绘图功能，需要使用其他的库，如matplotlib；C选项是Python的标准库的列表，requests库并不在其中；D选项关于字符串的正则表达式匹配，需要使用re模块，而不是requests库。'

时间序列变量df的值如图所示，执行以下代码后返回的结果是（）。

df[(df.index.month==2)|(df.index.year==2022)]

内容已经隐藏，点击付费后查看

执行以下程序输出的结果是（）。
from bs4 import BeautifulSoup
html='<html><p class="story">ss<a id="name1">Alice</a></p><a id="name2">Amy</a></html>'
soup=BeautifulSoup(html,'html.parser')
soup.select('p')

内容已经隐藏，点击付费后查看

可以通过.iloc()方法按dataframe的自定义索引引用行。（）

AI参考:正确答案是【对】。可以使用.iloc()方法按DataFrame的自定义索引引用行。'

pandas库的concat()方法可以将两个dataframe在任意列上对齐连接。（）

内容已经隐藏，点击付费后查看

AI参考:答案是B：错。pandas库的concat()方法可以将两个dataframe在指定列上对齐连接，而不是任意列。如果要连接两个dataframe在任意列上，可以使用merge()方法。因此，这个说法是错误的。'

pandas库的concat()方法只能同时连接两个dataframe。（）

内容已经隐藏，点击付费后查看

AI参考:答案是B：错。pandas库的concat()方法可以同时连接多个dataframe。该方法用于将两个或更多DataFrame连接在一起，形成一个新的DataFrame。因此，这个判断题是错误的。'

dataframe的groupby()方法同时对多个字段分组时将返回具有多层索引的dataframe。（）

内容已经隐藏，点击付费后查看

AI参考:答案是B：对。在Python的Pandas库中，DataFrame的groupby()方法可以对多个字段进行分组，返回的结果是一个具有多层索引的DataFrame。因此，这个判断题是正确的。'

CSS主要用于描述网页的样式。（）

AI参考:答案是B：对。CSS主要用于描述网页的样式。CSS是一种用于描述HTML文档样式的语言，它可以帮助开发者控制网页的布局、颜色、字体等视觉元素，使网页更加美观和易于维护。因此，这个问题的答案是肯定的，即CSS主要用于描述网页的样式。'

dataframe的fillna()方法将返回填充缺失值后的新dataframe。（）

内容已经隐藏，点击付费后查看

AI参考:答案是A：对。根据Python pandas库中DataFrame的fillna()方法，它会将DataFrame中的缺失值（NaN）替换为指定的值，并返回填充后的新DataFrame。因此，该方法将返回填充缺失值后的新DataFrame。'

dataframe的isnull()方法可以查询缺失值。（）

内容已经隐藏，点击付费后查看

AI参考:正确答案是A：对。在Python的Pandas库中，DataFrame的isnull()方法可以用于查询DataFrame中的缺失值。该方法返回一个布尔型DataFrame，其中缺失值为True，非缺失值为False。因此，这个判断题的答案是A，即“对”。'

与series不同的是dataframe没有行索引。（）

AI参考:答案是B：错。Series和DataFrame都是pandas库中的数据结构，Series只有一个索引，而DataFrame有行索引和列索引。因此，与Series不同的是，DataFrame有行索引。所以这个说法是错误的。'

正则表达式+表示其前一个字符重复1次或多次。（）

AI参考:答案是B：对。+表示其前面的字符可以出现一次或多次，是正则表达式的常用语法。'

requests库是处理正则表达式的第三方库。（）

AI参考:答案是B：错。requests库是用于发送HTTP请求的第三方库，它并不处理正则表达式。要处理正则表达式，需要使用其他的第三方库，如re库。'

正则表达式是Python所有的。（）

AI参考:答案是A：错。虽然Python中可以使用正则表达式模块re来处理正则表达式，但是正则表达式并不是Python的全部功能，它只是Python中处理字符串的一种工具。Python还提供了其他字符串处理方法，如字符串连接、替换、分割等。因此，这个说法是错误的。'

re库的findall()方法默认只从原字符串中返回第一个匹配的子串。（）

AI参考:答案：A:错。re库的findall()方法会返回所有匹配的子串，并不会只返回第一个匹配的子串。findall()方法会按照正则表达式的匹配规则，返回所有匹配的子串列表。如果需要获取第一个匹配的子串，可以使用find()方法。'

pandas库的merge()方法可以将两个dataframe在任意列上对齐连接。（）

内容已经隐藏，点击付费后查看

AI参考:答案是B：对。Pandas库的merge()方法可以将两个dataframe在指定的列上对齐连接，而不是在任意列上。需要指定连接的列，可以选择按照某一列进行连接，也可以按照多列进行连接。所以这个说法是正确的。'

json库的dumps()方法可将python对象转换为json字符串。（）

AI参考:答案是B：对。json库的dumps()方法可以将Python对象转换为JSON字符串。这个方法可以将Python对象（如字典、列表、字符串等）转换为JSON格式的字符串，以便于在网络中传输或存储到文件中。'

dataframe的drop_duplicates()方法将返回删除重复行后的新dataframe。（）

内容已经隐藏，点击付费后查看

AI参考:答案是B：对。在Python的pandas库中，DataFrame的drop_duplicates()方法用于删除重复的行，并返回一个新的DataFrame对象，因此这个判断题是正确的。'

Json可以独立于网页的结构与样式传输数据。（）

AI参考:答案：A。Json是一种数据交换格式，它可以独立于网页的结构与样式传输数据。因此，答案为A，表示正确。'

正则表达式由普通字符、元字符与预定义字符构成。（）

AI参考:答案是A：对。正则表达式是由普通字符（称为元字符）和特殊字符（称为正则表达式元字符）组成的，用于描述或匹配一些文本模式。这些普通字符和预定义字符共同构成了正则表达式的语法。因此，这个判断题的答案是肯定的，即正则表达式由普通字符、元字符与预定义字符构成。'

dataframe的drop()默认在原对象上删除行或类。（）

内容已经隐藏，点击付费后查看

AI参考:答案是B:错。在Pandas库中，DataFrame的drop()函数可以删除指定的行或列，但是它并不会在原对象上进行删除，而是返回一个新的DataFrame对象。原对象并不会发生改变。因此，这个判断题是错误的。'

dataframe的apply()方法能够将自定义函数应用到dataframe的所有元素。（）

AI参考:正确答案是A：对。在Python的Pandas库中，DataFrame的apply()方法可以将自定义函数应用到DataFrame的所有元素上。因此，这个判断题的答案是A，即“对”。'

csv库的to_csv()方法可以将dataframe写入到csv或txt格式的文本文件。（）

AI参考:答案是A：对。根据题目描述，csv库的to_csv()方法可以将dataframe写入到csv或txt格式的文本文件。因此，该方法可以将dataframe写入到csv或txt格式的文件中，答案为A。'

网络爬虫可以自动获取互联网数据。（）

AI参考:答案是B：对。网络爬虫是一种自动化的网络数据抓取工具，可以自动获取互联网上的数据。它可以按照一定的规则和算法，自动从网站上提取指定信息或数据，以实现数据的收集和分析。因此，网络爬虫可以自动获取互联网数据。'

dataframe的apply()方法不能将python的标准函数应用到行或列。（）

AI参考:正确答案是B：错。DataFrame的apply()方法可以将Python的标准函数应用到行或列。在Python中，使用apply()方法可以将任何函数应用到DataFrame的行或列上，包括Python的标准函数。因此，这个说法是错误的。'

dataframe的dropna()方法将返回删除包含缺失值行后的新dataframe。（）

内容已经隐藏，点击付费后查看

AI参考:答案是B：对。在Python的pandas库中，DataFrame的dropna()方法用于删除包含缺失值的行。该方法会返回一个新的DataFrame，其中包含删除缺失值后的有效数据。因此，判断题中的陈述是正确的。'

可以通过dataframe的index属性修改行索引。（）

内容已经隐藏，点击付费后查看

AI参考:答案是A：对。在Python的pandas库中，DataFrame对象的index属性可以用来修改行索引。可以通过设置新的索引值来改变DataFrame的行索引。'

关于re.findall()方法描述正确的是（）。

AI参考:关于re.findall()方法描述正确的是（B:该方法将返回一个列表）。re.findall()方法是Python正则表达式模块re中的一个方法，它会在给定的正则表达式匹配的字符串中查找所有匹配的子串，并返回一个列表。因此，选项B是正确的。选项A、C、D虽然部分正确，但并不是re.findall()方法的最准确描述。'

关于标签树与标签描述正确的是（）。

内容已经隐藏，点击付费后查看

AI参考:关于标签树与标签描述正确的是：C:标签树以树形结构表示标签之间的层次关系。标签树是一种用于表示标签之间层次关系的图形结构，通常以树形结构表示。标签是标签树的基本单元，每个标签都代表一个特定的概念或实体。文本（text）和名称（name）是标签的属性，但不是标签树的基本元素。因此，选项C是正确的。'

温馨提示支付 ￥1.30 元后可查看付费内容,请先翻页预览!

微信支付

点赞(1) dxwkbang

本文分类：智慧树知到期末考试答案2023春
本文标签：网络数据爬取与处理
浏览次数：45 次浏览
发布日期：2023-12-16 12:38:13

上一篇 > 人力资源管理概论期末考试答案2023春
下一篇 > 土木工程制图期末考试答案2023春