第四章测试
1.对pandas库的描述,以下说法错误的是( )。
A:只支持一维和二维的数据处理分析 B:是一种高效且功能强大的数据分析包 C:是Python的外部扩展库,需要预先下载和安装 D:非常适合于关系型和标记型数据的处理和分析
答案:A
2.关于DataFrame对象的描述,以下不正确的是( )。
A:对象大小可变 B:等价于二维的ndarray对象 C:存储异构数据 D:元素值可变 3.关于Series对象的描述,以下不正确的是( )。
A:对象中的元素值是可变的 B:对象的大小是可变的 C:对象中的数据是均匀的 D:是一个带标签的一维数组 4.DataFrame对象使用一种行列交叉的表格结构,则以下描述不正确的是( )。
A:每一列允许使用不同的数据类型 B:行和列允许增加或删除 C:每一行和列都具有相应的标签作为标识 D:缺省情况下,默认的行、列标识都从0开始 5.假设执行s=pd.Series(np.random.randn(5))语句,已经创建了一个Series对象,则以下允许的操作有( )。
A:执行s[0]=True,同时修改元素的值和数据类型 B:执行s[:]=s[:]+1,修改所有元素的值 C:执行s.size=6,改变对象的大小 D:执行s.index=list("abcde"),改变对象的索引标识 6.创建Series对象时,不可以作为其输入数据的是( )。
A:标量值,如数字3 B:Python的集合对象 C:Python的字典对象 D:numpy的ndarray对象 7.若DataFrame对象是一个由10行4列组成的数值型数据集,则要使用DataFrame对象的sum函数统计每一行的总和,应设置参数( )。
A:axis=False B:axis=0 C:axis=True D:axis=1 8.设df是一个由100行5列组成的DataFrame对象,其中第5列标识为“Species”,数据类型是字符串型,要统计该列中每个字符串的长度,以下表达式正确的是( )。
A:len(df["species"]) B:df["species"].map(lambda s:len(s)) C:df["species"].count() D:map(lambda s:len(s),df["species"]) 9.假设一个DataFrame对象df的第1列标识为“Species”,由不同物种名称的字符串组成,要统计该列中不同类别物种的个数,以下表达式正确的是( )。
A:df["species"].count().unique() B:df.value_counts("species").unique() C:count(df["species"].unique()) D:len(df["species"].unique()) 10.假设df为已经创建的DataFrame对象,且其列标识分别为“A”、“B”、“C”、“D”,则语句df.sort_values(by=["B", "D"])的作用是( )。
A:先按B列降序排序,B列相同时再按D列降序排序 B:分别按B列、D列降序排序 C:先按B列升序排序,B列相同时再按D列升序排序 D:分别按B列、D列升序排序 11.

在进行数据预处理时,可以被pandas理解为缺失值的有( )。


A:其余选项都是 B:pandas模块提供的NaN C:Python内置的None D:numpy模块提供的nan 12.若DataFrame对象df中存在重复数据,执行该对象的drop_duplicates方法,则以下说法不正确的是( )。
A:可以将df中所有的重复数据真正删除 B:只能删除df中行完全重复的所有数据 C:删除重复数据后,行索引保持不变 D:可以删除df中指定列完全重复的所有数据 13.若DataFrame对象df存储的数据集中存在不同程度的缺失值NaN,则执行该对象的dropna方法删除这些缺失值时,以下说法正确的是( )。
A:若参数axis=1且每列都存在缺失值,df将成为一个空的DataFrame对象 B:对象df中的原数据会始终保持不变 C:若参数axis=0且每行都存在缺失值,df将成为一个空的DataFrame对象 D:若参数axis=0,只要某行中存在缺失值,该行数据将被全部删除 14.使用3σ原则检测数据集中的异常值时,其中的σ是指( )。
A:标准差 B:均值 C:方差 D:极差 15.以下属于二进制文件格式的有( )。
A:MS EXCEL B:XML C:TXT D:JSON 16.在pandas库与时间相关的类中,带有时区信息,表示某个具体时间点的类是( )。
A:Timedelta B:Period C:Datetime D:Timestamp 17.在时间序列的处理和分析中,目前不考虑时区因素而作为国际通用时间标准的是( )。
A:GMT B:UTC C:DST D:EST 18.在Python环境中,汇编世界时区信息,且封装在pandas库中,为时区信息的使用带来极大便利的第三方库是( )。
A:pytz B:Dateutil C:datetime D:PyTime 19.数据分类是有效提高大数据集分析时空效率的必要手段,则以下关于数据分类的说法不正确的是( )。
A:数据分类的时间代价较大时,分类是不必要的 B:对分类数据的操作速度会更快 C:分类数据通常用整数编码 D:分类数据通常占用更少的内存 20.使用DataFrame对象的sort_values方法对其中存储的数据进行排序时,以下允许的操作是( )
A:设置要排序的顺序 B:设置要排序的列名 C:设置要排序的轴向 D:设置要排序的索引标识 21.使用DataFrame对象的concat()方法,可以将两个数据集合并成一个数据集。( )
A:对 B:错 22.使用DataFrame对象的groupby()方法,可以按分组进行统计计算。( )
A:对 B:错 23.使用Pandas的read_csv()函数,不仅可以读取CSV格式的文件,而且可以解析文件中的数据内容。( )
A:错 B:对 24.FuzzyWuzzy是Python环境下对字符串模糊匹配的第三方库,它默认使用Python的标准库difflib进行字符串匹配。( )
A:错 B:对 25.对数据进行标准差标准化后,数据的值限定在[0,1]之间。( )
A:错 B:对 26.使用层次化索引可以直接访问DataFrame对象的内层元素。( )
A:对 B:错 27.Series对象只有一个轴,不能使用分层索引。( )
A:对 B:错 28.使用DataFrame对象的stack()方法,可以将其中的列转换为行,得到一个具有多层索引的Series对象。( )
A:对 B:错 29.若两个数据子集的列数分别为n1、n2,则使用Pandas的merge方法按主键合并这两个数据子集时,合并后的结果数据集中的列数为n1+n2。( )
A:对 B:错 30.使用Series对象的索引标签,可以按照字典的方式访问和操作对象中的元素。( )
A:错 B:对 31.使用DataFrame对象的head方法,仅能查看数据集中前5行的数据。( )
A:对 B:错 32.可以通过对DataFrame对象的shape属性重新赋值的方式改变其形状。( )
A:对 B:错 33.使用DataFrame对象的reindex方法重构索引时,若该对象中原来没有索引标识“h”,则索引“h”对应的行将填充为NaN。( )
A:对 B:错 34.使用DataFrame对象的iloc方法选取行数据时,只能使用整数形式的索引标识。( )
A:错 B:对 35.Python的外部扩展库pandas不具有图表绘制的功能。( )
A:对 B:错 36.在使用DataFrame对象的groupby方法进行分组计算时,若分组键是列标识的列表,则分组的结果会以层次化索引表示和存储。( )
A:错 B:对 37.JSON格式的数据是以键-值对形式存储的序列化文本类型数据,可以使用pandas库的read_json和to_json方法读写。( )
A:错 B:对 38.如果数据集中表示日期时间的数据是一个很大的整数,一般是指在内部从新纪元Epoch开始的秒数。( )
A:错 B:对 39.在表示时间序列的频率中,WOM-3FRI表示每月第3个星期五。( )
A:对 B:错 40.以协调世界时UTC形式表示的时间戳值是带有时区信息的,在进行运算时需要进行时区的转换。( )
A:对 B:错 41.创建pandas库的Series对象时,以下可以作为其数据参数的有:( )
42.假设已经创建列标识分别为“A”、“B”、“C”、“D”共4列的DataFrame对象df,则以下语句中能够同时访问C列、D列所有数据的是( )
43.执行语句序列data=[[4,5,6], [4,5,6], [4,5,6]];df=pd.DataFrame(data,columns= list("ABC"))创建DataFrame对象df,则以下可以将df中值为5的数据修改为数值10的语句是( )。
A:df.loc[:,"B"]=5 B:df["B"]=10 C:df.replace(5,10,inplace=True) D:df[df.values==5]=10 44.使用pandas库可以直接读取的外部文件格式包括( )。
A:HTML格式文件 B:XML格式文件 C:CSV格式文件 D:Excel格式文件 45.使用DataFrame对象的groupby方法对数据分组时,以下说法正确的是( )。
A:分组后的结果可以直接显示查看 B:一般遵循拆分、应用、合并的过程 C:函数作为分组键时,函数的返回值作为分组的名称 D:分组生成的GroupBy对象包含数据分组的所有信息 46.对时间序列数据的重采样,以下说法正确的是( )。
A:对以日期为索引的时间序列升采样时目标频率必须是源频率的超时期 B:升采样时会产生大量的缺失值 C:本质上是频率转换的过程 D:降采样时一般要进行相应的聚合运算 47.在进行时间序列分析时,以时间顺序排列构成的观测样本序列数据集,一般具有的基本特性包括( )。
A:趋势性 B:季节性变化 C:随机性 D:周期性 48.对时间序列的分析和预测,可以通过移动窗口并在窗口上进行统计计算的方式。Pandas应用于移动窗口计算的常用函数有( )。
A:shift B:rolling C:ewm D:expanding 49.在Pandas环境中使用分类数据,以下说法正确的是( )。
A:分类数据通常占用少的多的内存空间 B:可以人为指定分类数据的整数编码 C:操作分类对象Categorical的方法是通过其cat属性提供的 D:支持分类类型的底层算法采用整数编码数组,速度更快 50.在Python环境中,可以使用链式编程思想的场景有( )。
A:关系运算表达式 B:对数据集进行一系列变换 C:闭包函数的调用 D:自定义类成员方法的调用 51.在pandas的数据合并方法中,既可以按行合并,又可以按列合并的方法有( )。
A:join B:append C:concat D:merge 52.以下属于pandas库自带的基本数据结构的是( )。
A:list B:DataFrame C:Series D:ndarray 53.假设执行df=pd.DataFrame(np.random.randn(4,3),index=range(4), columns= ["one", "two","three"])语句已经正确创建了一个DataFrame对象,则以下允许的操作有( )。
A:执行df.iloc[2]选择第三行 B:执行df.pop("two")删除第二列 C:执行df["four"]=df["one"]+df["three"]添加一列 D:执行df.index=list("abcd")改变对象的索引标识 54.使用DataFrame对象的describe方法,可以查看数据集的( )。
A:每个数值列的数据项个数 B:每个数值列的标准差 C:每个非数值列的类别数 D:每行的最大值和最小值 55.使用DataFrame对象的groupby方法对数据进行分组后,得到一个GroupBy对象,则以下关于GroupBy对象的说法正确的是( )。
A:该对象包含要进行分组计算的所有信息 B:该对象包含对数值列的分组计算结果 C:可以通过该对象直接查看分组的结果 D:是一个可迭代对象,由分组键值和对应的数据块组成 56.采用分组机制对数据进行计算时,以下对分组聚合和解封的说法正确的是( )。
A:可以直接在分组对象上执行统计计算 B:只能对数据集中的数值型数据进行计算 C:transform方法是对分组解封后的数据转换运算 D:apply方法是在各个分组结果上的聚合运算 57.在使用pandas库的get_dummies方法对分类特征进行哑变量处理以满足某些回归分析模型对数值型输入的要求时,以下说法正确的是( )。
A:get_dummies可以接收DataFrame对象的一列作为要处理的哑变量 B:哑变量的数值没有数量大小的意义,一般为0或1 C:哑变量处理后的数据变得更加稀疏,因此降低了模型的运算速度 D:某一输入特征有n种分类时,可以设置n-1个哑变量 58.在进行数据处理分析时,对数据进行离散化处理的原因主要有( )。
A:模型算法的要求 B:减少数据量,降低算法的时空开销 C:提高算法对样本的抗噪声能力 D:简化数据结构,更容易理解 59.在进行数据的处理分析时,要求对原始数据进行标准化处理,其主要原因有( )。
A:消除数据特征之间量纲的差异 B:保证算法的准确性 C:消除评价指标之间的数量级差异 D:保证结果的可靠性 60.在pandas库的数据组织方式上,允许使用层次化索引,以使得在同一个轴上可以拥有多个索引级别,其主要原因有( )。
A:数据子集的选取和访问更加简单 B:能够以低维方式处理高维数据 C:更容易实现不同层次的数据交换和排序 D:使得DataFrame对象可以存储和操作三维的数据 61.数据转换主要指数据类型转换,数据映射、___和___,其主要目的是降低内存消耗。
62.使用pandas进行数据预处理时,比较常用的处理包括___、___、___等。
63.在Pandas能够读写的二进制文件格式中,HDF5格式是一种全新的___数据格式,其文件是___和___两种基本数据对象的容器。
64.在Python环境中,如果已经建立了与数据库的连接,使用连接对象的execute方法,可以使用___和___两种方式执行数据库的相关操作。
65.对GroupBy对象的数据聚合,可以使用该对象的聚合函数、___方法或___方法。
66.使用Pandas的concat方法,既可以进行数据集的___连接合并,又可以进行数据集的___连接合并。
67.对于时间序列中不带时区信息的朴素时区,可以使用时间序列的___方法将其转换为本地敏感时区。
68.设锚定频率为“Q-FEB”,时期对象为Period('2020Q1',freq='Q-FEB'),则使用该对象的asfreq方法将其转换为日频,则默认的结果为___。
69.对时间序列的重采样,一般可以使用DataFrame对象的___方法来实现。
70.使用平滑法可以削弱或消除短期随机波动对时间序列的影响,使序列得以平滑,常用的平滑模型方法有简单移动平均、___和___等方法。

温馨提示支付 ¥4.99 元后可查看付费内容,请先翻页预览!
点赞(156) dxwkbang
返回
顶部