第四章单元测试
  1. 对pandas库的描述,以下说法错误的是( )。

  2. A:是Python的外部扩展库,需要预先下载和安装 B:只支持一维和二维的数据处理分析 C:非常适合于关系型和标记型数据的处理和分析 D:是一种高效且功能强大的数据分析包
    答案:只支持一维和二维的数据处理分析
  3. 关于DataFrame对象的描述,以下不正确的是( )。

  4. A:存储异构数据 B:等价于二维的ndarray对象 C:对象大小可变 D:元素值可变
  5. 关于Series对象的描述,以下不正确的是( )。

  6. A:对象中的元素值是可变的 B:是一个带标签的一维数组 C:对象中的数据是均匀的 D:对象的大小是可变的
  7. DataFrame对象使用一种行列交叉的表格结构,则以下描述不正确的是( )。

  8. A:每一行和列都具有相应的标签作为标识 B:行和列允许增加或删除 C:缺省情况下,默认的行、列标识都从0开始 D:每一列允许使用不同的数据类型
  9. 假设执行s=pd.Series(np.random.randn(5))语句,已经创建了一个Series对象,则以下允许的操作有( )。

  10. A:执行s.index=list("abcde"),改变对象的索引标识 B:执行s[:]=s[:]+1,修改所有元素的值 C:执行s.size=6,改变对象的大小 D:执行s[0]=True,同时修改元素的值和数据类型
  11. 创建Series对象时,不可以作为其输入数据的是( )。

  12. A:标量值,如数字3 B:Python的字典对象 C:Python的集合对象 D:numpy的ndarray对象
  13. 若DataFrame对象是一个由10行4列组成的数值型数据集,则要使用DataFrame对象的sum函数统计每一行的总和,应设置参数( )。

  14. A:axis=False B:axis=True C:axis=1 D:axis=0
  15. 设df是一个由100行5列组成的DataFrame对象,其中第5列标识为“Species”,数据类型是字符串型,要统计该列中每个字符串的长度,以下表达式正确的是( )。

  16. A:df["species"].count() B:map(lambda s:len(s),df["species"]) C:len(df["species"]) D:df["species"].map(lambda s:len(s))
  17. 假设一个DataFrame对象df的第1列标识为“Species”,由不同物种名称的字符串组成,要统计该列中不同类别物种的个数,以下表达式正确的是( )。

  18. A:count(df["species"].unique()) B:df["species"].count().unique() C:df.value_counts("species").unique() D:len(df["species"].unique())
  19. 假设df为已经创建的DataFrame对象,且其列标识分别为“A”、“B”、“C”、“D”,则语句df.sort_values(by=["B", "D"])的作用是( )。

  20. A:先按B列降序排序,B列相同时再按D列降序排序 B:分别按B列、D列降序排序 C:先按B列升序排序,B列相同时再按D列升序排序 D:分别按B列、D列升序排序
  21. 在进行数据预处理时,可以被pandas理解为缺失值的有( )。


  22. A:Python内置的None B:其余选项都是 C:numpy模块提供的nan D:pandas模块提供的NaN
  23. 若DataFrame对象df中存在重复数据,执行该对象的drop_duplicates方法,则以下说法不正确的是( )。

  24. A:只能删除df中行完全重复的所有数据 B:删除重复数据后,行索引保持不变 C:可以删除df中指定列完全重复的所有数据 D:可以将df中所有的重复数据真正删除
  25. 若DataFrame对象df存储的数据集中存在不同程度的缺失值NaN,则执行该对象的dropna方法删除这些缺失值时,以下说法正确的是( )。

  26. A:若参数axis=1且每列都存在缺失值,df将成为一个空的DataFrame对象 B:若参数axis=0,只要某行中存在缺失值,该行数据将被全部删除 C:若参数axis=0且每行都存在缺失值,df将成为一个空的DataFrame对象 D:对象df中的原数据会始终保持不变
  27. 使用3σ原则检测数据集中的异常值时,其中的σ是指( )。

  28. A:标准差 B:极差 C:方差 D:均值
  29. 以下属于二进制文件格式的有( )。

  30. A:XML B:JSON C:TXT D:MS EXCEL
  31. 在pandas库与时间相关的类中,带有时区信息,表示某个具体时间点的类是( )。

  32. A:Datetime B:Timedelta C:Timestamp D:Period
  33. 在时间序列的处理和分析中,目前不考虑时区因素而作为国际通用时间标准的是( )。

  34. A:DST B:UTC C:GMT D:EST
  35. 在Python环境中,汇编世界时区信息,且封装在pandas库中,为时区信息的使用带来极大便利的第三方库是( )。

  36. A:datetime B:PyTime C:pytz D:Dateutil
  37. 数据分类是有效提高大数据集分析时空效率的必要手段,则以下关于数据分类的说法不正确的是( )。

  38. A:数据分类的时间代价较大时,分类是不必要的 B:分类数据通常用整数编码 C:对分类数据的操作速度会更快 D:分类数据通常占用更少的内存
  39. 使用DataFrame对象的sort_values方法对其中存储的数据进行排序时,以下允许的操作是( )

  40. A:设置要排序的轴向 B:设置要排序的顺序 C:设置要排序的列名 D:设置要排序的索引标识
  41. 使用DataFrame对象的concat()方法,可以将两个数据集合并成一个数据集。( )

  42. A:对 B:错
  43. 使用DataFrame对象的groupby()方法对数据进行分组得到的GroupBy对象包含所有分组计算的结果。( )


  44. A:错 B:对
  45. 使用Pandas的read_json()函数,在读取JSON格式文件的同时,可以解析文件中的数据内容。( )


  46. A:错 B:对
  47. FuzzyWuzzy是Python环境下对字符串模糊匹配的第三方库,它默认使用Python的标准库difflib进行字符串匹配。( )

  48. A:对 B:错
  49. 对数据进行标准差标准化后,数据的值限定在[0,1]之间。( )

  50. A:对 B:错
  51. 使用层次化索引可以在低维上访问到DataFrame对象的高维元素。( )


  52. A:错 B:对
  53. numpy库提供的Series对象即使只有一个轴,也能使用分层索引。( )


  54. A:对 B:错
  55. 使用DataFrame对象的unstack()方法,可以将其中的行转换为列,得到一个具有多层索引的Series对象。( )


  56. A:错 B:对
  57. 若两个数据子集的列数分别为n1、n2,则使用Pandas的merge方法按主键合并这两个数据子集时,合并后的结果数据集中的列数为n1+n2。( )

  58. A:对 B:错
  59. 可以将numpy的ndarray数组对象转换为pandas的Series对象。( )


  60. A:错 B:对
  61. 使用DataFrame对象的head方法,仅能查看数据集中前5行的数据。( )

  62. A:对 B:错
  63. 可以通过对DataFrame对象的shape属性重新赋值的方式改变其形状。( )

  64. A:错 B:对
  65. 使用DataFrame对象的reindex方法重构索引时,若该对象中原来没有索引标识“h”,则索引“h”对应的行将填充为NaN。( )

  66. A:错 B:对
  67. 使用DataFrame对象的iloc方法选取行数据时,只能使用整数形式的索引标识。( )

  68. A:对 B:错
  69. Python的外部扩展库pandas不具有图表绘制的功能。( )

  70. A:对 B:错
  71. 在使用DataFrame对象的groupby方法进行分组计算时,若分组键是列标识的列表,则分组的结果会以层次化索引表示和存储。( )

  72. A:错 B:对
  73. JSON格式的数据是以键-值对形式存储的序列化文本类型数据,可以使用pandas库的read_json和to_json方法读写。( )

  74. A:对 B:错
  75. 如果数据集中表示日期时间的数据是一个很大的整数,一般是指在内部从新纪元Epoch开始的秒数。( )

  76. A:对 B:错
  77. 在表示时间序列的频率中,WOM-3FRI表示每月第3个星期五。( )

  78. A:对 B:错
  79. 以协调世界时UTC形式表示的时间戳值是带有时区信息的,在进行运算时需要进行时区的转换。( )

  80. A:对 B:错
  81. 创建pandas库的Series对象时,以下可以作为其数据参数的有:( )

  82. A:tuple(1,2,3,4) B:range(4) C:{'a': 1, 'b': 2, 'c': 3, 'd': 4} D:list("abcd")
  83. 假设已经创建列标识分别为“A”、“B”、“C”、“D”共4列的DataFrame对象df,则以下语句中能够同时访问C列、D列所有数据的是( )

  84. A:df.loc[:,['C','D']] B:df.iloc[:,[2,3]] C:df[['C','D']] D:df.iloc[:,2:3]
  85. 执行语句序列data=[[4,5,6], [4,5,6], [4,5,6]];df=pd.DataFrame(data,columns= list("ABC"))创建DataFrame对象df,则以下可以将df中值为5的数据修改为数值10的语句是( )。

  86. A:df[df.values==5]=10 B:df["B"]=10 C:df.loc[:,"B"]=5 D:df.replace(5,10,inplace=True)
  87. 使用pandas库可以直接读取的外部文件格式包括( )。

  88. A:CSV格式文件 B:HTML格式文件 C:XML格式文件 D:Excel格式文件
  89. 在pandas环境中对数据进行聚合,DataFrame对象的groupby方法是一种常用的形式,则以下相关说法正确的是( )。


  90. A:分组生成的GroupBy对象包含数据分组的所有信息 B:一般遵循拆分、应用、合并的过程 C:分组后的结果可以直接显示查看 D:函数作为分组键时,函数的返回值作为分组的名称
  91. 对时间序列数据的重采样,以下说法正确的是( )。

  92. A:本质上是频率转换的过程 B:升采样时会产生大量的缺失值 C:降采样时一般要进行相应的聚合运算 D:对以日期为索引的时间序列升采样时目标频率必须是源频率的超时期
  93. 在进行时间序列分析时,以时间顺序排列构成的观测样本序列数据集,一般具有的基本特性包括( )。

  94. A:随机性 B:趋势性 C:周期性 D:季节性变化
  95. 对时间序列的分析和预测,可以通过移动窗口并在窗口上进行统计计算的方式。Pandas应用于移动窗口计算的常用函数有( )。

  96. A:expanding B:shift C:ewm D:rolling
  97. 在Pandas环境中使用分类数据,以下说法正确的是( )。

  98. A:可以人为指定分类数据的整数编码 B:支持分类类型的底层算法采用整数编码数组,速度更快 C:分类数据通常占用少的多的内存空间 D:操作分类对象Categorical的方法是通过其cat属性提供的
  99. 在Python环境中,可以使用链式编程思想的场景有( )。

  100. A:闭包函数的调用 B:关系运算表达式 C:自定义类成员方法的调用 D:对数据集进行一系列变换
  101. 在pandas的数据合并方法中,既可以按行合并,又可以按列合并的方法有( )。

  102. A:append B:join C:concat D:merge
  103. 以下属于pandas库自带的基本数据结构的是( )。

  104. A:ndarray B:DataFrame C:list D:Series
  105. 假设执行df=pd.DataFrame(np.random.randn(4,3),index=range(4), columns= ["one", "two","three"])语句已经正确创建了一个DataFrame对象,则以下允许的操作有( )。

  106. A:执行df.iloc[2]选择第三行 B:执行df.index=list("abcd")改变对象的索引标识 C:执行df["four"]=df["one"]+df["three"]添加一列 D:执行df.pop("two")删除第二列
  107. 使用DataFrame对象的describe方法,可以查看数据集的( )。

  108. A:每个数值列的数据项个数 B:每行的最大值和最小值 C:每个非数值列的类别数 D:每个数值列的标准差
  109. 使用DataFrame对象的groupby方法对数据进行分组后,得到一个GroupBy对象,则以下关于GroupBy对象的说法正确的是( )。

  110. A:是一个可迭代对象,由分组键值和对应的数据块组成 B:可以通过该对象直接查看分组的结果 C:该对象包含要进行分组计算的所有信息 D:该对象包含对数值列的分组计算结果
  111. 采用分组机制对数据进行计算时,以下对分组聚合和解封的说法正确的是( )。

  112. A:transform方法是对分组解封后的数据转换运算 B:apply方法是在各个分组结果上的聚合运算 C:可以直接在分组对象上执行统计计算 D:只能对数据集中的数值型数据进行计算
  113. 在使用pandas库的get_dummies方法对分类特征进行哑变量处理以满足某些回归分析模型对数值型输入的要求时,以下说法正确的是( )。

  114. A:哑变量处理后的数据变得更加稀疏,因此降低了模型的运算速度 B:get_dummies可以接收DataFrame对象的一列作为要处理的哑变量 C:某一输入特征有n种分类时,可以设置n-1个哑变量 D:哑变量的数值没有数量大小的意义,一般为0或1
  115. 在进行数据处理分析时,对数据进行离散化处理的原因主要有( )。

  116. A:减少数据量,降低算法的时空开销 B:模型算法的要求 C:提高算法对样本的抗噪声能力 D:简化数据结构,更容易理解
  117. 在进行数据的处理分析时,要求对原始数据进行标准化处理,其主要原因有( )。

  118. A:保证结果的可靠性 B:保证算法的准确性 C:消除数据特征之间量纲的差异 D:消除评价指标之间的数量级差异
  119. 在pandas库的数据组织方式上,允许使用层次化索引,以使得在同一个轴上可以拥有多个索引级别,其主要原因有( )。

  120. A:更容易实现不同层次的数据交换和排序 B:使得DataFrame对象可以存储和操作三维的数据 C:能够以低维方式处理高维数据 D:数据子集的选取和访问更加简单

温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(3) dxwkbang
返回
顶部