1. 将5个数1,2,5,10,12按照欧氏距离、最短距离法进行系统聚类,则下面说法正确的是( )。

  2. 答案:分为两类时1,2,5构成一类###最先合并为一类的是1和2###分为3类时10,12构成一个类
  3. 评价统计量的标准有. ( )

  4. 答案:相合性###有效性###无偏性
  5. 参数用来描述样本的数量特征,而统计量用来描述总体的数量特征。( )

  6. 答案:错
  7. 为了保证OLS估计量的优良性质,在多元线性回归分析中需要假设自变量和因变量之间不存在多重共线性。 ( )

  8. 答案:错
  9. 设随机事件A与B相互独立,P(A)=0.4,P(B)=0.3,则P(A∪B)=0.7.( )

  10. 答案:错
  11. 计算加权综合指数时,如果计算的是质量指数,应该选择数量指标作为同度量因素。( )

  12. 答案:对
  13. mutate()函数主要用于添加或定义新变量.( )

  14. 答案:对
  15. x<-seq(1,2, 0.5),执行该语句后,x的取值为:1, 1.5 和 2.( )

  16. 答案:对
  17. 在检验两个总体均值之差的假设检验时,若总体方差未知,需要用样本方差来代替. ( )

  18. 答案:对
  19. 左连接是按照左表匹配数据,把右表中匹配到的观测样本连接到左表中,并保留右表中所有观测样本.( )。

  20. 答案:错
  21. 只能采用假设检验来检验因素各水平的方差是否相同.( )

  22. 答案:错
  23. 样本量越大,假设检验的结果越可靠.( )
  24. 当样本量比较大时,样本比例的分布可以用正态分布来近似.( )
  25. union()函数的输入是两个及两个以上的数据表,这些表的列可以不同.( )
  26. 设随机变量X~N(1,4),则2X-3~N(-1,16).( )
  27. 已知P(A)=0.4,P(B)=0.3,P(AB)=0.2,则P(B|A)=0.5.( )
  28. 两个变量之间的Pearson相关系数为0.1,说明这两个变量不存在任何相关关系。( )
  29. 描述统计和推断统计方法的区别在于,描述统计方法适用于总体,推断统计方法适用于样本。 ( )
  30. intersect()函数是取两个数据表中观测样本的交集.( )
  31. 数据通常被组织为变量和个体,变量即要测量的某种特征,个体即样本.( )
  32. 右连接是按照右表匹配数据,把左表中匹配到的观测样本连接到右表中,并保留右表中所有观测样本.( )
  33. 当样本量较大时,两个总体比例之差的检验统计量近似服从正态分布.( )
  34. 可以通过增加样本量来降低第一类错误和第二类错误犯错的概率.( )
  35. 如果X和Y分别是来自两个正态总体的样本,若总体均值分别为和,那么对于假设检验 的步骤为:()①求样本的统计量、方差、标准误②求两个样本的差值③给定显著水平,构造拒绝域,并判断是否接受原假设④计算检验统计量
  36. 根据乘法模型进行时间序列分解时,若没有季节变动,则各期季节指数应等于100%。( )
  37. 在不考虑交互效应的双因素方差分析中,若因素A的处理平方和为SSA,因素B的处理平方和为SSB,误差平方和为SSE,那么总平方和SST等于____.( )。
  38. 一组数据的偏度系数为3,则该数据的统计分布一定有如下特征( )
  39. 调查了一个企业10名员工上个月的缺勤天数,有3人缺勤0天,2人缺勤2天,4人缺勤3天,1人缺勤4天。则缺勤天数的( )
  40. 在对全班86位同学进行抽样调查的过程中,如果所有可能的样本量等于10的样本都有相同的机会被抽中,这是( )
  41. 关于一个总体方差的置信区间的估计说法正确的是.( )。
  42. 关于Φ系数,下面说法正确的是___.( )
  43. 为了检验两个独立样本对应总体的中位数是否相等,可以使用的检验方法是( )
  44. 为了快速了解上海市居民家庭的收支情况,最适合的调查方式是.( )
  45. 下面哪个是一个总体比例的置信区间.( )。
  46. K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。( )
  47. 数据挖掘的挖掘方法包括:( )
  48. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。( )
  49. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。( )
  50. Logistic回归与多重线性回归比较( )
  51. Logistic回归可用于( )
  52. 下面哪些指标可以用来度量数据的分布形状?( )。
  53. tibble也是一种数据框,与data.frame数据框类似. ( )
  54. 欲抽查某生产线上一批罐装可乐的糖分,已知该生产线每天匀速运转10个小时,产量为1万罐儿,首先从生产线末端的第1到100罐中随机抽取1罐,而后每隔6分钟抽取1罐,直到抽取100罐为止,对这100罐进行检验。此种抽样方法属于( )。
  55. dplyr包的核心函数主要包括.( )
  56. 一个箱子中装有质量均匀的10个白球和9个黑球,一次摸出5个球,在已知它们的颜色相同的情况下,该颜色是白色的概率大于0.5. ( )
  57. 显著水平越大,检验效果越好. ( )
  58. 当单因素方差分析不满足正态分布或方差齐性的假设前提时,不能采用非参数检验的方法.( )
  59. read.table( ) 函数主要用于读取 .txt 文件.( )
  60. 用最小二乘方法估计多元回归模型得到的残差项求和一定等于0.( )
  61. 样本是否来自正态分布可以用t分布来检验. ( )
  62. 设随机变量X~N(0,1),则P(-1<X≤3)=0.9.( )
  63. 因素各水平的差异由系统性差异和随机误差组成.( )
  64. x<-c(-1:-5),该语句存在语法错误.( )
  65. 样本统计量的概率分布也称为抽样分布(sampling distribution),它是由样本统计量的所有可能取值形成的相对频数分布.( )
  66. RData只能存放一个数据对象. ( )
  67. 单因素方差分析可以用于分析一个分类变量与一个数值变量之间的关系.( )
  68. x<-2,x的类型是Integer.( )
  69. 在k-均值聚类中,设置的初始类中心不同,不会影响最终的聚类结果。 ( )
  70. 标准误是指统计量的标准差,也称为标准误差.( )
  71. 一张数据表不可能存在重复健.( )
  72. 定序变量不能计算中位数。( )
  73. F分布中两个自由度的位置可以随意互换.( )
  74. 根据加法模型进行时间序列分解时,季节成分之和等于0。 ( )
  75. 方差分析中的因变量也称为因素.( )
  76. x<-1:10,x是向量.( )
  77. P值是原假设成立的情况下,统计量发生的概率.( )
  78. 只考虑两个因素单独对因变量影响的模型称为交互效应的双因子方差分析.( )
  79. 计算加权综合指数时,如果同度量因素固定在基期,则相应的指数称为拉氏指数. ( )
  80. x=rep("1",2),执行该语句后x的取值为1, 1.( )
  81. 总体是全部待研究的对象.( )
  82. 在单因素方差分析中,多重比较的目的是比较两个水平之间均值的差异性.( )
  83. F统计量的值有可能小于0.( )
  84. Logistic回归的结果并非数学定义中的概率值,不可以直接当做概率值来用.( )
  85. 假设 x<-c(1,-2, 3, 5, 8),那么取x的第二个元素的语句为 x[1].( )
  86. 已知P(A∪B) = 0.7,P(A)=0.4,则当A与B不相容时,P(B)=0.3.( )
  87. 某汽车电瓶商声称其生产的电瓶具有均值为60个月,标准差为6个月的寿命分布。现假设质检部门决定检验该厂的说法是否准确,为此随机抽取了50个该厂生产的电瓶进行寿命实验。假设厂商声称是正确的,则50个样品组成的样本的平均寿命不超过57个月的概率很小.( )
  88. 虚拟变量陷阱是一种特殊的完全多重共线性.( )
  89. 与直方图相比,茎叶图.( )
  90. 关于k-均值聚类方法,以下正确的是.( )
  91. 下面哪些是统计量?( )
  92. 多元线性回归分析中,使用普通最小二乘进行参数估计时需要假设.( )
  93. 某研究人员于2009年发表的一篇文章讨论了男性和女性硕士应届毕业生起薪的差别。文章称,从某重点大学统计学院毕业的20名女性的平均起薪是3500元,中位数是3600元,标准差是550元。根据这些数据可以判断,女性硕士应届毕业生起薪的分布形状是.( )
  94. 下列哪个现象会使得通常的最小二乘法的t 统计量无效?( )。
  95. select()函数主要用来选取.( )
  96. 使用K-S检验来进行正态性检验时,以下说法正确的是( )。
  97. 在不考虑交互效应的双因素方差分析中,若因素A的处理平方和为SSA=20,因素B的处理平方和为SSB=80,误差平方和为SSE=10,那么因素A的偏效应量为.( )。
  98. 如果一个假设在5%的显著水平下被拒绝,则它___.( )。
  99. 某研究部门准备在全市200万个家庭中抽取2000个家庭,据此推断该城市所有职工家庭的年人均收入。这项研究的参数是.( )
  100. 如够想研究我们班同学对不同的手机品牌是否有明显的偏好,应该选用什么方法?( )。
  101. 为了估计总体比例p,已经求得其95%的置信区间为(72%,78%),下列说法中错误的是( )。
  102. 关于V系数,错误的是___.( )。
  103. 下列是涉及虚拟变量的回归方程, 哪个回归模型的形式不对? ( )
  104. 在假设检验中,如果得到一个很小的 p-值(比如小于5%),则___.( )。
  105. 在统计推断中,总体参数是一个.( )
  106. 在抽样调查中以下哪一项会造成非抽样误差?( )。
  107. 假设要研究性别对个人收入的影响, 其中个人年收入是因变量, 解释变量包括两个变量:Male和Female。其中:个体性别为男性时,Male=1;否则,Male=0。同理,个体性别为女性时,Female=1;否则,Female =0。因为女性的平均收入通常低于男性, 因此, 你预计的回归结果是___. ( )
  108. 将学生的考试成绩分成优、良、中、及格和不及格,所得到的数据属于.( )
  109. 如果X和Y分别是来自两个正态总体的配对样本,若总体均值分别为和,那么对于假设检验的步骤为:()①求样本的统计量、方差、标准误②求两个样本的差值③给定显著水平,构造拒绝域,并判断是否接受原假设④计算检验统计量
  110. 以下属于聚类算法的是( )。
  111. 这些数据特性都是对聚类分析具有很强影响的。( )
  112. 聚类分析可以看作是一种非监督的分类。( )
  113. 以下描述错误的是?( )
  114. 在有监督学习中, 我们如何使用聚类方法? ( )
  115. 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。 ( )
  116. 以下两种描述分别对应哪两种对分类算法的评价标准?()  (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。  (b)描述有多少比例的小偷给警察抓了的标准。
  117. 以下哪些算法是基于规则的分类器 ( )
  118. 对于神经网络的说法, 下面正确的是 :( )
  119. 以下说法正确的是 :( )
  120. 对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。( )
  121. 如下哪些不是最近邻分类器的特点。 ( )
  122. 分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法。( )
  123. 以下哪些算法是分类算法 ( )
  124. 对于一个分类任务,如果开始时神经网络的权重不是随机赋值的,二是都设成0,下面哪个叙述是正确的?( )
  125. Web内容挖掘实现技术( )
  126. Logistic回归中自变量若为多分类变量,宜将其按哑变量处理,与其他变量进行变量筛选时可用( )
  127. Logistic回归中,若因变量交换赋值,则关于两个Logistic回归方程的下列解释中错误的是( )
  128. 为研究低龄青少年吸烟的外在因素,研究者采用整群抽样,在某中心城区和远城区的初中学校,各选择初一年级一个班的全部学生进行调查,针对上述问题,可采用Logistic回归筛选影响因素。( )
  129. Logistic回归模型的参数估计为加权最小二乘估计。( )
  130. Logistic回归适用于因变量为( )
  131. 筛选危险因素常用的方法有( )
  132. 当因变量的取值在[0,1]变化,而自变量的取值范围超出了[0,1],甚至在整个实数轴上取值时,可以采用Logistic回归模型解决这个问题。( )
  133. 关于不完全共线性,如下哪个说法是正确的?( )。
  134. 在多元回归分析中,回归系数可以直接用来评价自变量的重要性。 ( )。
  135. 多重共线性会导致回归系数不显著、回归系数正负号颠倒等与常识违背的现象。 ( )。
  136. 虚拟变量陷阱(dummy variable trap)是以下哪个情形?( )。
  137. 考虑有两个自变量X1 和 X2的回归模型,这两个自变量都是Y的影响因素。如果先使用X1 对Y做回归,估计得到的回归系数很小,但是同时使用X1 ,X2 做回归,发现X1 前面的回归系数变大了很多。这意味的前面的一元线性回归存在___.( )。
  138. 如果模型有遗漏变量偏差,会使得哪一个最小二乘的假设条件不满足?.( )。
  139. 如果回归模型中遗漏了能够影响因变量的变量,会产生的后果是___.( )。
  140. 判别一元线性回归是否显著不仅可以使用t检验,也可以使用F检验.( )。
  141. 用于建立回归模型的样本是否独立不会影响OLS对回归系数的估计结果( )。
  142. 回归分析前,要先通过相关系数或散点图观察变量之间是否存在线性关系.( )。
  143. 在一元线性回归中,如果因变量与自变量存在明显的正相关关系,那么其回归系数将显著大于0( )。
  144. 散点图也可以用来观察样本中是否存在离群点.( )。
  145. 将因变量的值扩大10,将自变量的值同时扩大100,则___.( )。
  146. 一元线性回归的基本假设有___.( )。
  147. 如果一个假设在5%的显著水平下不能被拒绝,则它___.( )。
  148. 估计量具有抽样分布的原因是___.( )。
  149. 误差项的异方差会影响OLS估计量的___.( )。
  150. 判断总体是否服从正态分布的方法除了图形法外,还可以使用检验的方法.( )。
  151. 方差分析是分析数值变量与分类变量之间关系的统计方法,可以在一个模型中包括任意多的分类变量.( )。
  152. 方差分析对各水平方差的假设条件应满足___.( )。
  153. 设因素有k个水平,若每个水平的均值用 表示,那么方差分析的原假设是___.( )。
  154. 在方差分析中,效应量是指随机误差与总体误差之比. 其值越大,拟合效果越差.( )。
  155. 检验因素各水平是否服从正态分布的方法有__.( )。
  156. 方差分析对数据分布的假设前提___.( )。
  157. 无论总体是否服从正态分布,都可以使用非参数方差分析方法来实现方差分析.( )。
  158. 单因素方差分析的效应量反应___.( )。
  159. 对于方差分析而言,要比较任意两个水平的均值是否相等,可以使用LSD多重比较或t检验.( )。
  160. 对于一个总体均值的假设检验,应该选用哪个统计量来检验(已知样本量大于50). ( )。
  161. 下面关于假设检验两类错误正确的是.( )。
  162. 下面关于假设检验两类错误正确的是. ( )。
  163. 无论样本量大小,样本比例的区间估计都是相同的.( )。
  164. 在构造总体均值的置信区间的过程中,首先需要确定分位数,关于分位数确定正确的是.( )。
  165. 矩估计和似然估计都可用来估计总体的未知参数.( )。
  166. 关于配对的两个总体均值之差的置信区间的说法正确的是.( )。
  167. 假设X和Y是分别来自正态总体的两个样本,总体均值都已知且相等,那么构成总体方差之比的置信区间的F分位数的第一自由度和第二自由度总是相等的.( )。
  168. 关于两个总体均值之差的置信区间的形式说法正确的是.( )。
  169. 关于置信区间的构造,正确的是.( )。
  170. 关于两个正态总体方差之比的置信区间,正确的是.( )。
  171. 标准误就是样本的标准差.( )。
  172. 卡方分布和t分布都是由正态分布导出的.( )。
  173. 某汽车电瓶商声称其生产的电瓶具有均值为60个月,标准差为6个月的寿命分布。现假设质检部门决定检验该厂的说法是否准确,为此随机抽取了50个该厂生产的电瓶进行寿命实验。假设厂商声称是正确的,则50个电瓶的平均寿命的抽样分布为N(60,6).( )。
  174. 设从一个均值μ=10、标准差σ=0.6的总体中随机选取容量为n=36的样本。假定总体不是很偏,则样本均值在总体均值附近0.1范围内的近似概率大于0.7.( )。
  175. 设X~N(16,4),则10X~N(160,40).( )。
  176. 假定某统计人员在其填写的报表中有2%至少会有一处错误,如果我们检查一个由600份报表组成的随机样本,其中至少有一处错误的报表所占的比例在0.025~0.070之间的概率大于20%.( )。
  177. 设某地有甲乙两种报纸,该地成年人中有30%读甲报纸,15%读乙报纸,10%两种报纸都读,则成年人中有5%至少读一种报纸.( )。
  178. 当两事件A和B互斥时,P(A∪B)有可能大于P(A)+P(B).( )。
  179. 设X~N(0,1),则P(X<1.5)<0.9.( )。
  180. 随机变量可分为连续型随机变量和离散型随机变量.( )。
  181. 设有1000件产品,其中850件是正品,150件是次品,从中依次抽取2件,2件都是次品的概率是0.025.( )。
  182. 外键是另外一个数据表中观测样本的唯一标识.( )。
  183. 外连接包括:内连接、左连接、右连接、全连接.( )。
  184. 内连接是一种最简单的连接,内连接匹配两个数据表中键值相等的观测样本.( )。
  185. 合并连接是把两个表格组合在一起的数据操作方式.( )。
  186. 主键是数据表中观测样本的唯一标识.( )。
  187. 下面关于table( )函数说法正确的是?( )。
  188. 下面哪些图形用来描述分类变量与分类变量的关系更为恰当?( )。
  189. 分类变量用哪些统计量来描述较为合适?( )。
  190. 下面哪些图形用来描述分类变量的分布情况更为恰当?( )。
  191. 下面哪些图形用来描述分类变量与数值变量的关系更为恰当?( )。
  192. 下面哪些图形用来描述数值变量的分布情况更为恰当?( )。
  193. 下面哪些图形用来描述数值变量与数值变量的关系更为恰当?( )。
  194. 分类变量用下面哪些图形来描述较为合适?( )。
  195. 下面哪些图形用来描述三个数值变量之间的关系更为恰当?( )。
  196. 下面哪些说法是正确的?( )。
  197. 若从正态分布总体中抽样得到一组样本,样本的值为 1, -1, 2, 3, 4, 5, 1, 2, 4, 3,4, 4, 那么下面哪些说法是正确的?.( )。
  198. 若从正态分布总体中抽样得到一组样本,样本的值为7, 7, 5, 2, 5, 4, 7, 9, 4, 8,那么样本的众数为?( )。
  199. 若从正态分布总体中抽样得到一组样本,样本的值为 1, -1, 2, 3, 4, 5, 1, 2, 4, 3,那么样本的中位数为?( )。
  200. 关于变异系数的说法正确的是?( )。
  201. 最大值与最小值之间的差值称为?( )。
  202. 下面哪些方式可以查看到帮助文档?()。
  203. 关于 attach( ) 函数说法正确的是?()。
  204. 下面关于修改向量 x<-c(1,2,-1,-3,-5) 的说法错误的是___.()。
  205. 假设 y<-c(1,2,3,-1,0,2), 那么关于语句 y[c(-2,-3)],说法正确的是___.()。
  206. 下面哪些是R可以存储的数据对象?()。
温馨提示支付 ¥5.00 元后可查看付费内容,请先翻页预览!
点赞(2) dxwkbang
返回
顶部