第三章单元测试
利用weka软件进行数据可视化时,用户可以选择类别属性对数据点着色,如果类别属性是标称型,则显示为彩色条。
Ranker方法既可以用于单个属性评估器,又可以用于属性子集评估器。
支持度是衡量关联规则重要性的一个指标。
给定关联规则AB,意味着:若A发生,B也会发生。
在weka软件探索者界面中,利用Visualize标签页通过更改各个参数来进行数据集的可视化属性设置后,需要单击以下( )按钮,所有更改才会生效。
以下属于属性空间的搜索方法的是( )。
在进行自动选择属性时,必须设立两个对象,其中确定使用什么方法为每个属性子集分配一个评估值的对象是下面的( )。
某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的( )问题。
大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下( )算法直接挖掘。
以下属于关联分析的是( )。
关于Weka的文件类型描述错误的是( )。
以下( )不是Weka的数据类型。
关于Weka离散化说明正确的是( )。
根据J48分类器训练iris.arff所生产的决策树,当sepallength=4.4;sepalwidth=3.0;petallength=1.3;petalwidth=0.2时,分类的结果是( )。
根据J48分类器训练weather.nominal.arff所生产的决策树,当outlook=sunny;temperature=cool;humidity =high;windy=TRUE时,分类的结果是( )。
删去cpu.arff数据文件中的CACH属性后,使用M5P分类器构建方案,在结果中,到达LM2的实例数有( )个。
使用线性回归(LinearRegression)分类器和用M5P分类器对cpu.arff分别进行分类,由其输出的误差指标可知( )。
使用SimpleKMeans算法对天气数据集(weather.numeric.arff)进行聚类,保持默认参数,即3个簇以及欧氏距离。选择play属性为忽略属性,从结果中可知,下列选项中,( )是错误。
使用EM算法对天气数据集(weather.numeric.arff)进行聚类,将numClusters设置为4,即簇数为4,其他参数保持默认值,忽略play属性,从结果中可知,下列选项中,( )是错误的。
使用DBSCAN算法对鸢尾花数据集(Iris.arff)进行聚类,将epsilon参数设置为0.2, minPoints参数设置为5,忽略class属性,那么将形成( )个簇。
A:错 B:对
答案:错
A:对 B:错
A:对 B:错
A:对 B:错
A: Select Attribute B: Update C: Fast scrolling D: SubSample
A: SymmetricalUncertAttributeEval B: GainRatioAttributeEval C: PrincipalComponents D: BestFirst
A: 元分类器 B: 搜索方法 C: 属性评估器 D: 规则挖掘
A: 分类 B: 自然语言处理 C: 关联规则发现 D: 聚类
A: Bayes Network B: C4.5 C: K-means D: Apriori
A: 购物篮分析 B: CPU性能预测 C: 股票趋势建模 D: 自动判断鸢尾花类别
A: Weka可以打开文件格式有.arff、.csv、.xlsx B: arff是ASCII文件,可以用Word等文本编辑器打开查看 C: Weka处理的数据集类似于关系数据库横行实例,竖行属性 D: @relation 定义数据集名称,@data之后呈现实例,每一行就是一个实例
A: decimal B: numeric C: string D: nominal
A: 离散化包括无监督离散化和有监督离散化 B: 有监督离散化有两种等宽和等频方法 C: 离散化是将数值属性转换为字符串型属性 D: 等宽离散化是使实例分布均匀的
A: Iris-setosa B: Iris-virginica C: Iris-versicolor D: 无法分类
A: No B: 无法分类
C: 没有结果 D: Yes
A: 21 B: 23 C: 30 D: 165
A: LinearRegression的标准误差比M5P的标准误差小 B: LinearRegression的相对误差比M5P的相对误差小 C: LinearRegression的平均绝对误差比M5P的平均绝对误差小 D: LinearRegression的平均方根误差比M5P的平均方根误差大
A: 产生了三个中心点 B: 这组数据用算法迭代四次 C: 聚合为3个簇,分别有7,3,4个实例 D: 平方和误差为8.928
A: 模型的最大似然估计值是-7.18 B: 这组数据用算法迭代15次 C: 第四个簇的先验概率是0.14 D: 第四个簇的实例数为4
A: 4 B: 1 C: 2 D: 3