提示:内容已经过期谨慎付费,点击上方查看最新答案

大数据工具应用

  1. 以下属于非标准金融特征数据的是()。

  2. A:借款人月收入与月还款额之比及借款人所有可用循环信贷金额与总信贷金额的比 B:借款人循环信贷余额与每月收入的比及借款人循环信贷余额与每月收入的比 C:借款人所有可用循环信贷金额与总信贷金额的比及借款人月收入与月还款额之比 D:借款人月收入与月还款额之比及借款人循环信贷余额与每月收入的比
    答案:借款人月收入与月还款额之比及借款人循环信贷余额与每月收入的比
  3. 关于模型误差,下列哪种说法是错误的()。

  4. A:通常将模型的预测输出与真实输出之间的差异称为误差 B:训练集上的误差称为经验误差或训练误差 C:新样本上的误差称为泛化误差 D:模型的泛化误差越小,表示模型出现过拟合的可能性越大
    答案:模型的泛化误差越小,表示模型出现过拟合的可能性越大
  5. 获取日期数据的年份,应选择函数() 。

  6. A:DATEADD B:DATEPART C:DATETRUNC D:DATEDIFF
    答案:DATEPART
  7. K-NN最近邻分类算法的过程正确的是()?

    2.png


  8. A:3214 B:2314 C:1243 D:2431
    答案:2431
  9. 在weka软件探索者界面中,利用Visualize标签页通过更改各个参数来进行数据集的可视化属性设置后,需要单击以下哪个按钮,所有更改才会生效。()

  10. A:Update B:Select Attribute C:SubSample D:Fast scrolling
    答案: Update
  11. 以下关于Weka时间序列分析描述错误的是( )。

  12. A:Weka提供选择允许用户忽略特定的时间段数据。 B:Weka系统默认仅提供预测一个时间长度的数据。 C:Weka可自动检测数据的周期信息。 D:Weka仅支持多元线性回归的时间序列分析方法。

  13. 如果选择了单个属性评估器,则需要使用以下哪个方法来搜索属性。(  )

  14. A:Ranker B:GreedyStepwise C:BestFirst D:WrapperSubsetEval

  15. 以下哪个是摩尔定律在大数据领域的体现:( )。

  16. A:笔记本电脑硬盘的主流容量在500GB-1TB之间 B:移动通讯已经进入4G时代,正在向5G发展。 C:大约每18个月数据总量会翻倍 D:一部高清电影的大小在2GB-80GB之间

  17. Tableau是一种()软件, 允许任何人连接到相应的(),然后可视化并创建交互式的可共享仪表板。

  18. A:数据库开发,数据 B:手机应用,手机系统 C:网页开发,服务器 D:商业智能,数据

  19. 以下()不是Tableau的数据类型?

  20. A:String B:Real C:Number D:Date

  21. 逻辑回归是采用()方法来调整模型参数。

  22. A:欧氏距离 B:最大似然估计 C:杰卡德距离 D:最小二乘法

  23. 以天气数据集(weather.numeric.arff)为例,要添加一列新的属性叫“心情”,分类三类:好(good),不好(bad),一般(normal),利用AddUserFields过滤器步骤为()。

  24. A:Choose—filters—unsupervised—instance--Adduserfields B:Choose—filters—supervised—attribute--Adduserfields C:Choose—filters—supervised—instance--Adduserfields D:Choose—filters—unsupervised—attribute--Adduserfields

  25. 如果一个训练好的模型在测试集上有100%的准确率, 这是不是意味着在一个新的数据集上,也会有同样好的表现?()

  26. A:不对,依然有其他因素没有考虑到,比如噪音数据 B:是的,这说明这个模型的范化能力已经足以支持新的数据集合了

  27. 在进行自动选择属性时,必须设立两个对象,其中决定执行什么风格的搜索的是下面的哪一个(  )。

  28. A:搜索方法 B:规则挖掘 C:元分类器 D:属性评估器

  29. 工作簿是一个包含.twb扩展名的文件,其中包含一个或多个()(可能还包括仪表板和故事)。

  30. A:可视化 B:工作表 C:数据源 D:图表

  31. Weka中仅在训练数据中添加噪声而测试数据不受影响的元学习器为()。

  32. A:FilteredClassifier B:MultiClassifier C:RandomizableFilteredClassifier D:CostsensitiveClassifier

  33. 下列叙述错误的是( )。

  34. A:如果使用的Windows系统未安装过Java,下载自带Java VM的Weka版本 B:SPSS公司商业数据挖掘产品Clementine是免费、开源软件 C:Weka官网提供了Windows,Mac os,Linux等操作系统下的Weka安装版本 D:arff是ASCII文件,可用Word打开编辑
    AI参考:正确答案是D:arff是ASCII文件,可用Word打开编辑。D选项中说arff是ASCII文件,可以用Word打开编辑,这是错误的。ARFF(Attribute-Relation File Format)是用于机器学习中的一种数据格式,它不是纯文本文件,因此不能直接用Word打开编辑。需要使用专门的工具或软件来处理ARFF格式的数据。其他选项都是正确的,A选项说的是如果Windows系统没有安装过Java,可以考虑下载自带Java VM的Weka版本;B选项说SPSS公司商业数据挖掘产品Clementine是免费、开源软件;C选项说Weka官网提供了Windows、Mac os、Linux等操作系统下的Weka安装版本。'
  35. Tableau数据源"页面通常由四个主要区域组成:左窗格,联接区域,预览区域和()区域。

  36. A:工作表 B:故事区 C:实例 D:元数据

  37. 在进行自动选择属性时,必须设立两个对象,其中确定使用什么方法为每个属性子集分配一个评估值的对象是下面的哪一个()

  38. A:搜索方法 B:规则挖掘 C:属性评估器 D:元分类器

  39. 扩展标识语言文件的后缀名是:()

  40. A:txt B:xml C:log D:csv

  41. 下列叙述正确的是( )。

  42. A:Beyes网络方法诞生于20世纪80年代 B:Beyes网络方法诞生于19世纪。 C:Beyes方法诞生于20世纪80年代 D:Beyes方法诞生于19世纪80年代

  43. LEFT(‘WELLDONE’,4),返回()。

  44. A:LLDO B:WELL C:ELLD D:DONE

  45. 关于组,以下叙述正确的是()。

  46. A:组是构成更高级别类别的维度成员的组合 B:组不能放置在大小选项卡 C:组不能放置在颜色选项卡 D:组不能放置于筛选器

  47. 以下属于属性空间的搜索方法的是()。

  48. A:PrincipalComponents B:GainRatioAttributeEval C:BestFirst D:SymmetricalUncertAttributeEval

  49. “图形”菜单中能实现交互式作图的功能是()。

  50. A:图形可视化模板 B:可视化图形生成器 C:传统图形对话框

  51. 逻辑回归模型的输出是()。

  52. A:样本的属于某个分类的概率 B:样本属性的个数 C:不同类别之间的距离 D:Sigmoid函数的斜率

  53. AUC定义为ROC曲线与坐标轴围成的面积,下列哪种说法是错误的()。

  54. A:当AUC为0时,表示分类模型能对所有样本都能进行正确分类 B:AUC值越大,分类效果越好 C:AUC的数值不会大于1 D:当AUC为1时,表示分类模型能对所有样本都能进行正确分类

  55. 以下()不是Weka的数据类型?

  56. A:string B:real C:date D:nominal

  57. J48分类器通常用于以下哪个方法中进行属性的评估(  )。

  58. A:GainRatioAttributeEval B:SymmetricalUncertAttributeEval C:WrapperSubsetEval D:CfsSubsetEval

  59. LTRIM(‘ NICE ’),返回()。

  60. A:CE B:nice C:NICE D:4

  61. 下列关于BP神经网络的描述,错误的是( )。

  62. A:BP神经网络的基本思想是梯度下降法,利用梯度搜索技术,以期使网络的实际输出值和期望输出值的误差均方差为最小。 B:基本BP算法经过反复学习训练,确定与最小误差相对应的网络参数(权值和阈值),训练即告停止。 C:计算误差输出时按从输出到输入的方向进行 D:调整权值和阈值按从输出到输入的方向进行

  63. SVM以下说法正确的是:()。

  64. A:既可以处理线性问题又可以处理非线性问题 B:只可处理线性问题 C:以上都不对 D:只可处理非线性问题

  65. 目前主流电商网站搜索结果返回页面的布局一般是:(

  66. A:单页单栏 B:上下布局 C:表格型 D:左右布局

  67. 参数是可在集、计算字段、筛选器中替换()的动态值,通过参数,能够实现快速、简便的交互。

  68. A:字符串 B:数值 C:日期 D:常量值

  69. Weka中删除属性使用的过滤器是( )。

  70. A:Discard B:Cancel C:Remove D:Delete

  71. 神经网络中的节点之间的连接代表什么( )?

  72. A:关系权重 B:随机函数 C:随机数字 D:关系百分比重

  73. 在数据挖掘中,经常会遇到代价敏感性学习。该方法主要是针对不同分类错误采用不同的惩罚力度的方法模型训练,常用于()的学习任务中。

  74. A:类别不平衡 B:关联分析 C:回归分析 D:聚类

  75. Weka中加载鸢尾花数据集(iris.arff),iris数据包含三个类别值,运行SMO分类器()。

  76. A:无法分类 B:六个二元SMO模型 C:二个三元SMO模型 D:三个二元SMO模型

  77. 使用DBSCAN聚类器对鸢尾花数据集(iris.arff)进行聚类,将epsilon参数设置为0.2minPoints参数设置为5,忽略class属性,下列选项中,( )是错误。

  78. A:未正确聚类的实例占比32% B:其中有一个簇有98个实例 C:有两个实例未能聚类 D:只有两个簇

  79. Weka中加载数据后,运行SMO分类器,将PolyKernel多项式核函数的指数(Exponent)设置为2,则以下描述正确的是()。

  80. A:超平面表示为支持向量的函数 B:SVM为非线性支持向量机 C:超平面表示为在原来空间中的属性值的函数 D:SVM为线性支持向量机

  81. 用来设计网络爬虫软件的程序设计语言包括:()

  82. A:C/C++ B:Java C:SPSS D:Python

  83. 设有项目集XX1X的一个子集,则下列结论中成立的是(  )。

  84. A:如果X是非频繁项集,则X1也是非频繁项集 B:如果X是频繁项集,则X1也是频繁项集 C:如果X1是非频繁项集,则X也是非频繁项集 D:如果X1是频繁项集,则X也是频繁项集

  85. 以下属于单个属性评估器的是()。

  86. A:OneRAttributeEval B:CfsSubsetEval C:ReliefFAttributeEval D:InfoGainAttributeEval E:BestFirst

  87. 求极大似然函数估计值的一般步骤是()。

  88. A:求导数 B:优化求解似然方程 C:对似然函数取对数,并整理 D:写出似然函数

  89. 创建仪表板,()都是对象范围。

  90. A:扩展 B:文本 C:水平 D:网页 E:图象

  91. 在模型的训练过程中,产生过拟合的主要原因有()。

  92. A:训练数据过多 B:训练数据中的噪声过大 C:训练数据偏少 D:模型过于复杂

  93. Tableau 地图中对哪些字段对中国区有效()。

  94. A:县 B:州 C:省市/自治区 D:国家地区 E:城市

  95. 随机森林中可以采用各种决策树算法,常见的决策树算法有()。

  96. A:ID3 B:CART C:C4.5 D:APRIORI

  97. 使用EM聚类器对鸢尾花数据集(iris.arff)进行聚类,将簇数设置为3,其他参数保持默认值,忽略class属性,选择类别作为簇的评价标准并指定class,从结果中可知,下列选项中,()是正确的。

  98. A:模型的最大似然估计值是-2.055 B:这组数据用算法迭代11次 C:第3个簇的先验概率是0.25 D:第3个簇的实例数为36 E:未能正确聚类的实例数为14

温馨提示支付 ¥2.20 元后可查看付费内容,请先翻页预览!
点赞(1) dxwkbang
返回
顶部