南京邮电大学
  1. Hive使用左外连接(LEFT OUTER JOIN)来连接两张表进行查询时,JOIN操作符右边的表如果没有符合ON后面连接条件的记录时,右边表指定选择的列的值将不会显示。( )

  2. A:对 B:错
    答案:错
  3. 只要有数据,就必然存在安全与隐私的问题 ( )

  4. A:对 B:错
    答案:A
  5. 假定用于分析的数据包含属性age。数据元组的age值(以递增序)是:5, 15, 25, 35, 45, 55, 60, 中位数是45  ( )

  6. A:错 B:对
    答案:错
  7. Hive中一个用户不可以属于多个角色。( )

  8. A:错 B:对
    答案:错
  9. UNION ALL可以合并多个表,但不可以用于同一源表的合并。( )

  10. A:错 B:对
    答案:对
  11. 对回归问题和分类问题的评价 最常用的指标都是 准确率和召回率 (   )

  12. A:对 B:错
    答案:错
  13. Hive中删除外部表不会删除表所指向的数据文件。( )

  14. A:错 B:对
    答案:错
  15. 视图(VIEW)不会创建目录并将转移筛选后的数据到该目录下。( )

  16. A:对 B:错
    答案:对
  17. BZip2和Gzip的压缩文件都是可分割的。( )

  18. A:错 B:对
    答案:错
  19. 决策树中的剪枝算法主要是用来解决欠拟合的问题 (   )

  20. A:错 B:对
  21. 下列哪个语句在删除不存在的数据库test时不会报错。( )

  22. A:DROP DATABASE test; B:DELETE DATABASE IF EXISTS test CASCADE; C:DROP DATABASE IF EXISTS test CASCADE; D:DELETE DATABASE IF EXISTS test;
  23. Spark组成部件包括( )

  24. A:Driver B:Executor C:Resource Manager D:RDD
  25. 下列不属于Hadoop自带的编解码器的是( )

  26. A:Gzip B:BZip2 C:Snappy D:winzip
  27. 常见的文档数据库包括( )

  28. A:mongoDB B:LevelDB C:CouchDB D:Cassandra
  29. 小明参加某公司的大数据竞赛,他的成绩在大赛排行榜上原本居于前二十,后来他保持特征不变,对原来的模型做了1天的调参,将自己的模型在自己本地测试集上的准确率提升了5%,然后他信心满满地将新模型的预测结果更新到了大赛官网上,结果懊恼地发现自己的新模型在大赛官方的测试集上准确率反而下降了。 (  )

  30. A:应该利用交叉验证判断是否过拟合 B:这样的情况不该发生,需要找组委会 C:可能发生过拟合了 D:调参没有效果
  31. Hive严格模式不可以执行的语句是( )

  32. A:SELECT id FROM subjects ORDER BY age; B:SELECT id FROM subjects ORDER BY age LIMIT 10; C:SELECT * FROM date_records_partitioned; D:SELECT * FROM date_records JOIN subjects;
  33. 常见的图数据库包括( )

  34. A:Neo4j B:ArangoDB C:Titan D:LevelDB
  35. 属于Hadoop常用的压缩解码器的是( )

  36. A:winzip  B:BZip2 C:Snappy D:Gzip
  37. 以下是大数据存储面临的挑战( )

  38. A:应用问题 B:管理问题 C:数据问题 D:系统问题
  39. Hadoop框架的缺陷有( )

  40. A:海量的数据存储 B:过多的磁盘操作,缺乏对分布式内存的支持 C:无法高效低支持迭代式计算 D:MR编程框架的限制
  41. ER图是数据库设计的工具之一,它适用于建立数据库的( )

  42. A:逻辑模型 B:概念模型 C:物理模型 D:结构模型
  43. 在数据库中,软件错误属于( )

  44. A:事务故障 B:介质故障 C:活锁 D:系统故障
  45. 决策树中CART算法采用的划分标准是 (   )

  46. A:Gini指数 B:信息增益比 C:信息增益 D:信息熵
  47. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?( )

  48. A:预测建模 B:探索性数据分析 C:建模描述 D:寻找模型和规则
  49. 以下与命令“CREATE VIEW v AS SELECT id FROM subjects WHERE age>10;SELECT * FROM v WHERE age<50;”结果相同的命令是( )

  50. A:SELECT id FROM subjects WHERE age>10 AND age<50; B:SELECT id FROM subjects WHERE age>10; C:SELECT * FROM subjects WHERE age>10 AND age<50;
  51. 一个事务一旦完成全部操作后,它对数据库的所有更新应永久地反映在数据库中,不会丢失。这是指事务的( )

  52. A:一致性 B:原子性 C:隔离性 D:持久性
  53. 分布式系统比较常见的数据分布方式有(   )

  54. A:哈希 B:按照数据量分布 C:其他三项都是 D:按照数据范围
  55. 下列语句不可以显示数据库test中的表名的是( )

  56. A:USE test;SHOW TABLES; B:SHOW test.TABLES; C:SHOW TABLES IN test;
  57. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?( )

  58. A:根据内容检索 B:预测建模 C:建模描述 D:寻找模型和规则
  59. 下列关于Hive中列存储表错误的是( )

  60. A:Hive本身不支持列存储表的创建 B:HBase采用的是列存储表对数据进行存储  C:列存储表中一列中的数据在存储介质中以连续存储形式存在 D:列存储表适用于属性较少的数据场景
  61. 当用户A在修改一条数据的时候,用户B虽然及时地读到了修改后的数据,但由于用户A在提交自己的事务之前放弃了这次事务中所有对数据的修改,那么此时用户B得到的信息就是不存在的数据,这种情况属于( )

  62. A:幻读 B:网络延迟 C:脏读 D:不可重复读
  63. 在基本K均值算法里,当邻近度函数采用曼哈顿距离的时候,合适的质心是簇中各点的中位数。(  )

  64. A:余弦距离 B:欧式距离 C:曼哈顿距离 D:Bregman散度
  65. 作为分布式消息队列,既有非常优秀的吞吐量,又有较高的可靠性和扩展性,同时接受Spark Streaming的请求,将流量日志按序发送给Spark Streaming集群是 ( )

  66. A:Flume B:Kafka C:Zookeeper D:Sparkstreaming
  67. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离? (   )

  68. A:关联分析 B:分类 C:聚类 D:主成分分析
  69. 数据清洗的方法有( )

  70. A:去重 B:缺失值填充 C:其他三项都是 D:错值修改
  71. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?( )

  72. A:预测建模 B:寻找模型和规则 C:探索性数据分析 D:建模描述
  73. 下列可以将Hive中将本地的数据新增到表test中的命令是( )

  74. A:LOAD DATA INPATH ‘./datafile’ OVERWRITE INTO TABLE test; B:LOAD DATA INPATH ‘./datafile’ INTO TABLE test; C:LOAD DATA LOCAL INPATH ‘./datafile’ INTO TABLE test; D:LOAD DATA LOCAL INPATH ‘./datafile’ OVERWRITE INTO TABLE test;
  75. 只有非零值才重要的二元属性被称作(   )

  76. A:离散属性 B:计数属性 C:非对称的二元属性 D:对称属性
  77. 以下选项不属于可视化基本特征的是(  )

  78. A:易懂性 B:全面性 C:必然性 D:专业性
  79. 查询表subjects中的所有数据的命令是( )

  80. A:SELECT id,age FROM subjects; B:VIEW id,age FROM subjects ; C:SELECT * FROM subjects;

温馨提示支付 ¥5.00 元后可查看付费内容,请先翻页预览!
点赞(3) dxwkbang
返回
顶部