第四章
大数据采集,又称大数据获取,是指从( )等获取数据的过程。
答案:传感器;企业系统;其它智能设备;社交网络
网络爬虫的步骤是1)选取一部分种子URL;2)从待抓取URL队列中取出待抓取的URL,解析DNS,得到主机的IP地址,并将URL对应的网页下载下来,存储到已下载网页库中。此外,将这些URL放进已抓取URL队列;3)将这些URL放到待抓取URL中;4)分析已抓取URL队列中的URL,分析其中的其他URL,并且将这些URL放入待抓取URL队列,从而进入下一个循环。( )
答案:1)3)2)4)
数据完整性指的是数据具有一个实体描述的所有必需的部分。( )
答案:对
在大数据预处理中,需要数据清洗的主要类型包括以下几类( )
答案:异常值数据;缺失值数据;重复值数据
数据清洗时重复值数据不能够删除。( )
答案:错
在数据离散化中,常见的离散化方法有( )
答案:聚类划分;基于卡方分箱的方法;等宽划分;等频划分;基于熵的离散化

点赞(0) dxwkbang
返回
顶部