第四章大数据采集,又称大数据获取,是指从( )等获取数据的过程。
答案:传感器;企业系统;其它智能设备;社交网络
网络爬虫的步骤是1)选取一部分种子URL;2)从待抓取URL队列中取出待抓取的URL,解析DNS,得到主机的IP地址,并将URL对应的网页下载下来,存储到已下载网页库中。此外,将这些URL放进已抓取URL队列;3)将这些URL放到待抓取URL中;4)分析已抓取URL队列中的URL,分析其中的其他URL,并且将这些URL放入待抓取URL队列,从而进入下一个循环。( )
答案:1)3)2)4)
答案:对
答案:异常值数据;缺失值数据;重复值数据
答案:错
答案:聚类划分;基于卡方分箱的方法;等宽划分;等频划分;基于熵的离散化