第三章 数据获取与基本处理:采集的数据很多是杂乱不规范的,需要进行数据的整理和清洗,才能够进一步展开分析。本章以实操为目标,介绍了数据处理的几种基本工具,包括Excel数据透视表、Open Refine、MySQL和Navicat;此外还介绍了一种不使用代码获取网络数据的方式。在学习本章节内容时,一是要理解数据清洗和处理的规则,二是能够使用相应的工具同步练习。3.1面对杂乱的数据:1.常见的数据问题;2.处理数据缺失和无效值;3.数据清洗的工具
3.2神奇的数据透视表:1.数据透视表的基本功能;2.数据透视的使用技巧
3.3使用OpenRefine做数据统一与清洗:1.Open Refine的常用功能;2.数据统一;3.数据修复
3.4使用OpenRefine做数据转换:1.数据转换的必要性;2.将网络上的文本格式数据转化为数据表格
3.5使用数据库软件:1.数据库管理系统使用的必要性;2.使用Navicat连接MySQL;3.数据新闻制作中使用的常见命令
3.6简单的数据抓取:1.不使用代码抓取网络数据介绍;2.获取网页上的表格;3.获取网页列表
3.7数据使用标准:1.数据规范事项;2.数据校验的过程3.数据来源标注方法
[多选题]请判断1970-01-01T00:00:00Z或者1969-12-31T24:59:59Z是什么情况的数据?
数据补位
二进制数据
时间数据
文本数据
答案:时间数据数据补位
[单选题]请用数据透视表看各洲的人口平均寿命,亚洲位列第几?
第三
第二
第五
第四[单选题]请在Open Refine中打开“广州垃圾站”文件,选出是“压缩站”的项目,请问共多少条?
29
96
93
267[单选题]删除文本内容中间的部分文字或符号,可以用以下哪个命令?
value[]
value.substring
value.replace
delete[单选题]删除内容中前3个字符,应该输入命令:
value.substring(3)
substring(3)
value.substring[3]
value.substring(1,3)[判断题]选择表格中所有的列进行操作的命令是select all from form

[单选题]在MySQL中,‘%’可以用在什么情况下?
百分比
全部值
近似值[多选题]以下哪个工具可以用来抓取网络数据?
Python
八爪鱼
Data Scraper
R[单选题]Data Scraper设定翻页的标签是什么?
Nav
JS
Actions
Rows[判断题]对数据新闻制作者来说,建立CodeBook编码表是非常必要的。

[多选题]为什么不鼓励初学者使用问卷的方式获取数据?
耗时耗力
问卷统计困难
问卷设计方法不科学
很难保障数据的权威性和可靠性

温馨提示支付 ¥1.00 元后可查看付费内容,请先翻页预览!
点赞(0) dxwkbang
返回
顶部