第五章测试
1.制作语料库首先要做的便是收集语料,分别从外交部中、英文网站收集汉语和英语单语语料的步骤为( )。
A:通过Navicat将数据导入MySQL数据库进行整理和保存 B:Python编程语言的Scrapy网络抓取框架,编制分布式爬虫程序。 C:完成抓取后将数据保存至.csv文件 D:开发简易的语料对齐系统
答案:ABC
2.对于语料库规模极小的数据文件或文件容量稍大的少量语料文件,可使用各种文本编辑器进行简单清洗,如Vim、Notepad++、EditPlus、EmEditor等。而对于大多数语料库的语料数据,更常用的清洗方法是编写程序或脚本批量处理文件或操作数据库。( )
A:对 B:错

温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(1) dxwkbang
返回
顶部