第五章测试
1.制作语料库首先要做的便是收集语料,分别从外交部中、英文网站收集汉语和英语单语语料的步骤为( )。
A:完成抓取后将数据保存至.csv文件 B:Python编程语言的Scrapy网络抓取框架,编制分布式爬虫程序。 C:通过Navicat将数据导入MySQL数据库进行整理和保存 D:开发简易的语料对齐系统
答案:ABC
2.对于语料库规模极小的数据文件或文件容量稍大的少量语料文件,可使用各种文本编辑器进行简单清洗,如Vim、Notepad++、EditPlus、EmEditor等。而对于大多数语料库的语料数据,更常用的清洗方法是编写程序或脚本批量处理文件或操作数据库。( )
A:错 B:对 3.语料库按照对应方式分类,可将双语或多语语料库分为平行或对应语料库和可比或类比语料库。平行或对应语料库的对应层级包括___级别、___级别、___级别以及篇章级别。
4.语料获取技术是指从各种来源渠道收集整理语料,并根据需要将语料转换为可编辑、可加工、可入库的电子数据的相关技术,主要包括___、___、___等。
5.简述语料库和翻译记忆库之间的区别和联系。

温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(148) dxwkbang
返回
顶部