第十二章测试
1.下列选项中,主要用来获得根词的是( )。
A:WordNetLemmatizer
B:LancasterStemmer
C:SnowballStemmer
D:PorterStemmer

答案:A
2.下列分词模式中,可以将句子中所有成词词语都扫描出来的是( )。
A:搜索引擎模式
B:模糊搜索模式
C:精确模式
D:全模式
3.下列方法中,用于返回出现相对较频繁的单词的是( )。
A:pos_tag()
B:most_common()
C:word_tokenize()
D:cosine_distance()
4.关于文本预处理的过程,下列描述错误的是( )。
A:词干提取是一个很粗略的去除单词两端词缀的过程
B:文本中的每个单词都能够表明文本的特征
C:词形还原是一个去除曲折的词缀且返回词典中包含的词的过程
D:文本分词是预处理过程中必不可少的一个操作
5.如果希望还原单词的基本形式,则需要使用import语句导入哪个模块?( )
A:nltk.corpus
B:nltk.tokenize
C:nltk.tag
D:nltk.stem
6.关于词性归一化的说法中,下列描述正确的是( )。
A:词干提取能够捕捉基于词根的规范单词形式
B:词干提取和词形还原最终都会得到词根
C:词形还原需要删除不影响词性的词缀得到词干
D:词形还原能够捕捉基于词根的规范单词形式
7.下列选项中,可以用来提取词干的是( )。
A:PorterStemmer
B:LancasterStemmer
C:WordNetLemmatizer
D:SnowballStemmer
8.NLP主要是实现人与计算机之间用英文进行有效沟通。( )
A:错 B:对 9.词干提取能够捕捉基于词根的规范单词形式。( )
A:对 B:错 10.如果两个向量的夹角越小,则表示它们越不相似。( )
A:错 B:对 11.若某个词在这些文本中出现的次数最多,则表示这个单词比较具有代表性。( )
A:错 B:对 12.如果将cut()函数的cut_all参数设为False,则表示按照全模式进行分词。( )
A:错 B:对 13.NLTK是一套基于Python的自然语言处理工具包。( )
A:错 B:对 14.如果将cut()函数的cut_all参数设为False,则表示的是按照精确模式进行分词,( )
A:对 B:错 15.文本分词是预处理过程中必不可少的一个操作。( )
A:错 B:对 16.我们可以直接使用pip命令安装jieba库。( )
A:对 B:错 17.中文并没有一个形式上的分界符。( )
A:对 B:错

温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(21) dxwkbang
返回
顶部