第七章测试
1.有关文本特征的理解,错误的说法是哪个?
A:文本不方便直接处理,需要提取表征内容的特征数值化。 B:TF-IDF和互信息都是文本特征提取的方法。 C:one-hot可以表示一个词的重要性。 D:信息增益是文本特征提取的方法。
答案:C
2.下面哪个选项不是文本分析的组成?
A:语义分析 B:句法分析 C:文本翻译 D:词法分析 3.有关文本分析的说法,正确的是哪些?
A:处理文本分类需要经历原始文本的提取、分词等预处理、特征提取与表示、分类模型构建以及评估等阶段。 B:文本属于非结构化数据,因此需要经过预处理转化为向量等结构才方便处理。 C:从一个文本集中查询包含某些主题的文本也属于文本分析。 D:从一个word文档中查询是否包含某个词汇属于文本分析。 4.以下有关文本分词的说法正确的是哪个?
A:基于统计的分词方法的性能与训练语料库的质量密切相关。 B:分词算法都需要一个词典。 C:分词合适与否不会引起句子的歧义。 D:英文文本不需要分词。 5.下面有关向量空间模型(VSM)的描述中,错误的是哪个?
A:基于向量的文本相似度计算中,除了内积外,还可以用夹角余弦等方法 B:文本特征词的向量权重可通过TF-IDF实现,从而保留文本词序结构信息 C:以向量来表示文档后,两者的夹角余弦值越小说明相似度越高 D:在向量空间模型中,当有新文档加入时,需要重新计算特征词的权重 6.下面哪种方法是文本特征获取的方法?
A:卡方统计量 B:信息增益 C:互信息 D:one-hot表示法 7.面关于词法分析的描述中,正确的说法有哪些?
A:语义依存分析主要用于分析词和词之间的依存关系,例如⼦的主语、谓语、宾语等形式结构 B:基于词频统计的分词方法是一种无字典分词方法 C:语义角色标注关注句子主要谓词的论元及谓词与论元之间的关系 D:基于统计的命名实体识别方法目前还主要采用统计的方法 8.下面哪些算法不能用于文本的分词?
A:TF-IDF算法 B:基于规则的分词 C:词嵌入 D:反向最大匹配法 9.下面有关文本分析正确的说法是哪些?
A:信息抽取不需要了解实体之间的语义关系。 B:时间和日期都是需要识别的命名实体。 C:文本分类可以通过贝叶斯分类器完成。 D:句法分析可以表达组成句子的词语之间的搭配或修辞关系。 10.使用基于统计的方法进行特征选择、分词等分析都对语料库的要求比较高。
A:对 B:错

温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(125) dxwkbang
返回
顶部