第七章 文本分析:了解文本分析概念;掌握自然语言处理方法;掌握文本特征表示模型;掌握文本分析算法。7.1文本分析概述:文本分析概述
7.2自然语言处理:自然语言处理
7.3文本特征表示:文本特征表示
7.4文本分析算法:文本分析算法
7.1文本分析概述:文本分析概述
7.2自然语言处理:自然语言处理
7.3文本特征表示:文本特征表示
7.4文本分析算法:文本分析算法
[单选题]有关文本特征的理解,错误的说法是哪个?选项:[信息增益是文本特征提取的方法。, one-hot可以表示一个词的重要性。, TF-IDF和互信息都是文本特征提取的方法。, 文本不方便直接处理,需要提取表征内容的特征数值化。]
[单选题]下面哪个选项不是文本分析的组成?选项:[语义分析, 句法分析, 文本翻译, 词法分析]
[多选题]有关文本分析的说法,正确的是哪些?选项:[从一个word文档中查询是否包含某个词汇属于文本分析。, 文本属于非结构化数据,因此需要经过预处理转化为向量等结构才方便处理。, 从一个文本集中查询包含某些主题的文本也属于文本分析。, 处理文本分类需要经历原始文本的提取、分词等预处理、特征提取与表示、分类模型构建以及评估等阶段。]
[单选题]以下有关文本分词的说法正确的是哪个?选项:[分词算法都需要一个词典。, 英文文本不需要分词。, 分词合适与否不会引起句子的歧义。, 基于统计的分词方法的性能与训练语料库的质量密切相关。]
[单选题]下面有关向量空间模型(VSM)的描述中,错误的是哪个?选项:[文本特征词的向量权重可通过TF-IDF实现,从而保留文本词序结构信息, 以向量来表示文档后,两者的夹角余弦值越小说明相似度越高, 在向量空间模型中,当有新文档加入时,需要重新计算特征词的权重, 基于向量的文本相似度计算中,除了内积外,还可以用夹角余弦等方法]
[多选题]下面哪种方法是文本特征获取的方法?选项:[互信息, 信息增益, one-hot表示法, 卡方统计量]
[多选题]面关于词法分析的描述中,正确的说法有哪些?选项:[基于词频统计的分词方法是一种无字典分词方法, 语义依存分析主要用于分析词和词之间的依存关系,例如⼦的主语、谓语、宾语等形式结构, 基于统计的命名实体识别方法目前还主要采用统计的方法, 语义角色标注关注句子主要谓词的论元及谓词与论元之间的关系]
[多选题]下面哪些算法不能用于文本的分词?选项:[TF-IDF算法, 词嵌入, 基于规则的分词, 反向最大匹配法]
[多选题]下面有关文本分析正确的说法是哪些?选项:[信息抽取不需要了解实体之间的语义关系。, 文本分类可以通过贝叶斯分类器完成。, 时间和日期都是需要识别的命名实体。, 句法分析可以表达组成句子的词语之间的搭配或修辞关系。]
[判断题]使用基于统计的方法进行特征选择、分词等分析都对语料库的要求比较高。选项:[对, 错]

温馨提示支付 ¥1.00 元后可查看付费内容,请先翻页预览!
点赞(0) dxwkbang
返回
顶部