⬆️⬆️⬆️本课程2024最新同名章节期末答案⬆️⬆️

大数据分析与预测技术答案2023

1902 阅读 0 评论 125 点赞

第七章测试

1.有关文本特征的理解，错误的说法是哪个？
A:文本不方便直接处理，需要提取表征内容的特征数值化。 B:TF-IDF和互信息都是文本特征提取的方法。 C:one-hot可以表示一个词的重要性。 D:信息增益是文本特征提取的方法。
答案:C
2.下面哪个选项不是文本分析的组成？
A:语义分析 B:句法分析 C:文本翻译 D:词法分析

内容已经隐藏，点击付费后查看

3.有关文本分析的说法，正确的是哪些？
A:处理文本分类需要经历原始文本的提取、分词等预处理、特征提取与表示、分类模型构建以及评估等阶段。 B:文本属于非结构化数据，因此需要经过预处理转化为向量等结构才方便处理。 C:从一个文本集中查询包含某些主题的文本也属于文本分析。 D:从一个word文档中查询是否包含某个词汇属于文本分析。

内容已经隐藏，点击付费后查看

4.以下有关文本分词的说法正确的是哪个？
A:基于统计的分词方法的性能与训练语料库的质量密切相关。 B:分词算法都需要一个词典。 C:分词合适与否不会引起句子的歧义。 D:英文文本不需要分词。

内容已经隐藏，点击付费后查看

5.下面有关向量空间模型（VSM）的描述中，错误的是哪个？
A:基于向量的文本相似度计算中，除了内积外，还可以用夹角余弦等方法 B:文本特征词的向量权重可通过TF-IDF实现，从而保留文本词序结构信息 C:以向量来表示文档后，两者的夹角余弦值越小说明相似度越高 D:在向量空间模型中，当有新文档加入时，需要重新计算特征词的权重

内容已经隐藏，点击付费后查看

6.下面哪种方法是文本特征获取的方法？
A:卡方统计量 B:信息增益 C:互信息 D:one-hot表示法

内容已经隐藏，点击付费后查看

7.面关于词法分析的描述中，正确的说法有哪些？
A:语义依存分析主要用于分析词和词之间的依存关系，例如句⼦的主语、谓语、宾语等形式结构 B:基于词频统计的分词方法是一种无字典分词方法 C:语义角色标注关注句子主要谓词的论元及谓词与论元之间的关系 D:基于统计的命名实体识别方法目前还主要采用统计的方法

内容已经隐藏，点击付费后查看

8.下面哪些算法不能用于文本的分词？
A:TF-IDF算法 B:基于规则的分词 C:词嵌入 D:反向最大匹配法

内容已经隐藏，点击付费后查看

9.下面有关文本分析正确的说法是哪些？
A:信息抽取不需要了解实体之间的语义关系。 B:时间和日期都是需要识别的命名实体。 C:文本分类可以通过贝叶斯分类器完成。 D:句法分析可以表达组成句子的词语之间的搭配或修辞关系。

内容已经隐藏，点击付费后查看

10.使用基于统计的方法进行特征选择、分词等分析都对语料库的要求比较高。
A:对 B:错

内容已经隐藏，点击付费后查看