提示:内容已经过期谨慎付费,点击上方查看最新答案
中文信息处理与挖掘
- 起源与赌博有关,它是数学的一个分支,研究随机现象的数量规律,正确的答案是( )。
- 以下哪项是指当分析样本大到接近总体数时,样本中事件发生的概率将接近于总体中事件发生的概率。( )
- 下面哪个选项是自然语言处理的应用( )。
- 以下不属于L. Tesnière理论思想的是( )。
- 引入点规则用于表示规则右部被规约的程度,下列属于完全规约的是( )。
- 句法分析通常又被叫做( )。
- 下列关于上下文无关文法(PCFG)的特点描述错误的是( )。
- 下面关于句子重要性说法错误的是( )
- 以下不属于基于传统机器学习的情感分析方法的是( )。
- ( )是自然语言处理的技术基础,也是自然语言理解过程的第一层。主要包括自动分词、词性标注、中文命名实体标注和新词发现等。
- 以下不属于依存语法结构描述方法的是( )。
- 在自然语言处理中,计算机理解语言的主要困难不包括( )。
- 目前汉语分析主要是依据的国家标准是( ),这个标准叫做《信息处理用现代汉语分词规范》。
- 下列说法错误的是( )。
- 以下不属于依存句法分析方法的是 ( )。
- 下列关于句法分析的表述错误的是( )
- 关于机器翻译的说法错误的是( )。
- 中文中()左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正确。( )
- 无论是基于统计的还是基于规则的方法,( )都是自然语言处理的第一步。
- 掷一枚六面骰子的期望值是( )。
- 检索式问答系统流程包括哪些( )。
- 为了完成多文档的抽取式摘要,我们要解决以下哪几个关键技术问题( )
- 对句子的句法分析通常包括哪两个两部分( )。
- 为什么要有问答系统呢?( )。
- 中文文本情感分析任务的难点包括( )。
- 篇章的两个最基本特征是( )。
- 世界上的语言分类三个类型,以下表达正确的是( )。
- 情感分析任务按粒度可以分为( )
- 文本摘要按照输出类型划分主要分为哪几类( )
- 句法结构分析和依存关系分析都可通过下列哪两种方法来实现。( )
- 下列属于中文切词方法的有( )。
- 词法分析,它属于词语级的自然语言处理,主要有( )。
- 文本摘要按照输入类型划分主要分为哪几类( )
- 命名实体识别也有很多方法,比如( )。
- 句子的位置会影响句子的重要性。下列哪些位置是我们选取摘要句子的重点位置( )
- 机器翻译就是把机器语言翻译为人类能读懂的语言( )。
- 机器翻译的发展使得人们在出国旅游时,语言不通不再是很多人的一大痛点( )。
- 知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。( )
- 在以信息交流为目的场景中,机器翻译主要解决人与人之间的语言沟通问题( )。
- 在上下文无关文法中,在任何情况下,计算分析树的概率都可以使用所有规则的概率之积。( )
- 句法结构分析和依存关系分析都可通过基于规则和基于统计的方法来实现。( )
- 就词性标注手段来讲,可以采用手动的方式进行标注也可以采用自动标注的方法。( )
- 点间互信息是衡量一个词汇内部的凝聚程度( )。
- 引入注意力机制的目的是选出关键信息,捕捉上下文相关信息,防止重要信息的丢失,提高文本分类的准确性。( )
- 在设计语言模型时,我们通常用困惑度来代替交叉熵衡量语言模型的好坏。( )
- 语义分析的第一步是要消除词汇的,获得词汇的正确语义表示。( )
- 知识图谱,通过对错综复杂的文档的数据进行有效的加工、处理、整合,转化为简单、清晰的“实体,关系,实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。( )
- 跨语言摘要意思是要处理的文档中会出现多种语言的文本。( )
- 熵表示描述一个随机变量的不确定性的数量。( )
- 完成句法分析的前提是让机器知道语法,把这种面向机器处理的语法称为形式语法,重写规则就是一种形式语法表示方式。( )
A:信息论 B:数学 C:概率论 D:博弈论
AI参考:正确答案是C:概率论。起源与赌博有关,它是数学的一个分支,研究随机现象的数量规律,这是概率论的特点。信息论是研究信息处理、如何有效地收集、传输、存储、处理、检索和利用信息的科学,博弈论是研究所有涉及博弈者决策过程的数学理论。只有概率论是研究随机现象的数量规律的数学分支,与赌博有关。因此,本题答案为C。'
A:二项式分布 B:最大似然估计 C:贝叶斯法则 D:期望
AI参考:正确选项是【A:二项式分布】。二项式分布是指当分析样本大到接近总体数时,样本中事件发生的概率将接近于总体中事件发生的概率。在统计学中,二项式分布是一种用于描述只有成功或失败两种可能结果的随机试验的概率分布。当样本量很大时,二项式分布的估计值将接近于正态分布,这是统计学中的一种重要概念。其他选项B、C、D与题目无关。'
A:语音生物识别 B:机器翻译 C:从图像中检测物体 D:面部识别
AI参考:正确答案是B:机器翻译。自然语言处理应用主要包括语音识别、机器翻译、文本生成等。语音生物识别属于生物识别技术的一种,可以用来实现身份认证,不涉及自然语言处理;从图像中检测物体属于计算机视觉应用;面部识别也是一种生物识别技术,不属于自然语言处理应用。而机器翻译可以将一种语言自动翻译成另一种语言,因此选项B是自然语言处理的应用。'
A:名词是句子的中心,并支配其他成分 B:从属关系是由支配词和从属词联结而成 C:句法关联建立起词与词之间的从属关系 D:动词是句子的中心,其他成分与动词直接或间接地产生联系
AI参考:答案是D。在L. Tesnière理论中,动词是句子的主要组成部分,与其他成分有间接关系,而不是直接联系。其他三个选项都是L. Tesnière理论思想的一部分。名词是句子的中心,并支配其他成分(选项A)。从属关系是由支配词和从属词联结而成(选项B)。句法关联建立起词与词之间的从属关系(选项C)。因此,只有选项D不属于L. Tesnière理论思想。'
A:VP -> V NP B:S->NP。VP C:S->NP VP 。 D:NP->r 。N
AI参考:答案是D:NP->r 。N。在这个问题中,引入点规则用于表示规则右部被规约的程度,完全规约是指在规则的右部,所有的符号都被完全替换或删除。对于选项D,NP->r 。N,规则右部所有NP都被r和N完全替换或删除,符合完全规约的定义。其他选项中,有的规则右部没有被完全替换或删除。因此,答案是D。'
A:词法分析 B:句子语义分析 C:句子结构分析 D:文档结构分析
AI参考:正确答案是C:句子结构分析。句法分析就是根据语法规则,确定句中各类词的语法关系,对一个句子的构造做出准确的分析,是指分析句子的组成部分,以及它们之间的结构关系和功能。所以答案为C。'
A:没有考虑词对结构分析的影响 B:提高容错能力 C:消除结构歧义 D:考虑了上下文对结构分析的影响
AI参考:正确答案是D。选项D是错误的,因为它确实考虑了上下文对语义理解的影响,但这并不是PCFG的一个主要特点。上下文无关文法主要是针对词汇进行识别和理解,它的主要特点是容错能力强、便于自然语言处理等优点,不会过于强调上下文信息。同时它可能还会考虑词对结构分析的影响。注意这里使用的是单选题,其他选项明显也合情合理。同时考虑选项的内容以及文本表述的一致性。而只有D是描述错误的情况,而其他选项都是PCFG的特点。因此,关于上下文无关文法(PCFG)的特点描述错误的是D:考虑了上下文对结构分析的影响。'
A:句子中如果包含线索词,会提高句子的重要性。 B:句子的长度并不会影响句子的重要性。 C:句子如果与标题相似,会提高句子的重要性。 D:句子位置会影响句子的重要性。
答案:水不是人类生存的基本需要
A:朴素贝叶斯算法 B:KNN算法 C:支持向量机算法 D:神经网络算法
AI参考:答案:B:KNN算法。解释:KNN算法是一种基于实例的学习,不属于基于传统机器学习的情感分析方法。朴素贝叶斯、支持向量机和神经网络算法都属于基于传统机器学习的情感分析方法。'
A:语法分析 B:语义分析 C:词法分析 D:句法分析
AI参考:正确选项是【C:词法分析】。词法分析是自然语言处理的技术基础,也是自然语言理解过程的第一层。它主要包括自动分词、词性标注、中文命名实体标注和新词发现等。词法分析将输入的句子按照语言的语法规则分解成不同的词汇单元,如单词、短语、词组等,为后续的自然语言理解提供基础。语法分析、语义分析和句法分析是更高级的自然语言处理技术,它们是在词法分析的基础上进行的。因此,C选项是正确答案。'
A:依存树 B:依存投射树 C:有向图 D:句法树
AI参考:正确答案是C:有向图。依存语法结构描述方法包括依存树、依存投射树和句法树等,其中C选项有向图不属于依存语法结构描述方法。有向图是用来表示语义关系的图形化表示方法,主要用于语义关系的分析。因此,本题答案为C。'
A:语种多样 B:形式与意义的多对多映射 C:语句中的分词 D:文字内涵的发展和演化
答案:形式与意义的多对多映射;语句中的分词;文字内涵的发展和演化
A:Unicode编码 B:GB2312 C:UTF-8和UTF-16编码 D:GB13715
AI参考:正确答案是D,GB13715。这个标准规定了现代汉语分词的标准和规范,旨在解决不同计算机系统对同一段文字的分词结果不一致的问题,以保证信息处理的准确性和一致性。GB13715是《信息处理用现代汉语分词规范》的国家标准,是当前汉语分析的主要依据。因此,选项D是正确答案。其他选项如Unicode编码、GB2312、UTF-8和UTF-16编码等虽然与语言处理有关,但并非汉语分析的主要依据。'
A:虽然机器翻译在蓬勃发展,但是人类世界的巴别塔却难以重建 B:机器翻译的应用仍处于简单理解其他语言、辅助翻译等方面 C:随着机器翻译性能的提升,应用场景也越来越多样化 D:随着科技与社会经济的快速发展,相信机器翻译技术必将逐渐改变人们的工作、生活方式,随时随地为人们解决语言障碍
答案:证明算法不正确,需要证明对任意实例算法都不能正确处理.AI参考:答案是A:虽然机器翻译在蓬勃发展,但是人类世界的巴别塔却难以重建。虽然机器翻译技术在不断发展,但仍处于辅助翻译、提高翻译准确度的阶段,并未能完全取代人工翻译。人类世界的巴别塔则仍然需要人类的智慧和创造力来共同构建,机器翻译还未能达到这一高度。因此,选项A的说法是错误的。其他选项B、C、D的说法都是正确的。'
A:规则式分析方法 B:决策式分析方法 C:生成式分析方法 D:判别式分析方法
答案:判别式分析方法;生成式分析方法;决策式分析方法
A:句法分析主要分为两类,分别是短语结构分析和依存关系分析 B:短语结构分析方法又可分为局部句法分析和全局句法分析,二者没有区别 C:短语结构分析方法主要包括基于规则和基于统计的分析方法 D:依存句法分析的任务是分析词与词之间的依存关系
AI参考:关于句法分析的表述错误的是B:短语结构分析方法又可分为局部句法分析和全局句法分析,二者没有区别。实际上,局部句法和全局句法是有区别的。局部句法分析主要关注句子中的特定子结构,而全局句法分析则关注整个句子的结构。因此,选项B是错误的。其他选项都是正确的。短语结构分析方法主要包括基于规则和基于统计的分析方法,依存关系分析的任务是分析词与词之间的依存关系。'
A:机器翻译的流程简单快捷 B:机器翻译可以取代人工翻译 C:机器翻译速度快 D:机器翻译成本比较低
答案:机器翻译分析阶段以词法分析和语用分析为主AI参考:关于机器翻译的说法错误的是B:机器翻译可以取代人工翻译。机器翻译并不能完全取代人工翻译,因为机器翻译通常依赖于大规模语料库进行训练和优化,缺乏对某些特定语境和语言细微差别的理解。在许多领域,特别是专业领域和文学翻译中,机器翻译的准确性、流畅性和精确性都存在很大问题。因此,机器翻译更适合于一般性的文本翻译,但不能取代人工翻译。所以选项B“机器翻译可以取代人工翻译”是不正确的。'
A:50% B:90.0% C:1.0% D:9.0%
AI参考:中文中大约( )左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正确。应该选择B:90.0%。在中文文本处理中,正向最大匹配法和逆向最大匹配法都是常用的方法,但只有在特定情况下,如词语出现频率较高时,这两种方法才会完全重合且正确。通常情况下,由于词语出现频率的不均衡,这两种方法会有所偏差。因此,根据经验,大约90%左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正确。'
A:分词 B:词性标注 C:语义分析 D:命名实体识别
AI参考:正确选项是A:分词。分词是自然语言处理的第一步,无论是基于统计的还是基于规则的方法,分词都是不可或缺的一步。分词完成后,才能进行后续的词性标注、语义分析、命名实体识别等操作。'
A:6 B:1 C:3.5 D:3
AI参考:正确答案是C:3.5。掷一枚六面骰子,每个面上的点数概率相等,都是1/6,所以期望值是所有点数的概率乘以对应的数再求和,即(1+2+3+4+5+6)×(1/6)=3.5。因此,正确选项为C。'
A:信息抽取 B:重排序 C:检索 D:过滤
AI参考:这个问题的答案应该是:A、信息抽取、B、重排序、C、检索、D、过滤。检索式问答系统的流程通常包括以下几个步骤:1. 信息抽取:从输入的问题中提取出关键信息,如关键词、实体、概念等。2. 重排序:根据系统已有的知识库和推理机制,对提取出的信息进行重新排序,以确定最符合用户需求的答案。3. 检索:在系统所拥有的知识库中,根据重排序后的信息进行检索,找到最符合答案的相关信息。4. 过滤:对检索到的信息进行过滤,排除不相关或不准确的信息,以保证最终输出的答案的准确性和可靠性。因此,选项A、B、C、D都是正确的。'
A:来自多个文档的句子如何排序。 B:对句子重要性进行评估。 C:碎片化信息的聚合。 D:过滤冗余信息。
AI参考:为了完成多文档的抽取式摘要,我们要解决的关键技术问题有:A.来自多个文档的句子如何排序B.对句子重要性进行评估C.碎片化信息的聚合以上问题的选择依据在于完成多文档抽取式摘要所需的关键技术。在多文档摘要中,需要将多个文档中的信息进行整合,这涉及到句子排序和聚合的问题。同时,为了确保摘要的准确性和全面性,还需要对句子的重要性进行评估,以便选取重要的信息进行整合。而过滤冗余信息也是在进行多文档摘要时需要关注的问题之一。因此,以上三个问题都是完成多文档抽取式摘要所必须面对的关键技术问题。D选项“过滤冗余信息”虽然也是在进行多文档摘要时需要考虑的问题之一,但并不是完成多文档抽取式摘要所必须面对的关键技术问题。因此,正确选项为A、B、C。'
A:文档语义分析 B:文档结构分析 C:依存关系分析 D:句法结构分析
AI参考:对句子的句法分析通常包括依存关系分析和句法结构分析两个部分。选项C和D正确地描述了这一过程。句法分析是通过分析句子中的词和短语,建立它们的依存关系和句法结构,从而理解句子的语法和语义结构。这有助于理解和解析句子的含义,并用于自然语言处理和机器翻译等任务。而选项A和B虽然涉及到了文档语义和文档结构,但与句子的句法分析没有直接关系。因此,选项C和D是正确选项。'
A:移动互联网以及可穿戴设备的飞速发展,需要高效、准确的,自然语言形式的信息服务方式 B:搜索引擎急需一场变革 C:大数据的兴起 D:博弈论的发展
AI参考:正确选项为A、B。随着移动互联网和可穿戴设备的飞速发展,人们对于高效、准确、自然语言形式的信息服务方式的需求越来越高,因此需要问答系统来提供更加精准、高效的信息服务。同时,搜索引擎也需要一场变革,问答系统可以作为搜索引擎的一种补充,提供更加深入、个性化的信息搜索服务。因此,问答系统的出现是移动互联网和可穿戴设备发展的必然趋势,也是搜索引擎急需变革的体现。选项C、D与问答系统的出现没有直接关系。'
A:隐含语义难以抽取 B:互联网新词层出不穷 C:中文语境复杂 D:文本存在多义或者同义现象
A:连贯性 B:衔接性 C:信息性 D:意图性
A:曲折型语言 B:普通型语言 C:黏着型语言 D:分析型语言
AI参考:答案是B、C、D。世界上的语言分类主要有三种类型:普通型语言、黏着型语言和分析型语言。其中,普通型语言是指语法和词汇之间没有明显的界限,比如英语和汉语等;黏着型语言是指语法结构需要通过词尾变化或添加附加语素等方式来表达,比如日语和阿拉伯语等;分析型语言则是指语法结构主要通过词序和语调等手段来表达,比如泰语和越南语等。因此,选项B、C、D都是正确的表达。而选项A的“曲折型语言”在语言分类中并不常见,因此不正确。'
A:段落级 B:句子级 C:词语级 D:篇章级第七章
AI参考:情感分析任务按粒度可以分为( BCD)。具体来说,情感分析任务可以根据分析的粒度不同,分为句子级、词语级和篇章级。其中,句子级情感分析是指对句子层面的情感进行分析;词语级情感分析则是对词语层面的情感进行分析;篇章级情感分析则是对整个篇章的情感进行分析。因此,选项BCD都是正确的。而选项A段落级情感分析,通常在句子级和篇章级情感分析中使用,它是对段落内的情感进行分析,通常不是情感分析任务的主要粒度。'
A:多文档摘要 B:抽取式摘要 C:跨语言摘要 D:生成式摘要
A:基于结构的方法 B:基于规则方法 C:基于统计的方法 D:基于词典的方法
A:全切分方法 B:规则与统计相结合的方法 C:由字构词的分词方法 D:生成式与判别式的相结合方法
A:词性标注 B:新词发现 C:命名实体识别 D:分词
AI参考:正确选项是【D:分词】。分词是词语级的自然语言处理技术,主要用于将自然语言中的词语与句子结构进行划分,是中文信息处理的基础技术之一。其他选项如词性标注、新词发现和命名实体识别等,虽然也是自然语言处理中的重要技术,但它们通常属于不同级别的处理,如基于规则、统计或深度学习等,而且它们的处理范围和功能也不完全等同于分词。因此,本题答案为D。'
A:生成式摘要 B:抽取式摘要 C:单文档摘要 D:多文档摘要
A:基于神经网络的方法 B:基于特征模板的方法 C:基于规则的方法 D:基于字典的方法
AI参考:正确选项为【ABCD】命名实体识别的方法包括但不限于以下几种:基于神经网络的方法、基于特征模板的方法、基于规则的方法、基于字典的方法。这些方法各有优缺点,需要根据具体任务和数据特点进行选择和优化。'
A:文章的最后一句 B:各个段落的第一句 C:各个段落的最后一句 D:文章的第一句
AI参考:【多选题】句子的位置会影响句子的重要性。下列哪些位置是我们选取摘要句子的重点位置,答案是:ABCD。即文章的最后一句、各个段落的第一句、各个段落的最后一句以及文章的第一句都是摘要句子的重点位置。这些位置通常能够概括文章的主要观点或结论,或者能够突出句子的重要性。'
A:对 B:错
AI参考:答案是B:错。机器翻译是将一种语言转换为另一种语言的计算机程序,它通常使用自然语言处理和机器学习等技术来实现。虽然机器翻译已经取得了很大的进展,但它仍然存在一些限制和挑战,如语法、语义等方面的准确性问题。因此,机器翻译并不能简单地等同于把机器语言翻译为人类能读懂的语言。"
A:错 B:对
AI参考:答案:B。 机器翻译的发展确实使得人们在出国旅游时,语言不通不再是很多人的一大痛点。随着机器翻译技术的不断进步,翻译的准确性和效率得到了显著提高,使得人们能够更轻松地理解和沟通不同语言之间的差异。因此,答案是“对”。"
A:对 B:错
AI参考:答案是A:对。 知识图谱是一种基于图的数据结构,可以表达、组织、管理互联网上海量、异构、动态的大数据,使得网络的智能化水平更高,更加接近于人类的认知思维。因此,知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式。所以该判断题是正确的。"
A:对 B:错
AI参考:在以信息交流为目的场景中,机器翻译确实主要解决人与人之间的语言沟通问题,正确答案是A。机器翻译是指使用计算机系统来将一种语言翻译成另一种语言,旨在帮助人们克服语言障碍,实现跨语言交流。相较于传统的手动翻译或同声传译,机器翻译大大提高了翻译效率,降低了成本,使得更多的人能够受益于翻译服务。因此,这个判断题的答案是A,机器翻译主要解决人与人之间的语言沟通问题。"
A:对 B:错
A:错 B:对
AI参考:答案是B:对。 句法结构分析和依存关系分析可以通过基于规则和基于统计的方法来实现。规则方法通常需要手动构建规则,需要更多的专业知识,但分析结果较为精确;而统计方法不需要手动构建规则,通过大规模语料库进行机器学习,分析速度较快,但可能存在一定的误差。因此,这两种方法各有优缺点,可以结合使用。所以该题应选择B,即“对”。"
A:对 B:错
AI参考:答案是A:对。 词性标注是自然语言处理中的一项任务,可以通过手动标注和自动标注两种方式来实现。手动标注需要人工对每个词进行标注,精度较高,但工作量较大;自动标注则可以利用机器学习等技术,根据已有的语料库对词进行自动标注,效率较高,但准确度可能不够理想。因此,就词性标注手段来讲,可以采用手动的方式进行标注也可以采用自动标注的方法。"
A:错 B:对
A:错 B:对
AI参考:答案是B:对。引入注意力机制的目的是选出关键信息,捕捉上下文相关信息,防止重要信息的丢失,提高文本分类的准确性。注意力机制可以自动识别和关注对分类决策最重要的信息,同时也能捕捉到文本中的其他相关信息,从而有助于提高文本分类的准确性。"
A:错 B:对
AI参考:答案是B:对。 在衡量语言模型的好坏时,通常使用困惑度(perplexity)来替代交叉熵(cross-entropy)。困惑度是一个衡量语言模型性能的指标,它描述了模型预测输出序列的概率分布与实际观察到的序列的概率分布之间的差异程度。如果困惑度越低,说明模型性能越好,能够更准确地预测输出序列的概率分布。因此,在设计语言模型时,我们通常用困惑度来衡量语言模型的好坏。"
A:错 B:对
AI参考:B:对。语义分析的第一步是要消除词汇的同义、近义、反义关系,获得词汇的正确语义表示。因此,这个说法是正确的。"
A:对 B:错
AI参考:答案是A:对。 知识图谱是一种基于图谱的方法,通过对文档中的实体、关系和实体进行有效的加工、处理、整合,形成三元组的形式,最终聚合大量知识,从而实现知识的快速响应和推理。因此,该说法是正确的。"
A:对 B:错
AI参考:跨语言摘要的意思是处理包含多种语言文本的文档,因此这个判断题的正确答案是A:对。在处理文档中混合了多种语言的文本时,需要应用跨语言摘要技术来提取和理解文档中的关键信息。"
A:错 B:对
AI参考:答案是B:对。熵是用来描述一个系统的混乱度的物理量,用于衡量一个系统内部状态的不确定性。因此,熵可以用来描述描述一个随机变量的不确定性。"
A:对 B:错
AI参考:答案是A:对。 完成句法分析的前提是让机器知道语法,把这种面向机器处理的语法称为形式语法。重写规则是一种形式语法表示方式,因此该判断题是正确的。"