提示:内容已经过期谨慎付费,点击上方查看最新答案

大数据分析与应用

  1. 数据挖掘一般无需预先设定好的主题,主要是在现有数据上进行基于各种算法的计算,实现一些( )的需求。

  2. A:高级别数据分析 B:高级别数据计算 C:高级别数据处理 D:高级别数据优化
    AI参考:正确选项是【A:高级别数据分析】。数据挖掘一般无需预先设定好的主题,主要是在现有数据上进行基于各种算法的计算,实现一些高级别数据分析的需求。数据挖掘通过对大量数据的分析,可以从数据中提取有价值的信息,从而满足高级别数据分析的需求。'
  3. 根据判定系数R2与F统计量的关系可知,当R2=1时有( )。

  4. A:F=∞ B:F=0 C:F=-1 D:F=1
    答案:F=∞
  5. 决策树算法是一种贪心算法,是( )的逐次搜索方式,逐渐产生决策树模型结构。( )。

  6. A:由下至上 B:由上至下 C:由右至左 D:由左至右
    答案:自顶向下AI参考:答案为D:由左至右。决策树算法是一种贪心算法,是按照由左至右的顺序逐次搜索方式,逐渐产生决策树模型结构。这意味着算法会尽可能地利用当前信息进行决策,并在后续步骤中根据新的信息进行必要的调整。因此,决策树的构建是从左到右的。'
  7. 置信度(confidence)是衡量兴趣度度量( )的指标。

  8. A:新颖性; B:简洁性; C:实用性; D:确定性;
    答案:确定性
  9. 训练数据集中对象的属性分为哪两类?( )。

  10. A:分类属性和类别属性 B:数据属性和类别属性 C:分化属性和数据属性 D:分化属性和分类属性
    AI参考:正确选项:B:数据属性和类别属性。在训练数据集中,对象的属性通常分为数据属性和类别属性两类。数据属性是指与对象特征相关的数值型属性,如身高、体重、年龄等;类别属性则是指与对象特征相关的分类型属性,如性别、职业、颜色等。因此,选项B“数据属性和类别属性”是正确的。选项A中的“分类属性”和选项C中的“分化属性”并不准确,因为它们并不区分数据属性和类别属性的区别。选项D中的“分类属性和分类属性”则表述错误,因为分类属性本身就是类别属性的一个子集。'
  11. 系统性原理是指预测必须以系统的观点为指导,采用哪种方法实现预测的系统目标?( )。

  12. A:系统分析; B:回归分析 C:相关性分析; D:时间分析;
    答案:系统性原理AI参考:正确选项为A:系统分析。系统分析是预测必须以系统的观点为指导,采用的方法来实现预测的系统目标。它通过对系统的特征、目标、限制条件以及可能的未来结果等进行详尽的分析,并在此基础上通过定性、定量相结合的方法,选择满意的预测方案,以便达到充分利用资源、有效地实现系统目标的预期目的。因此,其他选项B、C、D虽然也与预测有关,但不是实现预测的系统目标的最佳方法。'
  13. 大数据分析并不是简单的数据分析的延伸,对大数据进行分析需要高性能的( )。

  14. A:计算架构和存储系统 B:计算结构和存储系统 C:计算结构和存储库 D:计算架构和存储库
    AI参考:正确选项是【A:计算架构和存储系统】。大数据分析需要高性能的计算架构和存储系统,因为大数据量通常非常大,需要高性能的硬件设备来处理和存储数据。计算架构指的是计算机系统的计算方式、处理器架构等,而存储系统则是指数据的存储方式、存储设备、存储容量等。因此,选项A是正确的答案。选项B、C、D虽然也涉及到了计算和存储,但是不够全面,不能涵盖大数据分析的全部需求。'
  15. 推荐系统的构成有哪些( )。


  16. A:行为记录模块 B:推荐算法模块 C:其他三个选项均正确 D:模型分析模块
    AI参考:正确答案是【C:其他三个选项均正确 】。推荐系统的构成主要包括行为记录模块、推荐算法模块和其他功能模块。推荐系统的构建需要根据用户的历史行为和需求等信息,通过对数据进行分析和筛选,最终构建出一个满足用户需求和兴趣的推荐模型,以此来提供更好的个性化推荐服务。因此,除了推荐算法模块之外,行为记录模块和其他功能模块也是推荐系统的重要组成部分。所以选项C是正确的。选项A和D都不是构成推荐系统的核心要素。选项B虽然也是推荐系统的一部分,但是不能作为正确答案。'
  17. 下列说法中正确的是( )。

  18. A:前定变量是随机变量 B:内生变量是非随机变量 C:外生变量是随机变量 D:外生变量是非随机变量
    答案:运算符被重载时,它们的优先级与结合性不会改变
  19. EM算法的引入是因为概率模型中包含( )。

  20. A:隐变量 B:随机变量 C:观测变量 D:固定值
    AI参考:正确答案是A:隐变量。EM算法是一种迭代算法,用于估计概率模型中的参数。在概率模型中,通常包含一些隐变量,这些隐变量是模型中的未知参数,需要通过EM算法进行估计。EM算法通过迭代的方式,不断更新隐变量的值,直到达到一定的精度或迭代次数为止。因此,答案是A:EM算法的引入是因为概率模型中包含隐变量。'
  21. 使用聚类方法确定最相似用户群的时候,使用离目标用户( )一类用户的中心处的打分。


  22. A:最远 B:不近不远 C:最近 D:其他三个选项都不正确
    AI参考:使用聚类方法确定最相似用户群的时候,使用离目标用户最近一类用户的中心处的打分,因此选项C“最近”是正确答案。在聚类分析中,我们通常将数据划分为几个不同的组或类别,每个组内的数据点之间具有较高的相似性,而不同组之间的数据点则具有较大的差异性。为了确定最相似的用户群,我们需要计算每个用户与每个组中心的距离,并选择离目标用户最近的组的中心作为打分结果。因此,选项A“最远”和选项D“其他三个选项都不正确”都是不正确的。而选项B“不近不远”无法准确反映距离的实际情况,因此也不合适。所以,正确答案是C“最近”。'
  23. 预测的基本要素不包括以下哪点?( )。

  24. A:预测结果 B:发展趋势 C:预测者 D:预测方法和技术
    AI参考:正确选项是:C:预测者。预测的基本要素包括预测结果、发展趋势、预测对象和预测方法和技术,而预测者不是预测的基本要素。预测者是指进行预测的人或组织,他们在预测过程中起到的作用是制定预测计划、选择预测方法、进行数据收集和分析等,但并不是预测的基本要素。'
  25. 基于产品的协同过滤需要回答( )。


  26. A:其他三个选项均正确 B:如何预测某一用户对某一产品的打分; C:如何计算产品之间的相似性 D:如何选择每个产品的最相似产品
    AI参考:正确答案是C:如何计算产品之间的相似性。基于产品的协同过滤是一种推荐算法,需要计算产品之间的相似性,以预测用户对某一产品的喜好程度。因此,选项C是正确的答案。选项A、B和D都是基于产品的协同过滤需要回答的问题,但不是最重要的一个问题。'
  27. 发展系数a的有效区间为?( )。

  28. A:(-1,1) B:(-4,4) C:(-3,3) D:(-2,2)
    AI参考:正确选项【C:(-3,3)】。发展系数a是描述投资组合预期收益与风险关系的指标,通常取值在-∞到+∞之间。根据题目描述,发展系数a的有效区间应该是该指标实际能够应用的范围,即-3≤a≤3。因此,选项C(-3,3)是正确答案。其他选项如A、B、D中的区间(-1,1)、(-4,4)、(-2,2)可能过于狭窄或过于宽泛,无法涵盖a的实际应用范围。'
  29. 模型的作用是( ),以适于用户使用的方式重新组织和展现。

  30. A:从数据中找到知识 B:从数据中找到信息 C:从知识中找到数据 D:从信息中找到数据
    AI参考:正确选项是【B:从数据中找到信息】。模型的作用是从数据中找到信息,以适于用户使用的方式重新组织和展现。模型是对现实世界的一种抽象表达,通过对数据的分析、处理和解释,可以从中提取出有用的信息和知识。模型的作用是将复杂的数据和信息进行简化、概括和提炼,以便更好地理解和应用。因此,选项B“从数据中找到信息”是正确的答案。其他选项都与模型的作用不符。'
  31. 推荐是( )决策的一种手段。


  32. A:辅助 B:控制 C:其他三个选项均正确 D:主导
    AI参考:正确选项是【其他三个选项均正确】。推荐是一种辅助决策手段,通常用于在决策过程中提供参考意见或建议,以帮助决策者更好地了解市场趋势、客户需求、竞争状况等信息,从而做出更加明智的决策。同时,推荐也可以作为一种控制手段,用于限制某些特定产品的销售或推广,以达到市场调控的目的。因此,推荐与其他选项(辅助、控制)具有相似的功能和作用,都是决策过程中的重要手段之一。'
  33. 下列关于文本分析的说法错误的是( )。

  34. A:词频是指某一个给定的词语在文本中出现的次数 B:无监督关键词提取方法将关键词提取视为分类过程 C:关键词提取算法主要有无监督关键词提取方法和有监督关键词提取算法 D:分词能够通过某种方式将句子中的各个词语识别并分离
    AI参考:关于文本分析的说法错误的是B:无监督关键词提取方法将关键词提取视为分类过程。无监督关键词提取方法不是将关键词提取视为分类过程,而是通过分析文本中的词项频率、词项间的距离、词项间的共现关系等,自动识别出文本中的关键词。这种方法的优点是不需要人工标注数据,可以自动从大量的文本中提取出重要的关键词。而分类通常需要人为地对文本进行标注,然后通过机器学习算法进行训练和预测。因此,B选项“无监督关键词提取方法将关键词提取视为分类过程”是不准确的。其他选项均表述正确。'
  35. 常用的文本特征选取方式有( )。


  36. A:其他三个选项均正确 B:根据专家的知识挑选出最有影响的特征 C:从原始特征中挑选出一些具有代表性的特征 D:用数学的方法进行选取
    AI参考:正确选项是【C:从原始特征中挑选出一些具有代表性的特征】。常用的文本特征选取方式有从原始特征中挑选出一些具有代表性的特征,即通过文本预处理、词袋模型、TF-IDF等方法,从原始文本中提取出具有代表性的特征;此外,还可以根据专家的知识挑选出最有影响的特征,但这种方式主观性较强;也可以用数学的方法进行选取,但这种方式并不常见。因此,选项C是正确的答案。选项A、B、D虽然也涉及特征选取,但都不是常用的文本特征选取方式。'
  37. 下列属于格式内容清洗的是?( )

  38. A:修正矛盾内容 B:非法字符检测 C:去重 D:去掉不合理值
    AI参考:'
  39. 以下哪种属于系统抽样?( )

  40. A:在100个人中选取第2、12....92人 B:从总体的N个样本中抽取n个 C:在饮料口味改变调查中多选取常购买的人 D:调查近视眼从一个班级中抽样
    AI参考:正确答案是B:从总体的N个样本中抽取n个。系统抽样是一种按照一定规则从总体中抽取子样本的抽样方法。选项B描述了从总体N个样本中抽取n个样本的过程,符合系统抽样的定义。选项A是在总体中随机抽取,不是系统抽样;选项C和D的调查方式也不是系统抽样。因此,选项B是正确答案。'
  41. 以下关于聚类分析的陈述,哪些是正确的( )。

  42. A:进行聚类分析的变量应该进行标准化处理 B:进行聚类分析的统计数据有关于类的变量 C:递推公式有利于运算速度的提高 D:不同的类间距会产生不同的递推公式

  43. 预测方法选择原则( )。

  44. A:从经济、时间与适用性的角度选择预测方法 B:根据预测结果的准确程度选择预测方法 C:根据预测对象资料的特征和规律选择预测方法 D:根据预测目标的要求选择预测方法
    AI参考:正确选项是【A:从经济、时间与适用性的角度选择预测方法 C:根据预测对象资料的特征和规律选择预测方法】。选择预测方法时,需要考虑经济、时间与适用性,这是从实际应用的角度来考虑的。同时,根据预测对象资料的特征和规律来选择预测方法,这是从预测对象的实际情况出发的。这两种原则都是非常重要的,应该综合考虑。而预测结果的准确程度、预测目标的特殊要求等,虽然也是选择预测方法时需要考虑的因素,但并不是最重要的原则。因此,选项A和C是正确的。选项B和D虽然也是选择预测方法时需要考虑的因素,但不是最重要的原则。'
  45. 常见的权重组合的方法有( )。

  46. A:综合加权 B:IR_IC加权 C:IC均值加权 D:等权加权
    AI参考:常见的权重组合的方法有( )。答案是:A:综合加权、C:IC均值加权。综合加权是一种常见的权重组合方法,即将多个指标的权重进行综合加权处理。IC均值加权也是一种常见的权重组合方法,它根据指标的IC值来确定权重。这两种方法都是根据指标的重要性和数量来确定权重,因此是常见的权重组合方法。而B和D选项则不是常见的权重组合方法,因此不是正确答案。'
  47. 常用的决策树算法有?( )

  48. A:CART B:Hunt C:ID3 D:C4.5
    AI参考:常用的决策树算法有(ACD)。选项A是CART算法,是一种基于方差的决策树算法;选项C是ID3算法,是一种基于信息增益的决策树算法;选项D是C4.5算法,也是一种基于信息增益的决策树算法。因此,选项B“Hunt”不是常用的决策树算法。'
  49. Aprior算法的关键步骤是( )

  50. A:剪接步; B:中和步; C:减枝步; D:连接步;
    AI参考:正确选项是【ABCD】:Aprior算法的关键步骤包括剪接步、中和步、减枝步和连接步。这四个步骤相互关联,共同构成了Aprior算法的核心流程。剪接步是用于去除冗余的候选决策树节点,中和步则是用于合并多个子节点,减枝步用于剪去过深的决策树分支,而连接步则是将剪接后的决策树节点重新连接起来,形成一个完整的决策树。这些步骤共同保证了算法的效率和准确性。'
  51. 以下哪些属于非结构化数据( )。

  52. A:音频 B:视频 C:文本 D:图像
    AI参考:正确选项为:ABCD。非结构化数据包括音频、视频、文本、图像等多种形式,因此所有选项都正确。'
  53. K-means聚类法的局限性体现在( )。

  54. A:K-means聚类法对变量的要求也比较高 B:由K-means聚类法得到的聚类结果,轮廓系数都不是很大 C:K-means聚类法对噪声和离群点敏感 D:应用K-means聚类法需要预先直到聚类个数

  55. 在DBSCAN算法中,数据点分为哪几类( )。

  56. A:边界点 B:核心样本 C:核心点 D:噪音点

  57. 经典的计算用户相似度可以用( )方法。


  58. A:其他三个选项均不正确 B:皮尔逊相关度 C:调整余弦相似性 D:余弦相似性
    AI参考:答案是D:余弦相似性。皮尔逊相关度是一种常用的计算用户相似度的方法,但它不是计算用户相似度的唯一方法。调整余弦相似性和余弦相似性都是常用的计算用户相似度的方法,它们都可以用于衡量两个用户之间的相似性。因此,选项D是正确的。选项A和B是不正确的,因为它们没有提供其他计算用户相似度的方法。选项C虽然也是常用的计算用户相似度的方法之一,但它不是最常用的方法之一,因此也不是最佳答案。'
  59. 属于度量的类型的有( )。

  60. A:不可加性度量 B:不确定性度量 C:半可加性度量 D:可加性度量
    AI参考:属于度量的类型的有(D)。度量是用来衡量一组数据的性质或特征的数值。选项D,可加性度量,是一种常见的度量类型,用于衡量数据的加性属性或特征。而选项A、C不是度量类型,B是针对不确定性的一种度量类型。因此,答案是D:可加性度量。'
  61. 假设线性回归模型满足全部基本假设,则其参数的估计量具备( )。

  62. A:无偏性 B:有效性 C:可靠性 D:线性

  63. logistic回归适用于因变量为( )。

  64. A:多分类无序变量 B:多分类有序变量 C:连续型定量变量 D:二分类变量

  65. 对样本进行聚类,通常采用的相似性统计量( )。

  66. A:绝对距离 B:欧式距离 C:切比雪夫距离 D:夹角余弦

  67. 回归分析中估计回归参数的方法主要有( )。

  68. A:极大似然法 B:相关系数法 C:最小二乘估计法 D:矩估计法

  69. 以下哪几项属于分词的方法( )。

  70. A:横向最大匹配法 B:双向最大匹配法 C:逆向最大匹配法 D:正向最大匹配法
    AI参考:正确选项是【ABCD】分词的方法包括:正向最大匹配法、双向最大匹配法、逆向最大匹配法和随机匹配法等。其中,正向最大匹配法和双向最大匹配法都是基于词语的顺序进行匹配的方法,而逆向最大匹配法则是在反向词典的基础上进行匹配的方法。因此,选项 A、B、C、D 都是正确的分词方法。'
  71. 数据缺失值填充方法?( )

  72. A:预测填充 B:统计填充 C:统一填充 D:删除
    AI参考:正确选项为【AB】数据缺失值填充方法包括预测填充和统计填充。预测填充是根据已知的数据来预测缺失的值,而统计填充则是根据整个数据集的统计信息来估计缺失的值。这两种方法都是为了尽可能地填补数据中的空白,提高数据的完整性和准确性。而统一填充和删除则不是数据缺失值填充的常见方法。统一填充是将所有缺失的值都填充成相同的一个值,而删除则是将含有缺失值的行或列从数据中删除。这两种方法都忽略了缺失的数据,可能会影响数据的完整性和准确性。'
  73. 推荐系统可以( )角度评估。

  74. A:用户满意度 B:多样性 C:新颖性 D:惊喜度
    AI参考:正确选项为:ABD推荐系统可以从用户满意度、多样性、惊喜度三个角度来评估。用户满意度反映了用户对推荐结果是否符合其需求的评价,多样性反映了推荐结果中不同类型物品的丰富程度,而惊喜度则反映了推荐结果与用户预期的差异程度。因此,这三个指标都是推荐系统评估的重要角度。选项C新颖性不是推荐系统评估的常见指标,因此不正确。'
  75. 数据可视化根据数据类型可以分为( )。

  76. A:多维数据可视化 B:文本可视化 C:时空数据可视化 D:网络可视化
    AI参考:正确答案是:ABC。数据可视化是根据数据类型、数据分析目标而进行的可视化和解释过程。因此根据数据类型可以将数据可视化分为多维数据可视化、文本数据可视化、时空数据可视化、网络可视化等。ABC选项都是常见的数据可视化类型,而D选项的网络可视化通常用于社交网络、网页等网络数据的可视化,与数据类型无关。因此,本题答案为ABC。'
  77. 数据标准化与归一化方法?( )

  78. A:反正切函数 B:log函数转换 C:0-1标准化 D:Z-score标准化
    AI参考:正确选项为 D:Z-score标准化。数据标准化是一种将数据转换成均值为0,标准差为1的数据处理方法。常用的数据标准化方法有Z-score标准化和Min-Max标准化。其中,Z-score标准化是将原始数据减去均值后,再除以其标准差,得到一组标准化的数据。这种方法适用于数据分布较为集中的情况。归一化则是将数据值缩放到[0,1]区间的方法,常用的有Min-Max归一化。因此,选项A和B不是数据标准化的方法。选项C虽然也是0-1标准化,但是它不是Z-score标准化,因此也不是正确选项。综上所述,正确选项为D:Z-score标准化。'
  79. 依据分析的数据类型,可将大数据分析模型分为( )。

  80. A:面向非结构化文本数据的多元分析 B:面向结构化多维数据的多元分析 C:面向半结构化图数据的图分析 D:面向非结构化文本数据的文本分析
    AI参考:正确选项为:ABCD依据分析的数据类型,可将大数据分析模型分为:1. 面向非结构化文本数据的多元分析(A)2. 面向结构化多维数据的多元分析(B)3. 面向半结构化图数据的图分析(C)4. 面向非结构化文本数据的文本分析(D)同时,大数据分析还可以根据分析方式、数据规模、数据源、业务场景等不同维度进行分类,如聚类分析、关联规则分析、统计分析、预测分析等。希望以上回答对您有所帮助。'
  81. 灰色预测的数据是通过生成数据的模型所得到的预测值的逆处理结果( )。

  82. A:对 B:错
    AI参考:答案是B:错。灰色预测是对含有不确定因素的信息进行预测的一种方法,它主要通过生成数据的模型来对未来发展趋势进行预测,而不是通过逆处理结果来得到预测值。因此,这个说法是错误的。'
  83. EM算法一定收敛。( )

  84. A:对 B:错
    AI参考:答案:B。EM算法不一定收敛,需要满足一定的条件才能保证其收敛。'
  85. 用户喜好矩阵的两个维度分别是用户维度和产品维度。( )。

  86. A:错 B:对
    AI参考:答案是B:对。用户喜好矩阵通常用于分析用户对不同产品的偏好,因此它的两个维度应该是用户维度和产品维度。'
  87. 对于项集来说,置信度没有意义。( )

  88. A:对 B:错

  89. 数据集市包含的数据量比较多。( )

  90. A:对 B:错
    AI参考:答案:B:错。数据集市通常只包含特定主题的少量数据,以便快速提供有价值的分析结果。因此,数据集市包含的数据量不较多,而是相对较少。'
  91. 词嵌入方法使用低维、稠密、实值的词向量来表示每一个词,从而赋予词语丰富的语义含义,并使得计算词语相关度成为可能。( )

  92. A:对 B:错
    AI参考:答案是A:对。词嵌入方法使用低维、稠密、实值的词向量来表示每一个词,这赋予词语丰富的语义含义,并使得计算词语相关度成为可能。因此,该说法是正确的。'
  93. 传统数据分析建模方法与大数据分析建模方法是对立的。( )

  94. A:对 B:错
    AI参考:答案是B:错。传统数据分析建模方法和大数据分析建模方法不是对立的,而是可以相互补充的。随着数据量的增加,传统数据分析方法已经无法满足需求,大数据分析建模方法应运而生。大数据分析建模方法可以利用更全面的数据和更复杂的算法来提高分析的准确性和可靠性,而传统数据分析方法则可以与大数据分析方法相结合,形成互补的解决方案。因此,两者并不是对立的,而是可以相互借鉴和融合的。'
  95. 剩余变差,是未被回归直线解释的部分,是由解释变量以外的因素造成的。( )

  96. A:错 B:对
    AI参考:答案是B:对。剩余变差是指通过回归分析得到的预测值与实际观察值之间的差异,这部分变差是由解释变量以外的因素造成的,如随机误差、测量误差、模型误差等。因此,剩余变差是由解释变量以外的因素造成的,而不是未被回归直线解释的部分。'
  97. 计量经济模型中的被解释变量一定是,内生变量。( )

  98. A:错 B:对

  99. 分类分析是指在已知研究对象已经分为若干类的情况下,确定新的对象属于哪一类。( )

  100. A:错 B:对
    AI参考:答案是B:对。判断题中描述的情境是正确的,分类分析是在已知研究对象已经分为若干类的情况下,确定新的对象属于哪一类。因此,答案为B,即“对”。'
  101. 概率推断原理是指当被推断的结果能以较大的概率出现时,则认为该结果成立。( )。

  102. A:对 B:错
    AI参考:答案是B:错。概率推断原理是指当被推断的结果出现概率较大时,则认为该结果成立的可能性较大,而不是一定成立。因此,该题描述是错误的。'
  103. 为评论者打分目的是根据指定的人员对每个人进行打分,找出最接近的匹配结果。( )。

  104. A:错 B:对
    AI参考:正确答案是B:对。评论者打分的目的是根据指定的打分标准,对每个人进行评分,以找出最接近的匹配结果。这个目的与题目描述一致。'
  105. K-Medoids是对K-means聚类算法的优化,因此比K-means聚类法应用更为广泛。( )

  106. A:错 B:对

  107. 轮廓系数的值越趋近于1则代表紧密度和分离度都相对较优,即聚类效果越好。( )

  108. A:错 B:对
    AI参考:答案:B:对。轮廓系数是一个评估聚类效果的指标,它的值越趋近于1代表聚类效果越好,因为它同时考虑了聚类的紧密度和分离度。因此,这个说法是正确的。'
  109. Apriori算法是一种典型的关联规则挖掘算法。( )

  110. A:错 B:对

  111. 欧几里德距离通过判断两组数据与某一直线拟合程度来判断相似度。( )。

  112. A:错 B:对
    AI参考:B. 对。欧几里德距离通常用于衡量两个点之间的距离,它通过计算两点之间的直线距离来衡量它们之间的相似度。因此,这个说法是正确的。'
  113. 在大数据分析中,想要从文本中获取信息首先要将其转换为结构化的数据。( )

  114. A:错 B:对
    AI参考:正确答案是B:对。在大数据分析中,想要从文本中获取信息首先要将其转换为结构化的数据,这样可以提高数据处理的效率和准确性。因此,本题中的说法是正确的,答案为B。'
  115. FP-Growth算法的优点是算法步骤的时间比较长。( )

  116. A:错 B:对
    AI参考:判断题【判断题】FP-Growth算法的优点是算法步骤的时间比较长。是错误的。FP-Growth算法是一种频繁模式挖掘算法,其优点包括:1. 无需事先知道数据集中所有模式的信息,不需要对数据进行扫描,降低了时间复杂度。2. 能够挖掘长时间依赖的频繁模式,且无需任何参数调整,可处理不同类型的数据集。3. 能够处理大数据集,提高处理效率。因此,该判断题是错误的。'
  117. 密度可达是不具有传递性的。( )

  118. A:错 B:对
    AI参考:答案:B。密度是一个物理量,只有存在相互接触的两个物体之间才能发生传递作用,所以密度达到一定程度是不会具有传递性的。因此,选项B“对”是正确的。'
  119. 先进行数据清洗,再进行数据仓库数据模型的优化。( )

  120. A:对 B:错
    AI参考:答案是B:错。数据仓库数据模型优化应该在数据清洗之前进行,因为数据清洗主要是为了去除错误、重复和异常的数据,而这些数据可能会影响数据仓库中数据模型的准确性和一致性。如果先进行数据清洗,可能会误认为一些正确的数据是错误的,从而导致数据模型的不准确。因此,应该先进行数据仓库数据模型的优化,再进行数据清洗。'

温馨提示支付 ¥1.10 元后可查看付费内容,请先翻页预览!
点赞(1) dxwkbang
返回
顶部