第五章 大数据算法:算法的发展史及大数据时代的算法5.1编程语言:计算机编程语言的发展过程及面向数据科学的编程原因
5.2数据预处理:数据集拆分、数据清洗、数据采样的主要方法和目的
5.3特征工程:特征工程的定义和主要方法
5.4正则表达式:正则表达式定义和常用的元字符
5.5KNIME的数据预处理:使用正则表达式来对缺失值、重复值、编码进行预处理
[多选题]编程语言有()。
注释语言
高级语言
机器语言
汇编语言
答案:机器语言汇编语言高级语言
[多选题]下列属于面向对象编程语言的有()。
Java
C
Python
C++[单选题]对各种脏数据进行对应方式的处理,得到标准、干净、连续的数据,提供给数据统计、数据挖掘等使用的方法称为()。
数据归一
数据清洗
数据集成
数据挖掘[单选题]设置日期字段格式为 “2019-10-10”,属于满足数据清洗中的()。
数据合法性
数据权威性
数据一致性
数据完整性
数据唯一性[单选题]通过身份证号来补全性别、年龄、籍贯等属于满足数据清洗中的()。
数据权威性
数据一致性
数据合法性
数据完整性[单选题]数据库中设置按主键去除重复的方法属于满足数据清洗中的()。
数据合法性
数据唯一性
数据一致性
数据完整性
数据权威性[单选题]数据集的类别分布不均被称为()。
数据不平衡

欠采样
数据饱和
过采样[多选题]下列属于特征降维的方法有()。
Code-Decode
One-Hot
LDA
PCA[单选题]指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串称为()。
语法
正则表达式
通配符
字符集[单选题]元字符d表示()。
匹配字母或数字或下划线
匹配任意的空白符
匹配一个数字字符
匹配除换行符以外的任意字符

温馨提示支付 ¥1.00 元后可查看付费内容,请先翻页预览!
点赞(0) dxwkbang
返回
顶部