第二章 数据工程:大数据时代,随着数据量的增加,传统的数据的管理、展现以及其中信息提炼的方式已经不能满足新形势的需求。而数据工程,则是针对这一逐渐凸显的矛盾,将数据的处理流程、数据预处理以及数据的可视化等方面,对相关的理论知识以及工具使用进行快速的入门介绍。2.1数据工程概念及特征:在大数据时代,数据格式变得越来越多样,涵盖了文本,音频,图片,视频,模拟信号等不同的类型,数据来源也越来越多样,不仅产生于组织,内部运作的各个环节,也来自于组织外部。
2.2数据处理流程:数据处理是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
2.3数据获取:如何从大数据中获取有价值的信息往往是行业领域对大数据技术最常见的诉求之一,而要想从大数据中获得有价值的信息,最基本的操作是数据获取。
2.4数据存储及数据仓库:数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式要采用什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。
2.5数据预处理:在工程实践中,得到的数据会存在有缺失值、重复值等,在使用之前需要进行数据预处理。数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同。
2.6模型构建与评估:针对不同的数据分析任务,构建不同的数据处理模型,如回归、聚类等模型。对模型的评估是指对模型泛化能力的评估,主要通过具体的性能度量指标来完成。
2.7数据可视化:数据可视化是关于数据视觉表现形式的科学技术研究。旨在借助于图形化手段,清晰有效地传达与沟通信息。数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。
[多选题]数据的多样性包括( )。

选项:[数据来源的多样性, 数据用途的多样性, 数据内容的多样性, 数据表达方式的多样性, 数据格式的多样性]
[单选题]最普通也是最常见的数据类型是( )。

选项:[文本, 视频数据, 音频数据, 图片]
[单选题]将不同数据源的数据自动收集到一个装置中是指( )。

选项:[数据清洗, 数据建模, 数据存储, 数据获取]
[单选题]数据分析,是指从海量的数据中利用数据挖掘的方法,获取有用的有价值的数据信息。

选项:[对, 错]
[多选题]数据量测方法有( )。

选项:[变化地点, 非接触式, 定时式, 接触式, 变化周期]
[单选题]直接附加存储的英文缩写是( )。

选项:[DAS, SAN, BAS, NAS]
[多选题]企业的数据处理大致分为( )。

选项:[分析性处理, 数据库处理, 测试性处理, 数据编辑, 操作性处理]
[多选题]数据仓库特点包括( )。

选项:[时变性, 面向主题, 历史性, 企业范围, 集成性]
[多选题]分箱方法包括( )。

选项:[用户自定义区间, 等宽分箱法, 递归, 回归, 等深分箱法]
[多选题]数据规约的途径包括( )。

选项:[特征值归约, 属性选择, 数据采样, 特征归约, 样本归约]

温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(0) dxwkbang
返回
顶部