在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创数据预处理的方法有哪些？

发布时间：2020-08-11 10:14:41 浏览 12625 来源：博学谷作者：照照

数据处理的工作时间占据了整个数据分析项目的70%以上。因此，数据的质量直接决定了分析模型的准确性。那么，数据预处理的方法有哪些呢？比如数据清洗、数据集成、数据规约、数据变换等，其中最常用到的是数据清洗与数据集成，下面小编将来详细介绍一下这2种方法。

数据预处理的方法

1、数据清洗

数据清洗是通过填补缺失值，平滑或删除离群点，纠正数据的不一致来达到清洗的目的。简单来说，就是把数据里面哪些缺胳膊腿的数据、有问题的数据给处理掉。总的来讲，数据清洗是一项繁重的任务，需要根据数据的准确性、完整性、一致性、时效性、可信性和解释性来考察数据，从而得到标准的、干净的、连续的数据。

（1）缺失值处理

实际获取信息和数据的过程中，会存在各类的原因导致数据丢失和空缺。针对这些缺失值，会基于变量的分布特性和变量的重要性采用不同的方法。若变量的缺失率较高（大于80%），覆盖率较低，且重要性较低，可以直接将变量删除，这种方法被称为删除变量；若缺失率较低（小于95%）且重要性较低，则根据数据分布的情况用基本统计量填充（最大值、最小值、均值、中位数、众数）进行填充，这种方法被称为缺失值填充。对于缺失的数据，一般根据缺失率来决定“删”还是“补”。

（2）离群点处理

离群点（异常值）是数据分布的常态，处于特定分布区域或范围之外的数据通常被定义为异常或噪声。我们常用的方法是删除离群点。

（3）不一致数据处理

实际数据生产过程中，由于一些人为因素或者其他原因，记录的数据可能存在不一致的情况，需要对这些不一致数据在分析前进行清理。例如，数据输入时的错误可通过和原始记录对比进行更正，知识工程工具也可以用来检测违反规则的数据。

2、数据集成

随着大数据的出现，我们的数据源越来越多，数据分析任务多半涉及将多个数据源数据进行合并。数据集成是指将多个数据源中的数据结合、进行一致存放的数据存储，这些源可能包括多个数据库或数据文件。在数据集成的过程中，会遇到一些问题，比如表述不一致，数据冗余等，针对不同的问题，下面简单介绍一下该如何处理。

（1）实体识别问题

在匹配来自多个不同信息源的现实世界实体时，如果两个不同数据库中的不同字段名指向同一实体，数据分析者或计算机需要把两个字段名改为一致，避免模式集成时产生的错误。

（2）冗余问题

冗余是在数据集成中常见的一个问题，如果一个属性能由另一个或另一组属性“导出”，则此属性可能是冗余的。

（3）数据值的冲突和处理

不同数据源，在统一合并时，需要保持规范化，如果遇到有重复的，要去重。

本文介绍了两种最常见的数据预处理方法，实际操作中，我们拿到的数据可能包含了大量的缺失值、异常点等，非常不利于数据分析。这时需要我们对脏数据进行预处理，得到标准的、干净的、连续的数据，提供给数据分析、数据挖掘等使用。希望大家通过本文能对数据预处理有一个简单的了解，在数据处理时，能根据具体遇到的问题采取相应的方法。

大数据技术数据分析

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：数据挖掘的步骤有哪些？下一篇：学大数据有哪些高薪工作可以选？

相关推荐 更多

常用的数据分析方法论有哪些？

很多人在做数据分析时，经常遇到这几个难题：应该从哪方面入手开展分析；分析的内容和指标常常被质疑是否合理、完整，而自己也说不出个所以然来。因此当大家在做数据分析的时候，如果根据数据分析方法论的指导，就不会出现逻辑混乱、南辕北辙的情况。常用的数据分析方法论如下：

14136

2019-07-03 17:11:17

数据分析
仅会使用Excel能做数据分析师吗？

数据分析师就是在各行各业中与数据打交道的重要岗位。为企业提供数据采集、数据处理、数据分析并制作相关业务报告、提供业务决策、管理企业数据资产等服务。那仅会使用Excel，能做数据分析师吗？

10340

2019-08-08 18:06:48

软件工具数据分析数据挖掘
大数据测试的发展和困境分析

随着大数据技术的日益深入发展，大数据测试应运而生。可以预见，大数据测试将成为软件测试工程师的发展目标之一。可能对于许多人来讲，大数据测试还是一个十分陌生的概念。实际上，大数据测试不同于传统的软件测试，在测试类型、策略和工具上，都有很大的不同。本文将为大家仔细分析一下大数据测试的发展和困境，下面我们一起来看看！

9262

2020-03-03 23:44:15

大数据技术大数据开发
Hadoop入门基础知识总结

大数据时代的浪潮袭来，Hadoop作为一种用来处理海量数据分析的工具，是每一个大数据开发者必须要学习和掌握的利器。本文总结了Hadoop入门基础知识，主要包括了Hadoop概述、Hadoop的发展历程和Hadoop的特性。下面一起来看看吧！

8125

2020-06-18 10:14:31

大数据技术大数据入门软件工具
什么是大数据系统存储及管理？

根据数据存储和管理的内容范围，大数据存储及管理技术需要重点研究如何解决大数据的可存储、可表示、可处理、可靠性及有效传输等。需要解决：海量文件的存储与管理，海量小文件的传输、索引和管理，海量大文件的分块与存储，系统可扩展性与可靠性的问题。

8589

2020-12-01 14:32:47

大数据技术