在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
数据处理的工作时间占据了整个数据分析项目的70%以上。因此,数据的质量直接决定了分析模型的准确性。那么,数据预处理的方法有哪些呢?比如数据清洗、数据集成、数据规约、数据变换等,其中最常用到的是数据清洗与数据集成,下面小编将来详细介绍一下这2种方法。

1、数据清洗
数据清洗是通过填补缺失值,平滑或删除离群点,纠正数据的不一致来达到清洗的目的。简单来说,就是把数据里面哪些缺胳膊腿的数据、有问题的数据给处理掉。总的来讲,数据清洗是一项繁重的任务,需要根据数据的准确性、完整性、一致性、时效性、可信性和解释性来考察数据,从而得到标准的、干净的、连续的数据。
(1)缺失值处理
实际获取信息和数据的过程中,会存在各类的原因导致数据丢失和空缺。针对这些缺失值,会基于变量的分布特性和变量的重要性采用不同的方法。若变量的缺失率较高(大于80%),覆盖率较低,且重要性较低,可以直接将变量删除,这种方法被称为删除变量;若缺失率较低(小于95%)且重要性较低,则根据数据分布的情况用基本统计量填充(最大值、最小值、均值、中位数、众数)进行填充,这种方法被称为缺失值填充。对于缺失的数据,一般根据缺失率来决定“删”还是“补”。
(2)离群点处理
离群点(异常值)是数据分布的常态,处于特定分布区域或范围之外的数据通常被定义为异常或噪声。我们常用的方法是删除离群点。
(3)不一致数据处理
实际数据生产过程中,由于一些人为因素或者其他原因,记录的数据可能存在不一致的情况,需要对这些不一致数据在分析前进行清理。例如,数据输入时的错误可通过和原始记录对比进行更正,知识工程工具也可以用来检测违反规则的数据。
2、数据集成
随着大数据的出现,我们的数据源越来越多,数据分析任务多半涉及将多个数据源数据进行合并。数据集成是指将多个数据源中的数据结合、进行一致存放的数据存储,这些源可能包括多个数据库或数据文件。在数据集成的过程中,会遇到一些问题,比如表述不一致,数据冗余等,针对不同的问题,下面简单介绍一下该如何处理。
(1)实体识别问题
在匹配来自多个不同信息源的现实世界实体时,如果两个不同数据库中的不同字段名指向同一实体,数据分析者或计算机需要把两个字段名改为一致,避免模式集成时产生的错误。
(2)冗余问题
冗余是在数据集成中常见的一个问题,如果一个属性能由另一个或另一组属性“导出”,则此属性可能是冗余的。
(3)数据值的冲突和处理
不同数据源,在统一合并时,需要保持规范化,如果遇到有重复的,要去重。
本文介绍了两种最常见的数据预处理方法,实际操作中,我们拿到的数据可能包含了大量的缺失值、异常点等,非常不利于数据分析。这时需要我们对脏数据进行预处理,得到标准的、干净的、连续的数据,提供给数据分析、数据挖掘等使用。希望大家通过本文能对数据预处理有一个简单的了解,在数据处理时,能根据具体遇到的问题采取相应的方法。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
2019年大数据在各行业的应用 深度解析
如今,我们都生活在一个数字化的世界里,大数据的应用也变得越来越广泛,它深度改变着我们的生产生活方式。本文小编就来深度解析一下,2019年大数据在各行业的应用。这些行业都从大数据中获取了当下真正有价值的信息,从而极大地提高了生产效率。
9341
2019-07-22 18:00:56
你那么努力为什么还又穷又忙?数据分析直播课预告
如果说:“有什么事比穷更可怕?”那一定是“又穷又忙!”加班熬夜写方案,优化产品,留存率却不见提升;公众号文章不断优化,新增用户也是寥寥无几;社群不停维护,优惠不断增加,用户依然不买账;……
6861
2019-08-21 15:55:07
大数据应用技术的发展方向分析
如今,大数据的应用对企业公司以及个人都产生了深远影响,本文就来预测一下大数据应用技术的发展方向。可以预见的是,数据资产管理、数据资产管理、AI驱动的数据基础设施、面向AI的分布式计算框架和数据安全这些都将成为大数据应用技术的发展方向。对大数据应用技术感兴趣的小伙伴,可以接着往下看小编的的详细分析。
8439
2019-10-29 17:24:18
大数据技术的应用领域有哪些?
大数据技术逐渐成熟,已经在诸多领域得到了广泛的应用,随着5G时代的带来,数据化的企业运营成为企业优化产业结构、提升服务质量的奠基。在数据时代数据量迅速扩大、数据维度不断完善、数据分析的指导性更加明显。那大数据技术的应用领域有哪些呢?对于学习大数据技术的同学们而言,应该精准到哪些行业就业呢?
18391
2019-12-16 18:57:00
大数据批流处理之Lambda架构学习
大数据批流处理之Lambda架构,Lambda架构是当前大数据中批流处理方向影响最为深刻、应用最为广泛的架构。对于在云端的数据中心实现针对海量历史数据的批量计算及优化需要分别在云端、边缘端实现针对流数据的实时处理的场景。
6529
2022-03-02 10:17:27
热门文章
- 前端是什么
- 前端开发的工作职责
- 前端开发需要会什么?先掌握这三大核心关键技术
- 前端开发的工作方向有哪些?
- 简历加分-4步写出HR想要的简历
- 程序员如何突击面试?两大招带你拿下面试官
- 程序员面试技巧
- 架构师的厉害之处竟然是这……
- 架构师书籍推荐
- 懂了这些,才能成为架构师 查看更多
扫描二维码,了解更多信息
