在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
什么是数据科学异常值检测原理?异常值的检测方法有基于统计的方法,基于聚类的方法,以及一些专门检测异常值的方法等。使用pandas,可以直接使用describe()来观察数据的统计性描述,或者简单使用散点图也能很清晰的观察到异常值的存在。

一、数据科学异常值检测前提
数据样本符合标准正态分布,正态分布的核心是中心极限定理即:如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。如果要符合正态分布则这些因素必须彼此独立,彼此不独立的各项因素会互相加强影响,那么就构不成正态分布。
二、数据科学异常值检测原理
标准正态分布下的曲线为钟型曲线,期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。因此对于一组数据,如果符合正态分布,则可以通过经验法则来检测异常值,同图中可以发现,68.2%的测量值落在μ值处正负一个标准差σ的区间内,95.4%的测量值将落在μ值处正负两个标准差σ的区间内,99.7%的值落在μ值处正负三个标准差σ的区间内。因此,对于一组符合正态分布的数据,如果某个值距离μ值超过三个标准差σ则可以判断这个值属于异常数据。

三、计算步骤
μ值:μ是遵从正态分布的随机变量的均值,由于前提是各种因素对结果的影响为相加,因此μ值的计算可以为样本数据的算术平均值。
标准差σ:所有数据减去其平均值的平方和,所得结果除以该组数之个数N(数据集为总体数据情况,一般用于大数据算法)或者个数N减1(数据集为样本数据情况,认为数据集不是总体数据而是总体数据的一部分,一般用于统计学),再把所得值开根号,所得之数就是这组数据的标准差。
判断逻辑:计算μ+3σ,μ-3σ,当单个数据大于μ+3σ或者小于μ-3σ时,认为此数据为异常值,因为按照经验法则,此数据在数据集的99.7%范围外。
首先理解数据科学异常值检测原理,掌握计算步骤,最终实现对数据科学异常值检测。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
数据分析对企业经营的作用和现实意义
大数据时代的浪潮,不仅改变着每个人个人的命运,同时为企业提供了更多的机会。在日常的企业经营中,我们往往会用到数据分析,那么数据分析对企业经营到底有多大的作用?又有哪些现实意义呢?
14224
2019-08-13 17:38:12
大数据在疫情中的应用场景分析
随着信息化数字时代的发展,大数据技术的应用场景越来越多,并且在我们的日常工作生活中发挥着越来越重要的作用。尤其是在这场声势浩大的新冠肺炎疫情中,大数据技术得到了充分的应用。具体的应用场景主要体现在三个方面:建立人口流动数据系统,追踪疫情最新进展以及共享公共信息平台。下面我们来看看具体的应用的分析。
22072
2020-02-24 11:05:01
大数据Apache Hadoop YARN 工作原理介绍
Apache Hadoop YARN是一种新的 Hadoop 资源管理器,通用资源管理系统可为上层应用提供统一的资源管理和调度,引入为集群在利用率、资源统一管理和数据共享等方面具有很强的优势。
6183
2020-04-27 14:27:28
为什么大数据技术那么火?
大数据技术的概念早在2008年被Google提出。在我国2012年提出《大数据研究和发展计划》,从此我国的开放、共享和只能的大数据时代正式开启。随着一线互联网企业在大数据领域的成熟应用,以及国内政策的支持。2016年,云计算大数据技术再次成为人们所追捧的热门技术,与此同时国内大数据人才培养体系逐渐完善,为大数据的普及应用提供源源不断的人才支撑。
4946
2020-09-15 17:36:12
ZooKeeper的节点类型有哪些?
ZooKeeper是个分布式开放源码的分布式应用程序协调服务,是Hadoop和Hbase的重要组件。ZooKeeper服务端支持7种节点类型分别是:持久、持久顺序、临时、临时顺序、容器、持久 TTL、持久顺序 TTL。
5715
2021-05-28 15:12:05
