在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
什么是数据科学异常值检测原理?异常值的检测方法有基于统计的方法,基于聚类的方法,以及一些专门检测异常值的方法等。使用pandas,可以直接使用describe()来观察数据的统计性描述,或者简单使用散点图也能很清晰的观察到异常值的存在。

一、数据科学异常值检测前提
数据样本符合标准正态分布,正态分布的核心是中心极限定理即:如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。如果要符合正态分布则这些因素必须彼此独立,彼此不独立的各项因素会互相加强影响,那么就构不成正态分布。
二、数据科学异常值检测原理
标准正态分布下的曲线为钟型曲线,期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。因此对于一组数据,如果符合正态分布,则可以通过经验法则来检测异常值,同图中可以发现,68.2%的测量值落在μ值处正负一个标准差σ的区间内,95.4%的测量值将落在μ值处正负两个标准差σ的区间内,99.7%的值落在μ值处正负三个标准差σ的区间内。因此,对于一组符合正态分布的数据,如果某个值距离μ值超过三个标准差σ则可以判断这个值属于异常数据。

三、计算步骤
μ值:μ是遵从正态分布的随机变量的均值,由于前提是各种因素对结果的影响为相加,因此μ值的计算可以为样本数据的算术平均值。
标准差σ:所有数据减去其平均值的平方和,所得结果除以该组数之个数N(数据集为总体数据情况,一般用于大数据算法)或者个数N减1(数据集为样本数据情况,认为数据集不是总体数据而是总体数据的一部分,一般用于统计学),再把所得值开根号,所得之数就是这组数据的标准差。
判断逻辑:计算μ+3σ,μ-3σ,当单个数据大于μ+3σ或者小于μ-3σ时,认为此数据为异常值,因为按照经验法则,此数据在数据集的99.7%范围外。
首先理解数据科学异常值检测原理,掌握计算步骤,最终实现对数据科学异常值检测。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据疑难解答 Hbase内部是什么机制?
众所周知,HBase是一个非关系型数据库,它的特征是分布式、列式存储、开源和版本化。无论是在大数据的面试中,还是大数据的工作中,这都是一个经常会出现的难题,然而却很少人能够说清Hbase内部机制。今天我们就花些时间聊聊Hbase内部是什么机制。
9028
2019-10-17 18:13:28
2020年大数据发展前景如何?
在2020年将看到越来越多的组织利用对象存储从非结构化数据创建结构化/标记数据,从而允许使用元数据来理解人工智能和机器工作负载生成数据。当数据变得足够大时,就会施加类似引力的力,使其难以移动,同时还可以吸引更多数据。
7296
2020-02-05 14:40:18
大数据课程有哪些实战项目?
随着大数据行业的蓬勃发展,就业市场对于大数据从业者也提出了更高的要求。为了培养出真正掌握大数据开发能力的人才,博学谷的大数据课程除了有大数据理论知识的系统学习,还有涉及各个领域的大数据开发实战项目。那么大数据课程有哪些实战项目呢?一起来看看吧!
8343
2020-07-21 16:16:30
推荐零基础学习大数据的10本经典图书
学习大数据并不是一蹴而就的事情,及时工作多年的开发工程师都需要不断的补充新鲜的知识内容。目前学习大数据知识可以通过视频和图书两种方式学习,视频的优势在于能够将老师的个人开发经验传授给学习者,而图书的优势在于能够随时翻阅,内容比较丰富。这里为大家推荐零基础学习大数据的8本经典图书,希望同学们能够通过不同的学习途径充分掌握大数据开发技能。
7146
2020-09-14 16:01:31
缓存是什么?为什么要使用缓存?
缓存是什么?为什么要使用缓存?缓存是将一些需要读取数据放在磁盘或者内存中,在读取数据的时候,一般是从关系型数据库中读取数据,缓存时能够最快提高服务响应速度的优化。
8809
2022-04-07 15:07:05
