在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
什么是数据科学异常值检测原理?异常值的检测方法有基于统计的方法,基于聚类的方法,以及一些专门检测异常值的方法等。使用pandas,可以直接使用describe()来观察数据的统计性描述,或者简单使用散点图也能很清晰的观察到异常值的存在。
一、数据科学异常值检测前提
数据样本符合标准正态分布,正态分布的核心是中心极限定理即:如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。如果要符合正态分布则这些因素必须彼此独立,彼此不独立的各项因素会互相加强影响,那么就构不成正态分布。
二、数据科学异常值检测原理
标准正态分布下的曲线为钟型曲线,期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。因此对于一组数据,如果符合正态分布,则可以通过经验法则来检测异常值,同图中可以发现,68.2%的测量值落在μ值处正负一个标准差σ的区间内,95.4%的测量值将落在μ值处正负两个标准差σ的区间内,99.7%的值落在μ值处正负三个标准差σ的区间内。因此,对于一组符合正态分布的数据,如果某个值距离μ值超过三个标准差σ则可以判断这个值属于异常数据。
三、计算步骤
μ值:μ是遵从正态分布的随机变量的均值,由于前提是各种因素对结果的影响为相加,因此μ值的计算可以为样本数据的算术平均值。
标准差σ:所有数据减去其平均值的平方和,所得结果除以该组数之个数N(数据集为总体数据情况,一般用于大数据算法)或者个数N减1(数据集为样本数据情况,认为数据集不是总体数据而是总体数据的一部分,一般用于统计学),再把所得值开根号,所得之数就是这组数据的标准差。
判断逻辑:计算μ+3σ,μ-3σ,当单个数据大于μ+3σ或者小于μ-3σ时,认为此数据为异常值,因为按照经验法则,此数据在数据集的99.7%范围外。
首先理解数据科学异常值检测原理,掌握计算步骤,最终实现对数据科学异常值检测。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
零基础参加大数据培训就业前景好不好?
零基础参加大数据培训就业前景好不好?回答这个问题不能一概而论,要具体问题具体分析。就目前的大数据就业形势分析,大数据人才的缺口是相当大的。当然大数据并不是一个低门槛的技术岗位,因此一些零基础想要转行的朋友就必须通过系统正规的培训,在熟练掌握大数据核心技术的基础上,才能在竞争日渐激烈的就业市场中脱颖而出。因此,参加一个靠谱的培训课程的重要性毋庸置疑。
6475
2020-01-03 15:32:59
Flink电商项目实战介绍
随着Flink技术的飞速发展,Flink在实时处理数据方面体现出越来越显著的优势。Flink作为一个针对流数据和批数据的分布式处理引擎,其应用领域越来越广泛。本文将向大家介绍Flink电商项目实战教程,感兴趣的话就一起接着看下去吧~
6158
2020-05-11 14:58:14
大数据学习的基础知识
大数据学习的基础知识,随着互联网科技的发展,新型技术行业如人工智能等高科技领域人才需求不断扩大。其中大数据行业的发展前景也是相当好。导致很多人跟风报名,结果就是好多人哭喊大数据好难学。但是,大数据真的这么难吗?大数据基础学习内容是什么?大家不妨先了解一下再决定要不要继续学习。
4427
2020-06-12 15:58:59
ZooKeeper数据模型解析
ZooKeeper的数据模型采用树形层次结构,而Znode就是ZooKeeper树中的每个节点。和文件系统的目录树一样,ZooKeeper树中的每个节点可以拥有子节点。但也有不同之处: 比如Znode兼具文件和目录两种特点,而且它还具有原子性操作,存储数据大小也有限制。另外,Znode还是通过路径引用。下面我们来看看数据结构图、节点类型、节点属性以及ZooKeeper Watcher相关内容。
5731
2020-06-15 10:32:03
大数据学习之Kafka相关的基本原理学习
大数据学习之Kafka相关的基本原理学习,小编整理了Kafka 一些重要概念,让大家对 Kafka 有个系统的认知知,并详细的解析其中每个概念的作用以及更深入的原理
3514
2022-03-22 11:33:03