在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
什么是数据科学异常值检测原理?异常值的检测方法有基于统计的方法,基于聚类的方法,以及一些专门检测异常值的方法等。使用pandas,可以直接使用describe()来观察数据的统计性描述,或者简单使用散点图也能很清晰的观察到异常值的存在。

一、数据科学异常值检测前提
数据样本符合标准正态分布,正态分布的核心是中心极限定理即:如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。如果要符合正态分布则这些因素必须彼此独立,彼此不独立的各项因素会互相加强影响,那么就构不成正态分布。
二、数据科学异常值检测原理
标准正态分布下的曲线为钟型曲线,期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。因此对于一组数据,如果符合正态分布,则可以通过经验法则来检测异常值,同图中可以发现,68.2%的测量值落在μ值处正负一个标准差σ的区间内,95.4%的测量值将落在μ值处正负两个标准差σ的区间内,99.7%的值落在μ值处正负三个标准差σ的区间内。因此,对于一组符合正态分布的数据,如果某个值距离μ值超过三个标准差σ则可以判断这个值属于异常数据。

三、计算步骤
μ值:μ是遵从正态分布的随机变量的均值,由于前提是各种因素对结果的影响为相加,因此μ值的计算可以为样本数据的算术平均值。
标准差σ:所有数据减去其平均值的平方和,所得结果除以该组数之个数N(数据集为总体数据情况,一般用于大数据算法)或者个数N减1(数据集为样本数据情况,认为数据集不是总体数据而是总体数据的一部分,一般用于统计学),再把所得值开根号,所得之数就是这组数据的标准差。
判断逻辑:计算μ+3σ,μ-3σ,当单个数据大于μ+3σ或者小于μ-3σ时,认为此数据为异常值,因为按照经验法则,此数据在数据集的99.7%范围外。
首先理解数据科学异常值检测原理,掌握计算步骤,最终实现对数据科学异常值检测。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
云计算的基本特征是什么?云计算的七大特征总结
云计算的基本特征是什么?在回答这个问题之前,我们先来看看云计算的概念。云计算简单来说,就是不被地域所限制,向用户提供实现大规模计算的软件服务。因此云计算的基本特征主要要以下几点,即资源池化、快速弹性、灵活便捷性、可靠性强、高性价比和可扩展性。接下来小编将为大家依次总结云计算的七大特征,大家一起来看看吧!
15652
2020-01-11 16:01:15
2020年云计算和容器的发展趋势如何?
2020年,混合云将解决企业现存问题,托管服务和供应商锁定的争论也愈演愈烈。越来越多的应用程序将分别部署在两个或更多的公共云中。中小企业将采用经常性收入业务模型。公共云的采用将增加,并使企业更容易利用其他新技术。
6655
2020-02-05 15:08:00
影响大数据与分析的因素有哪些?
数据分析在数据库内进行索引和分析,并且企业拥有确保数据可以移至正确位置的工具。借助现代商业智能技术使答案更接近于业务用户。寻找、清查和综合分布广泛且多样化的数据资产。算法将有助于分析系统对数据进行指纹识别、发现异常和洞察,并提出应与之一起分析的新数据。
8831
2020-02-14 16:32:23
常见的推荐算法原理介绍
随着互联网的发展短视频运营越来越精准化,我们身边常见的抖音、火山小视频等软件让你刷的停不下来,这些软件会根据你的浏览行为推荐你感兴趣的相关内容,这就用到了很多推荐算法在里面。
6010
2021-06-02 15:20:21
Kafka的优势有哪些?经常应用在哪些场景?
Kafka的优势有哪些?经常应用在哪些场景?Kafka的优势比较多如多生产者无缝地支持多个生产者、多消费者、基于磁盘的数据存储、具有伸缩性、高性能轻松处理巨大的消息流。多用于开发消息系统,网站活动追踪、日志聚合、流处理等方面。今天我们一起来学习一下吧!
4244
2022-03-22 15:11:36
