在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
所谓数据挖掘就是从海量的数据中,找到隐藏在数据里有价值的信息。因为这个数据是隐式的,因此想要挖掘出来并不简单。那么,如何进行数据挖掘呢?数据挖掘的步骤有哪些呢?一般来讲,数据挖掘需要经历数据收集、数据可视化、数据预处理、准备模型输入以及训练模型五大步骤,下面让我们来详细分析一下吧!

第一步:数据收集
通俗来讲,我们把数据挖掘可以看作是想要炒一盘可口的菜肴。那么,首先第一步就是去菜市场买菜。同样的,我们要从数据中找到需要的信息,第一步就是收集数据。
第二步:数据可视化
就好比你去买菜的时候,肯定要好好挑选一下,争取买到比较新鲜的蔬菜。同样的,数据挖掘的第二个步骤,就是再有了数据之后,还要看看拿来的数据长啥样。因此,我们可以利用各种可视化库来观察一下数据的内容,比如matplotlib或seaborn。
第三步:数据预处理
买完菜回到家我们要做的就是洗菜,把附着的泥土和残枝烂叶去掉,不然会影响我们的口感。通过上一步的可视化,我们可以发现数据里面有没有“残枝烂叶”,也就是我们说的异常值。异常值包括格式有问题的数据,例如年龄信息填的不是数字,或者信息根本就不符合逻辑,比如年龄填的200岁。
大家填过各种调查问卷吧?很多人在填写的时候,遇到那些不是必须填的地方一般都会空着不填。这就导致数据集里除了异常值,还有一个经常会遇到的就是缺失值。我们也会通过一些手段来弥补一下这些空缺。就好比我们把蔬菜清洗干净之后,还要选择一下是不是所有的菜我们都需要呢?想吃蔬菜的可以多放蔬菜,想吃肉的就多放些肉。所以我们还需要在数据里选择出来跟我们的任务相关的特征,这个过程叫做特征选择。
第四步:准备模型输入
我们此时案板上放着我们洗干净和挑选出来的蔬菜,下一步就是切菜了。毕竟炒土豆丝也没有把一整个土豆直接放锅里的。所以我们要对这些蔬菜,也就是数据,进行一个转化。这个过程我们运用到独热编码和分桶,分别是对离散型数据和连续型数据的处理方式。
第五步:训练模型
最后一步就是炒菜啦。我们的模型就是不同种类的锅,在数据挖掘中常见的模型翻来覆去就那么几个,比如决策树,逻辑回归,梯度提升树,k-means等。一般来讲,比较有代表性的两个模型是逻辑回归和决策树,可以预测“是否会幸存”。其他的模型只是内部原理不同,但使用方法都是一样的。大家在进行数据挖掘的时候,也可以选择若干模型,最后看看结果分别都怎么样,对比一下谁比较强。
以上就是数据挖掘比较详细的步骤分析。目前,市面上已经有很多的数据挖掘软件可以供我们使用,几乎不需要写任何代码,例如Orange、Weka等。大家也可以多试用一下那些软件~
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
5分钟掌握Hadoop环境搭建流程
Hadoop是大数据技术的基础,它在大数据技术体系中的地位是非常重要的。目前Hadoop是主流的分布式系统基础架构之一,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。所以对于Hadoop基础知识的掌握的扎实程度,会决定你在大数据技术道路上走多远。首先我们来学习一下Hadoop环境搭建流程吧。
8153
2019-08-14 10:19:35
大数据面试:数据仓库工具hive面试题集锦
进入DATE时代,大数据技术成为互联网发展的核心要素之一。与此同时大数据开发工程师的薪资也成为行业内高薪的代表。想从事大数据开发需要掌握多种核心技术:Hadoop、Hive、Storm、Spark、Scala等等。而且这些技术知识点已经成为大数据工程师进入职场时面试中必备的考点。这里主要和大家分享一下数据仓库工具hive相关的面试题!
17127
2019-07-05 17:30:53
大数据面试题 Spark知识点汇总
Spark是一个实现快速通用的集群计算平台,它是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。在大数据库架构中常常需要使用Spark,Spark的知识点一直也是大数据面试题的重点,本文整理了Spark知识点汇总,现在就和大家一起梳理下吧!
8303
2019-07-25 15:33:51
大数据分析培训课程靠谱吗?主要课程内容是什么?
大数据分析是目前国内各行各业都非常关注的一个岗位,通过对大数据的挖掘分析,不仅仅能为企业提供有商业价值的重大决策,同时也可以优化企业运营生产过程中的过度消耗以及资源匹配不均等等现象。因此大量的技术人员开始进入大数据分析的相关领域学习,那现在市面上常见的大数据分析培训课程靠谱吗?大数据分析培训课程主要学习哪些知识?
8691
2019-08-23 18:33:37
Flink电商项目实战介绍
随着Flink技术的飞速发展,Flink在实时处理数据方面体现出越来越显著的优势。Flink作为一个针对流数据和批数据的分布式处理引擎,其应用领域越来越广泛。本文将向大家介绍Flink电商项目实战教程,感兴趣的话就一起接着看下去吧~
6479
2020-05-11 14:58:14
