原创 Pandas如何分块处理大文件？

发布时间：2020-08-14 16:16:47 浏览 6228 来源：博学谷作者：吾非鱼

　　Pandas如何分块处理大文件？在处理快手的用户数据时，碰到600M的txt文本，用sublime打开蹦了，用pandas.read_table()去读竟然花了小2分钟，打开有3千万行数据。仅仅是打开，要处理的话不知得多费劲。

　　解决：读取文件的函数有两个参数：chunksize、iterator。原理分多次不一次性把文件数据读入内存中。

　　1.指定chunksize分块读取文件

　　read_csv 和 read_table 有一个 chunksize 参数，用以指定一个块大小(每次读取多少行)，返回一个可迭代的 TextFileReader 对象。

指定chunksize分块读取文件
　　对文件进行了划分，分成若干个子文件分别处理(to_csv也同样有chunksize参数)

　　2.指定iterator=True

指定iterator=True
　　直接看pandas文档相关的内容。

大数据开发数据分析

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：数据可视化常用工具推荐下一篇：零基础能学大数据技术吗？学完能找到工作吗？

相关推荐 更多

大数据是什么？有什么巨大价值？

随着市场经济的不断发展以及互联网科技的快速提升，信息流通的价值也越来越大，马云曾指出我们即将进入DT的时代。因此大数据成为炙手可热的关键因素。大数据更像是矿藏，不只是因为他的量大，而更在于这些数据背后所带来的的价值以及利益。那大数据到底是什么？他的背后隐含着什么样的巨大价值呢？

8431

2019-08-09 18:04:03

大数据开发大数据技术大数据入门
大数据培训时间要多久？零基础多久能学会？

大数据近年来非常火爆，连带着大数据人才也十分紧缺。学习大数据，不管是发展前景还是就业前景都非常乐观，这促使很多人想加入到大数据的大军中。想要学习大数据，大数据培训不失为一个比较好的选择，但是大数据培训时间要多久？零基础多久能学会？其实主要是依据学员基础决定的。

9928

2019-07-09 18:21:06

大数据开发学习周期
数据中台对企业有哪些意义和作用？

随着数据化浪潮席卷全球，数据中台也由此应运而生。众所周知，数据中台的主要作用在于把数据进行统一标准和口径之后，再进行储存和加工，从而使企业可以提供更高效的服务。简单来讲，数据中台是以节省企业成本，实现精细化运营为目标。那么数据中台对企业到底有哪些具体意义和作用呢？下面我们来具体看一下。

8325

2020-02-10 22:29:52

大数据技术大数据开发
学大数据开发要掌握的基础知识有哪些？

大数据专业包含课程较多难度大对学习者的要求较高，从事大数据相关的岗位有平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘，不同的从业方向需要掌握的技能也不尽相同。

4223

2021-01-15 11:06:11

大数据开发零基础入门
女生做大数据有发展前景吗？能学会吗？

当前大数据发展前景非常不错，且大数据领域对于人才类型的需求比较多元化，女生学习大数据也会有比较多的工作机会。大数据是一个交叉学科涉及到的知识量比较大学习有一定的难度，女生比较适合大数据采集和大数据分析方向的工作岗位。

4592

2021-03-18 16:38:32

大数据开发就业前景