在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
Pandas如何分块处理大文件?在处理快手的用户数据时,碰到600M的txt文本,用sublime打开蹦了,用pandas.read_table()去读竟然花了小2分钟,打开有3千万行数据。仅仅是打开,要处理的话不知得多费劲。
解决:读取文件的函数有两个参数:chunksize、iterator。原理分多次不一次性把文件数据读入内存中。
1.指定chunksize分块读取文件
read_csv 和 read_table 有一个 chunksize 参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的 TextFileReader 对象。
对文件进行了划分,分成若干个子文件分别处理(to_csv也同样有chunksize参数)
2.指定iterator=True
直接看pandas文档相关的内容。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据可视化相关工具介绍
大数据的实际应用中,有一个重要的环节,就是实现数据的可视化。这是数据分析结论导向的重要体现。你可以通过可视化的数据形式明晰的了解各种数据的分布以及占比,例如大数据招聘市场的分布、目前行业岗位薪资与学历的关系、大数据热门技术的应用比例等等。本文就和大家介绍一些大数据可视化的使用工具
8384
2019-08-09 18:04:01
数据分析四大误区 避坑指导
数据分析对于现代社会的影响无疑是巨大的,它在各行各业都得到的广泛应用。的确,数据分析可以帮助我们做出一些决断,以便于我们采取科学适当的行动。可是数据分析真的百分之百可靠吗?本文就来和大家谈谈数据分析的四大误区:选取的样本容量有误、 错判因果关系、忽略沉默用户、过度依赖数据。
5730
2019-08-15 11:07:52
大数据自学要多久?为什么零基础自学大数据那么久?
伴随着大数据时代的冲击,大数据开发相关的技术人才成为目前招聘市场炙手可热的高薪岗位,越来越多想要通过技术获得高薪工作的同学选择大数据技术方向。我们知道目前学习大数据可以通过自学或者参加培训两种方式,参加大数据培训一般5-6个月就可以掌握大数据技术,那自学大数据的话要多久呢?
6783
2020-09-14 15:56:48
大数据开发为什么要参加系统学习呢?
自从发展大数据产业被写入政府工作报告、BAT高薪聘请专业大数据人才之后,很多小白也开始纷纷转行进入大数据领域。很多的转型者都将参加培训机构看成是自己转型最高效的方式。
4059
2020-12-10 15:31:43
女生做大数据有发展前景吗?能学会吗?
当前大数据发展前景非常不错,且大数据领域对于人才类型的需求比较多元化,女生学习大数据也会有比较多的工作机会。大数据是一个交叉学科涉及到的知识量比较大学习有一定的难度,女生比较适合大数据采集和大数据分析方向的工作岗位。
4350
2021-03-18 16:38:32