在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
Pandas如何分块处理大文件?在处理快手的用户数据时,碰到600M的txt文本,用sublime打开蹦了,用pandas.read_table()去读竟然花了小2分钟,打开有3千万行数据。仅仅是打开,要处理的话不知得多费劲。
解决:读取文件的函数有两个参数:chunksize、iterator。原理分多次不一次性把文件数据读入内存中。
1.指定chunksize分块读取文件
read_csv 和 read_table 有一个 chunksize 参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的 TextFileReader 对象。

对文件进行了划分,分成若干个子文件分别处理(to_csv也同样有chunksize参数)
2.指定iterator=True

直接看pandas文档相关的内容。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据是什么?与数据之间有什么区别?
大数据是什么?从字面的理解我可以认为他是大量的数据,而在计算机网络领域则将大数据定义为需要更新处理模式才能具有更强的决策力,洞察发现力和流程优化能力来适应海量,高增长了和多样化的薪资资产。因此大数据不仅仅是在数据量的变化,好包括其增长速度以及多样化的特性。
15279
2019-06-06 15:48:59
Kylin开发教程为什么要学习Kylin?
大数据时代为互联网创造了更多的可能与机会。面对更多的就业岗位、更高的就业薪资、更具有创造性的工作内容,很多在职人群选择进一步学习,把握好数据时代为我们带来的重大机遇。然而优质课程资源稀缺,想要学习却找到好的途径成为大家面临的难题。今天博学谷小编就针对Kylin操作系统的技能提升为大家介绍一门《基于Kylin搞定千亿级电信数据分析》课程。
6938
2019-11-07 15:52:50
大数据开发工程师需要学习哪些知识点?
大数据开发工程师需要学习哪些知识点?大数据程序员需要有坚实的大数据技术理论基础、了解数据平台、掌握数据存储 HDFS、、日志解析及计算 MR、数据获取和预处理 Flume、结构化查询 Hive、数据获取和预处理 Sqoop、大数据调度框架Azkaban、Scala编程基础等相关知识。
8024
2020-09-03 14:13:34
转大数据技术开发要学哪些知识点?高效的大数据学习路线推荐
转大数据技术开发要学哪些知识点?高效的大数据学习路线推荐,以往的数据开发需要一定的Java基础和工作经验,门槛高,入门难。如果零基础入门数据开发行业的小伙伴从Python语言入手。Python语言简单易懂,适合零基础入门,在编程语言排名上升最快,能完成数据挖掘。
4511
2022-04-15 11:20:22
大数据的核心价值是什么? 本质是什么?
大数据的核心价值是什么? 其本质是量变产生了质变,其实问了这个问题,我们就已经能够知道,数据是真的具有价值的,并且价值不菲。那数据是今天才有的么? 为什么加上大字就有了无法估量的价值呢?
4455
2022-04-27 09:49:19
