在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
Pandas如何分块处理大文件?在处理快手的用户数据时,碰到600M的txt文本,用sublime打开蹦了,用pandas.read_table()去读竟然花了小2分钟,打开有3千万行数据。仅仅是打开,要处理的话不知得多费劲。
解决:读取文件的函数有两个参数:chunksize、iterator。原理分多次不一次性把文件数据读入内存中。
1.指定chunksize分块读取文件
read_csv 和 read_table 有一个 chunksize 参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的 TextFileReader 对象。
对文件进行了划分,分成若干个子文件分别处理(to_csv也同样有chunksize参数)
2.指定iterator=True
直接看pandas文档相关的内容。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
了解前沿技术:大数据经典应用案例分享
目前国内大部分代行的企业已经将大数据充分的运用到原来的业务之中,对于哪些目前还在互联网转型甚至没有实现互联网+转型的企业来说,能否尽快布局大数据成为企业实现快速发展的核心问题。因此我们需要跟多的了解大数据到底都可以做什么。本文为大家分享了部分大数据应用成功案例。对于企业或者开发者都可以从中找到与自己实际工作业务相关的拓展思路。
9535
2019-07-22 16:28:07
大数据零基础入门书籍推荐
大数据零基础入门书籍推荐,如果你选择的大数据方向不同小编推荐的书籍也不同,下面主要介绍大数据工程师、数据分析师、数据挖掘工程师就业方向的大数据零基础入门书籍,如果你还没确定选什么方向,小编推荐黑马程序员初版的《Hadoop大数据技术原理与应用》比较适合初学者学习。
11208
2019-08-08 15:40:55
数据分析师获取数据的方式有哪些?
数据分析师工作的第一步就是获取数据,也就是数据采集。获取数据的方式有很多,本文将着重介绍一下数据分析中的数据来源。一般来讲,数据来源主要分为两大类,企业外部来源和内部来源。其中外部来源包括外部购买、网络爬取、免费开源数据等,内部数据来源包括销售数据、考勤数据、财务数据等。
7530
2020-08-07 18:19:53
吐血整理的大数据学习资源大全
大量学习资源,内容系统且全面,各大网站、相关书籍、公众号等。
3656
2022-08-05 18:32:12
数据分析行业到底有多卷
关于互联网行业就业难度的对比分析
3774
2022-08-05 18:32:05