在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
Pandas如何分块处理大文件?在处理快手的用户数据时,碰到600M的txt文本,用sublime打开蹦了,用pandas.read_table()去读竟然花了小2分钟,打开有3千万行数据。仅仅是打开,要处理的话不知得多费劲。
解决:读取文件的函数有两个参数:chunksize、iterator。原理分多次不一次性把文件数据读入内存中。
1.指定chunksize分块读取文件
read_csv 和 read_table 有一个 chunksize 参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的 TextFileReader 对象。
对文件进行了划分,分成若干个子文件分别处理(to_csv也同样有chunksize参数)
2.指定iterator=True
直接看pandas文档相关的内容。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据是什么?有什么巨大价值?
随着市场经济的不断发展以及互联网科技的快速提升,信息流通的价值也越来越大,马云曾指出我们即将进入DT的时代。因此大数据成为炙手可热的关键因素。大数据更像是矿藏,不只是因为他的量大,而更在于这些数据背后所带来的的价值以及利益。那大数据到底是什么?他的背后隐含着什么样的巨大价值呢?
6442
2019-08-09 18:04:03
大数据技术是什么专业?前景如何
大数据技术是什么专业?大数据浪潮下,大数据技术是信息领域的革命,更是在全球领域内加速企业创新,社会变革的技术。大数据能给企业创造商业价值。使用大数据技术解决企业难题难题,灵活、快速、高效地响应瞬息万变的市场需求。
7530
2020-07-17 17:10:55
成为数据工程师需要具备哪些技能?
数据工程工作存在于各个行业,在银行业、医疗保健业、大型科技企业、初创企业和其他行业找到工作机会。许多职位描述要求数据工程师、拥有数学或工程学位,但如果有合适的经验学位往往没那么重要。
4269
2021-03-23 16:36:52
转大数据技术开发要学哪些知识点?高效的大数据学习路线推荐
转大数据技术开发要学哪些知识点?高效的大数据学习路线推荐,以往的数据开发需要一定的Java基础和工作经验,门槛高,入门难。如果零基础入门数据开发行业的小伙伴从Python语言入手。Python语言简单易懂,适合零基础入门,在编程语言排名上升最快,能完成数据挖掘。
2208
2022-04-15 11:20:22
大数据广泛用于预测交通和避免事故效果如何?
大数据广泛用于预测交通和避免事故效果如何?通过大数据和汽车技术的大规模投资和发展,减少道路交通事故造成的死亡和受伤人数这一目标似乎是可能的。目前,大数据和高级分析的主要用例之一是使用数据来提高道路和车辆的安全性。
2327
2022-04-29 11:23:18