在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
Pandas如何分块处理大文件?在处理快手的用户数据时,碰到600M的txt文本,用sublime打开蹦了,用pandas.read_table()去读竟然花了小2分钟,打开有3千万行数据。仅仅是打开,要处理的话不知得多费劲。
解决:读取文件的函数有两个参数:chunksize、iterator。原理分多次不一次性把文件数据读入内存中。
1.指定chunksize分块读取文件
read_csv 和 read_table 有一个 chunksize 参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的 TextFileReader 对象。
对文件进行了划分,分成若干个子文件分别处理(to_csv也同样有chunksize参数)
2.指定iterator=True
直接看pandas文档相关的内容。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据在电子商务的应用有哪些?
我们身处在一个大数据时代,随着近几年来,互联网服务的飞速发展,国内的互联网三大巨头之一的阿里,从好几年前就开始引入了大数据进行电子商务决策。那么到底大数据在电子商务的应用有哪些?具体来讲,电子商务行业的大数据应用有以下几个方面:精准营销、个性化服务、商品个性化推荐。
17163
2019-07-23 19:21:20
数据分析的行业前景如何?为什么要学习数据分析?
数据分析岗位一直存在,但是在大数据时代的快速发展过程中,数据分析再次成为焦点。企业对于数据分析的需求也越来越大。面对数据分析的高薪就业市场,依旧有很多小伙伴处在观望阶段,今天就和大家一起了解一下数据分析的行业前景如何,为什么要学习数据分析。
6764
2019-09-03 18:44:35
什么是数据分析?数据分析的概念理解
众所周知,数据分析已然成为我们生活和工作中必不可缺的一部分。我们常常在当下听到的数据分析被频繁的提及,但是你真的了解数据分析的意思吗?究竟什么是数据分析呢?简单来讲,数据分析离不开数据,计量和记录一起促成了数据的诞生。下面我们一起来看看数据分析的概念理解。
13782
2020-06-02 10:35:05
缓存如何分类?有什么区别?
缓存分类按照系统划分为应用级缓存和系统级别缓存;按照设计分本地缓存、分布式缓存、多级缓存。在技术界“缓存为王”,从浏览器到应用前端、应用后端、数据库,每一层都能通过缓存来提高系统的扩展能力,改善系统的响应能力同时减少系统的负担。
5329
2022-04-07 15:59:17
博学谷狂野大数据学习多长时间?
狂野大数核心课程以全程直播方式授课,共计330小时,如果每天能保证4小时的高效学习效率,需要学习3个月左右,因为每个人的学习情况不一样学习周期会有所差别。
3139
2022-09-16 15:31:26
热门文章
- 前端是什么
- 前端开发的工作职责
- 前端开发需要会什么?先掌握这三大核心关键技术
- 前端开发的工作方向有哪些?
- 简历加分-4步写出HR想要的简历
- 程序员如何突击面试?两大招带你拿下面试官
- 程序员面试技巧
- 架构师的厉害之处竟然是这……
- 架构师书籍推荐
- 懂了这些,才能成为架构师 查看更多
扫描二维码,了解更多信息
