导读:本篇文章首席CTO笔记来给大家介绍有关python读取万级数据要多久的相关内容,希望对大家有所帮助,一起来看看吧。
用python编程读取TXT时,数据大概有1千万条,速度很慢如何解决?
两种可选的方式
1:使用yield的懒惰加载,示例代码如下:
123456789101112
def read_in_chunks(file_object, chunk_size=1024): \"\"\"Lazy function (generator) to read a file piece by piece. Default chunk size: 1k.\"\"\" while True: data = file_object.read(chunk_size) if not data: break yield data f = open(\'really_big_file.dat\')for piece in read_in_chunks(f): process_data(piece)
2:使用iter和一个帮助方法:
123456
f = open(\'really_big_file.dat\')def read1k(): return f.read(1024) for piece in iter(read1k, \'\'): process_data(piece)
推荐使用第一个。
要用python从几百万行数据的文件一行行读数据并计算,如何处理最快,哪位大牛可以指点一下
如果你的数据互相有关系的话,你就只能用readline一行完了之后再处理一行;
如果你的数据是每行不相干的,那你应该可以把文件分成几段,每段分配一个thread处理;
如果你的数据时每行不相干,而且你对数据的操作不很复杂的话,应该可以考虑用gpu来代替cpu并行处理。
python跑10000个数据集要多久
看具体采集任务的内容,如果是图片,访问地址规范,熟悉规则,也就是一两分钟的事情,如果是复杂网页,并且反爬规则负杂可能需要半个小时,如果类似从天眼查爬取整个公司信息10000个,可能需要一两天,因为一个公司就需要n多信息
Python存200w数据到数据库需要多久
Python存200w数据到数据库需要474秒,因为正常的三万八千条数据仅需要9秒,以此类推出200万需要的时间。
【python存数据库速度】
1、需要从文本中读取三万条数据写入mysql数据库,文件中为用@分割的sql语句,但是在读取的过程中发现速度过慢,三万八千条数据需要220秒,
2、经测试发现,影响速度的主要原因是commit(),因为没过几秒提交一次即可,但是因为提交的字符长度有限制,所以要设置一个合理的时间读取。
3、更改后,写入三万八千条数据仅需要9秒
结语:以上就是首席CTO笔记为大家介绍的关于python读取万级数据要多久的全部内容了,希望对大家有所帮助,如果你还想了解更多这方面的信息,记得收藏关注本站。
以上内容为新媒号(sinv.com.cn)为大家提供!新媒号,坚持更新大家所需的互联网后端知识。希望您喜欢!
版权申明:新媒号所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,不声明或保证其内容的正确性,如发现本站有涉嫌抄袭侵权/违法违规的内容。请发送邮件至 k2#88.com(替换@) 举报,一经查实,本站将立刻删除。