• python 使用流式游标 读取mysql怎么不会内存溢出


    使用过java读取mysql大数据量的人应该都知道,如果查询时不开游标不设置一次性区大小的话,会一次性的把所有记录都拉取过来再进行后续操作,数据量一大就很容易出现OOM
    如果用python去读取mysql也会遇到同样的问题
    那么这么在python中来设置使用游标呢
    也很简单
    这里使用pymysql来举例子
    普通创建mysql链接是这样的
    import pymysql db = pymysql.connect("localhost","user","password","dbname" )  cursor = db.cursor() sql = "select * from xxx"try:   cursor.execute(sql)   results = cursor.fetchall()   for row in results:      xxx....except:   pass db.close()
    想用游标来控制数据拉取的话,只需要稍加修改就可以
    import pymysql db = pymysql.connect("localhost","user","password","dbname",cursorclass=pymysql.cursors.SSCursor )  cursor = db.cursor() sql = "select * from xxx"try:   cursor.execute(sql)   result = cursor.fetchone()   while True:      if result:         xxx....         result = cursor.fetchone()      else:         breakexcept:   pass db.close()
    这是一条一条读,当然也可以通过设置fetch的大小来一次读一定量的条数
     
    我们来看看cursorclass这个参数是怎么说的
    默认值是Cursor,返回的数据是元组形式的
    DictCursor,除了返回是词典形式外,其他的与Cursor都相同
    SSCursor,是服务端游标,结果集合储存在服务端并且传输行数通过fetch控制,其他与Cursor相同,最好只用在处理很大的数据结果集合上
    SSDictCursor,除了返回是词典形式外,其他的与SSCursor相同
     

    这里有两点需要注意下:

    1. 使用pymysql.cursors.SSCursor代替默认的cursor。可以使用以上代码,或者这样写:conn.cursor(pymysql.cursors.SSCursor)
    2. 使用fetchone去每次只获得一行,别使用fetchall。也可以使用fetchmay,但是这样其实是多次调用fetchone。

    对于SSCursor有一个错误的理解,就是SSCursor是服务端一次性读出所有数据然后一条一条返给客户端,其实不是这样的,这个cursor实际上没有缓存下来任何数据,它不会读取所有所有到内存中,它的做法是从储存块中读取记录,并且一条一条返回给你。这里有一个更适合的名字:流式游标。

    因为SSCursor是没有缓存的游标,这里有几条约束:

    1. 这个connection只能读完所有行之后才能处理其他sql。如果你需要并行执行sql,在另外一个connection中执行,否则你会遇到 error 2014 , "Commands out of sync; you can't run this command now."
    2. 必须一次性读完所有行,每次读取后处理数据要快,不能超过60s,否则mysql将会断开这次连接( error2013 , “Lost connection to MySQL server during query),也可以修改 SET NET_WRITE_TIMEOUT = xx 来增加超时间隔。

    参考:Techualization: Retrieving million of rows from MySQL(原文更加详细)



    整理自:
    https://www.jianshu.com/p/80b81a68fd72
    https://blog.csdn.net/cowcomic/article/details/82988178
  • 相关阅读:
    在zookeeper集群的基础上,搭建伪solrCloud集群
    Spring Data Solr操作solr的简单案例
    solr的客户端操作:使用solrj进行curd操作
    solr配置相关:约束文件及引入ik分词器
    solr的简单部署:在tomcat中启动slor
    Lucene的查询及高级内容
    淘淘商城部署文档
    服务器负载均衡的部署方式
    反向代理和负载均衡有何区别?
    毕向东_Java基础视频教程第21天_IO流(1)
  • 原文地址:https://www.cnblogs.com/xibuhaohao/p/10871104.html
Copyright © 2020-2023  润新知