• python pandas从excel中获取数据


    import pandas as pd
    from GZKT.produce import Common as util
    import sys

    util.logger('程序开始时间')

    #第一步:使用pandas读取excel
    io = pd.io.excel.ExcelFile('E://广东空调/test.xlsx')
    #第二步:以第二行作为列名
    data =pd.read_excel(io, sheetname='Sheet1',header=1)

    #第三步:修改列名
    data.rename(columns={data.columns[2]:'属性', data.columns[3]:'明细'}, inplace = True)

    #第四步:将日期列名放入列表,后面统一操作列表即可
    value_vars=[]
    for i in data.columns:
    if i.find('/') !=-1:
    value_vars.append(i)
    if i.find('Unnamed') != -1 or i.find('合计') != -1:
    #如果包含这些列就将其删除
    data.drop([i], axis=1, inplace=True)
    print('多余列删除成功')
    #print(data.columns)
    #第四步:针对指标值,进行空值替换,维度除外
    data[value_vars] = data[value_vars].fillna(0)

    #第五步:进行维度补充===>axis=1 代表对x轴操作,axis = 0 代表对y轴操作,limit参数表示填充多少个
    data = data.fillna(method='ffill',axis=1).fillna(method="ffill",axis=0)
    替换
    data = data.ffill(axis=1).ffill(axis=0)


    #第六步:删除没用的行,删除项目为差/变化点的行
    data.dropna(how='all',inplace=True) #删除所有列都是空的行
    data = data[~data.项目.isin(['差','变化点',''])]

    #第七步:对文字还有特殊字符的进行更正,df.assign(coloname=)对字段重新渲染
    data = data.assign(项目=data.项目.str.replace(' ',''))
    data = data.assign(属性=data.属性.str.replace(' ',''))
    data = data.assign(线体=data.线体.str.replace(' ',''))
    替换
    data[['项目', '属性', '线体']] = data[['项目', '属性', '线体']].apply(lambda x: x.str.replace('
    ', ''))


    #第八步:pd.melt列转行,将日期转成列,并且通过选中的value_vars,筛选指定列
    data = pd.melt(data, id_vars=['线体', '项目', '属性', '明细'],value_vars=value_vars, var_name='日期',value_name='指标值')

    #第九步,对字段顺序进行排序
    sortColumn= ['日期','线体', '项目', '属性', '明细','指标值']
    data=data.loc[:,sortColumn]
    util.logger('sql入库开始时间')

    #使用快速入库的方法
    # 方法一,比较慢
    # pd.io.sql.to_sql(data, 'PAPAGZ_PRODUCE_VISUAL_DATA', Common.getEngine(), if_exists='append', index=False)
    # 方法二
    util.getConn(data,'"PAPAGZ_PRODUCE_VISUAL_DATA"')

    util.logger('入库结束')
    util.logger('程序退出')
    sys.exit()



    #
    # 今天刚试to_sql 在oracle下特慢,后来发现其实慢是因为没设置to_sql的dtype参数 例如这样设置后就特别快了 估计快千百倍
    # def setdtypedict(df): dtypedict = {} for i, j in zip(df.columns, df.dtypes): if "object" in str(j): dtypedict.update({i: VARCHAR(256)}) if "float" in str(j): dtypedict.update({i: DECIMAL(19, 2)}) if "int" in str(j): dtypedict.update({i: DECIMAL(19)}) return dtypedict 使用 dtypedict = setdtypedict(df) pd.io.sql.to_sql(df, name=target_tab_name, con=conntarget, schema=schema, index = False, index_label = 'ID', if_exists='append',#fail append replace dtype=dtypedict, chunksize=10000)
    #




    函数:从一行中过滤信息
    def fun(df, keyList):
    df = pd.DataFrame
    reSer = pd.Series[]
    for i in range(len(df)):
    row = df.loc[i]
    for key in keyList:
    if key in row.values:
    return False
    return True

    --
    Common.py
    ---------------------

    from sqlalchemy import create_engine, engine
    import datetime
    from io import StringIO

    def getEngine():
    db_engine = create_engine('postgresql+psycopg2://'+'gpadmin'+':'+'gpadmin'+'@'+str('10.39.4.175') + '/' + 'pissh')
    return db_engine

    def getConn(df,table_name):
    #获取csvIO
    output = StringIO()
    # ignore the index
    df.to_csv(output, sep=' ', index = False, header = False)
    output.getvalue()
    output.seek(0)
    #获取连接
    engine = getEngine()
    connection = engine.raw_connection() #engine 是 from sqlalchemy import create_engine
    cursor = connection.cursor()
    cursor.copy_from(output,table_name ,null='')
    connection.commit()
    cursor.close()

    def logger(info):
    print('时间:',datetime.datetime.now(),':',info)




    欢迎对it热情的同学,加qq进行技术讨论; QQ:850922253
  • 相关阅读:
    【转】win32内核程序中进程的pid,handle,eprocess之间相互转换的方法
    (ring0)Windows内核根据PID获取进程全路径
    Windows虚拟地址转物理地址(原理+源码实现,附简单小工具)
    指向API的函数指针定义方法
    ListCtrl列表控件设置到指定位置(自滚动,该特性支持虚拟列表)
    【转】VS设置符号表
    物联网三层架构
    五种测试的区别
    CMMI将能力成熟度分为5个级别
    软件的4种维护(更正性、完善性、预防性、适应性)的区别
  • 原文地址:https://www.cnblogs.com/zhangwensi/p/11290352.html
Copyright © 2020-2023  润新知