xlrd
该模块主要用来读取excel
注:sheet表示的是excel的表,就是底下的工作栏
(1) 打开excel文件并获取所有sheet
import xlrd # 打开Excel文件读取数据 data = xlrd.open_workbook('联系人.xls') sheet_name = data.sheet_names() # 获取所有sheet名称 print(sheet_name) # ['银行2', '银行3']
(2) 根据下标获取sheet名称
# 根据下标获取sheet名称 sheet2_name = data.sheet_names()[1] print(sheet2_name) # '银行3'
(3) 根据sheet索引或者名称获取sheet内容,同时获取sheet名称、行数、列数
# 根据sheet索引或者名称获取sheet内容,同时获取sheet名称、列数、行数 sheet2 = data.sheet_by_index(1) print('sheet2名称:{} sheet2列数: {} sheet2行数: {}'.format(sheet2.name, sheet2.ncols, sheet2.nrows)) # sheet2名称:银行3 # sheet2列数: 7 # sheet2行数: 5 sheet1 = data.sheet_by_name('银行2') print('sheet1名称:{} sheet1列数: {} sheet1行数: {}'.format(sheet1.name, sheet1.ncols, sheet1.nrows)) # sheet1名称:银行2 # sheet1列数: 8 # sheet1行数: 6
(4) 根据sheet名称获取整行和整列的值
# 根据sheet名称获取整行和整列的值 sheet1 = data.sheet_by_name('银行2') print(sheet1.row_values(3)) # ['', '张2', '开发', 'IT编码', 999.0, 133111.0, 41463.0, 'zhang2@164.com'] 日期2013/7/7,实际却显示为浮点数41463.0 print(sheet1.col_values(3)) # ['', '工作职责', '', 'IT编码', '网络维修', '']
(5)获取指定单元格的内容
# 获取指定单元格的内容 print(sheet1.cell(1,0).value) # 第2 行1列内容:机构名称 print(sheet1.cell_value(1,0)) # 第2 行1列内容:机构名称 print(sheet1.row(1)[0].value) # 第2 行1列内容:机构名称
(6)获取单元格内容的数据类型
# 获取单元格内容的数据类型 print(sheet1.cell(1,0).ctype) # 第2 行1列内容 :机构名称为string类型 print(sheet1.cell(3,4).ctype) # 第4行5列内容:999 为number类型 print(sheet1.cell(3,6).ctype) # 第4 行7列内容:2013/7/8 为date类型 # 说明:ctype : 0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error
(7)获取单元内容为日期类型的方式
使用xlrd的xldate_as_tuple处理为date格式
from datetime import datetime,date if sheet1.cell(3,6).ctype == 3 : print(sheet1.cell(3, 6).value) # 41463.0 date_value = xlrd.xldate_as_tuple(sheet1.cell(3, 6).value, data.datemode) print(date_value) # (2013, 7, 8, 0, 0, 0) print(date(*date_value[:3])) # 2013-07-08 print(date(*date_value[:3]).strftime('%Y/%m/%d')) # 2013/07/08
(8)获取单元内容为number的方式(转为整型)
if sheet1.cell(3, 5).ctype == 2: print(sheet1.cell(3, 5).value) # 133111.0 num_value = int(sheet1.cell(3, 5).value) print(num_value) # 133111
(9) 获取合并单元格的内容
需要merged_cells属性
# 这里,需要在读取文件的时候添加个参数,将formatting_info参数设置为True,默认是False,否 # 则可能调用merged_cells属性获取到的是空值。<br> data = xlrd.open_workbook('联系人.xls',formatting_info=True) sheet1 = data.sheet_by_name('银行2') print(sheet1.merged_cells) # [(0, 1, 0, 8), (2, 6, 0, 1)]<br> # merged_cells返回的这四个参数的含义是:(row,row_range,col,col_range),其中[row,row_range)包括row, # 不包括row_range,col也是一样,下标从0开始。 #(0, 1, 0, 8) 表示1列-8列合并 (2, 6, 0, 1)表示3行-6行合并<br> # 分别获取合并2个单元格的内容: print(sheet1.cell(0,0).value) # 银行2 print(sheet1.cell_value(2, 0)) # 银行2
规律 : 获取merge_cells返回的row和col低位的索引即可!
使用以下方法更加方便
merge_value = [] for (row,row_range,col,col_range) in sheet1.merged_cells: merge_value.append((row,col)) print(merge_value) # [(0, 0), (2, 0)] for v in merge_value: print(sheet1.cell(v[0], v[1]).value) # 银行2 # 银行2
封装:
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2019/11/8 17:38 # @File : excel_read.py import xlrd from datetime import date class ExcelRead(object): def __init__(self, dir, file): file_name = dir + file self.wb = xlrd.open_workbook(filename=file_name) # 打开文件 # 获取所有表格的名字 def get_sheet_names(self): return self.wb.sheet_names() # 通过索引获取表格 def get_sheet_by_index(self, index): """ :param index: 第几个表格 :return: 返回表格对象 """ return self.wb.sheet_by_index(index) # 通过名字获取表格 def get_sheet_by_name(self, name): """ :param name: 表格的名字 :return: 返回表格对象 """ return self.wb.sheet_by_name(name) # 获取表格名字,sheet为表格对象 def get_sheet_name(self, sheet): return sheet.name # 得到行数,sheet为表格对象 def get_sheet_nrows(self, sheet): return sheet.nrows # 得到列数,sheet为表格对象 def get_sheet_ncols(self, sheet): return sheet.ncols # 得到某一行的数据 def get_row_values(self, sheet, index): """ :param sheet: 表格对象 :param index: 第几行 :return: 某一行的数据 """ return sheet.row_values(index) # 得到某一列的数据 def get_col_values(self, sheet, index): """ :param sheet: 表格对象 :param index: 第几列 :return: 某一列的数据 """ return sheet.col_values(index) # 获取某个表格的内容 def get_cell_value(self, sheet, x, y): """ # print(sheet.cell_value(1, 0)) # print(sheet.row(1)[0].value) :param sheet: 表格对象 :param x: 第几行-1 :param y: 第几列-1 :return: 某个表格的内容 """ return sheet.cell(x, y).value # 获取表格里的内容,三种方式 # 获取单元格内容的数据类型 def get_cell_ctype(self, sheet, x, y): """ :param sheet: 表格对象 :param x: 第几行-1 :param y: 第几列-1 :return: 单元格内容的数据类型 说明:ctype : 0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error """ return sheet.cell(x, y).ctype # 获取单元内容为日期类型的方式 def get_cell_date(self, sheet, x, y, format=0): """ :param sheet: 表格对象 :param x: 第几行-1 :param y: 第几列-1 :param format: 返回的格式 1:2013-07-08 2:2013/07/08 :return: """ cell = sheet.cell(x, y) if cell.ctype == 3: date_value = xlrd.xldate_as_tuple(cell.value, self.wb.datemode) if format == 0: return date(*date_value[:3]) # 2013-07-08 if format == 1: return date(*date_value[:3]).strftime('%Y/%m/%d') # 2013/07/08