零基础学Python:电子表格

一提到电子表格,可能立刻想到的是excel。殊不知,电子表格,还是“历史悠久”的呢,比word要长久多了。根据维基百科的记载整理一个简史:

从历史到现在,电子表格都很广泛的用途。所以,python也要操作一番电子表格,因为有的数据,或许就是存在电子表格中。

openpyl

openpyl模块是解决Microsoft Excel 2007/2010之类版本中扩展名是Excel 2010 xlsx/xlsm/xltx/xltm的文件的读写的第三方库。(差点上不来气,这句话太长了。)

安装

安装第三方库,当然用法力无边的pip install

$ sudo pip install openpyxl

如果最终看到下面的提示,恭喜你,安装成功。

Successfully installed openpyxl jdcal
Cleaning up...

workbook和sheet

第一步,当然是要引入模块,用下面的方式:

>>> from openpyxl import Workbook

接下来就用Workbook()类里面的方法展开工作:

>>> wb = Workbook()

请回忆Excel文件,如果想不起来,就打开Excel,我们第一眼看到的是一个称之为工作簿(workbook)的东西,里面有几个sheet,默认是三个,当然可以随意增删。默认又使用第一个sheet。

>>> ws = wb.active

每个工作簿中,至少要有一个sheet,通过这条指令,就在当前工作簿中建立了一个sheet,并且它是当前正在使用的。

还可以在这个sheet后面追加:

>>> ws1 = wb.create_sheet()

甚至,还可以加塞:

>>> ws2 = wb.create_sheet(1)

排在了第二个位置。

在Excel文件中一样,创建了sheet之后,默认都是以”Sheet1″、”Sheet2″样子来命名的,然后我们可以给其重新命名。在这里,依然可以这么做。

>>> ws.title = "python"

ws所引用的sheet对象名字就是”python”了。

此时,可以使用下面的方式从工作簿对象中得到sheet

>>> ws01 = wb['python']    #sheet和工作簿的关系,类似键值对的关系
>>> ws is ws01
True

或者用这种方式

>>> ws02 = wb.get_sheet_by_name("python")    #这个方法名字也太直接了,方法的参数就是sheet名字
>>> ws is ws02
True

整理一下到目前为止我们已经完成的工作:建立了工作簿(wb),还有三个sheet。还是显示一下比较好:

>>> print wb.get_sheet_names()
['python', 'Sheet2', 'Sheet1']

Sheet2这个sheet之所以排在了第二位,是因为在建立的时候,用了一个加塞的方法。这跟Excel中差不多少,如果sheet命名了,就按照那个名字显示,否则就默认为名字是”Sheet1″形状的(注意,第一个字母大写)。

也可以用循环语句,把所有的sheet名字打印出来。

>>> for sh in wb:
...     print sh.title
... 
python
Sheet2
Sheet1

如果读者去dir(wb)工作簿对象的属性和方法,会发现它具有迭代的特征__iter__方法。说明,工作簿是可迭代的。

cell

为了能够清楚理解填数据的过程,将电子表中约定的名称以下图方式说明:

对于sheet,其中的cell是它的下级单位。所以,要得到某个cell,可以这样:

b4 = ws['B4']

如果B4这个cell已经有了,用这种方法就是将它的值赋给了变量b4;如果sheet中没有这个cell,那么就创建这个cell对象。

请读者注意,当我们打开Excel,默认已经画好了好多cell。但是,在python操作的电子表格中,不会默认画好那样一个表格,一切都要创建之后才有。所以,如果按照前面的操作流程,上面就是创建了B4这个cell,并且把它作为一个对象被b4变量引用。

如果要给B4添加数据,可以这么做:

>>> ws['B4'] = 4444

因为b4引用了一个cell对象,所以可以利用这个对象的属性来查看其值:

>>> b4.value
4444

要获得(或者建立并获得)某个cell对象,还可以使用下面方法:

>>> a1 = ws.cell("A1")

或者:

>>> a2 = ws.cell(row = 2, column = 1)

刚才已经提到,在建立了sheet之后,内存中的它并没有cell,需要程序去建立。上面都是一个一个地建立,能不能一下建立多个呢?比如要类似下面的:

|A1|B1|C1|
|A2|B2|C2|
|A3|B3|C3|

就可以如同切片那样来操作:

>>> cells = ws["A1":"C3"]

可以用下面方法看看创建结果:

>>> tuple(ws.iter_rows("A1:C3"))
((<Cell python.A1>, <Cell python.B1>, <Cell python.C1>), 
 (<Cell python.A2>, <Cell python.B2>, <Cell python.C2>), 
 (<Cell python.A3>, <Cell python.B3>, <Cell python.C3>))

这是按照横向顺序数过来来的,即A1-B1-C1,然后下一横行。还可以用下面的循环方法,一个一个地读到每个cell对象:

>>> for row in ws.iter_rows("A1:C3"):
...     for cell in row:
...         print cell
... 
<Cell python.A1>
<Cell python.B1>
<Cell python.C1>
<Cell python.A2>
<Cell python.B2>
<Cell python.C2>
<Cell python.A3>
<Cell python.B3>
<Cell python.C3>

也可以用sheet对象的rows属性,得到按照横向顺序依次排列的cell对象(注意观察结果,因为没有进行范围限制,所以是目前sheet中所有的cell,前面已经建立到第四行了B4,所以,要比上面的操作多一个row):

>>> ws.rows
((<Cell python.A1>, <Cell python.B1>, <Cell python.C1>), 
 (<Cell python.A2>, <Cell python.B2>, <Cell python.C2>), 
 (<Cell python.A3>, <Cell python.B3>, <Cell python.C3>), 
 (<Cell python.A4>, <Cell python.B4>, <Cell python.C4>))

用sheet对象的columns属性,得到的是按照纵向顺序排列的cell对象(注意观察结果):

>>> ws.columns
((<Cell python.A1>, <Cell python.A2>, <Cell python.A3>, <Cell python.A4>), 
 (<Cell python.B1>, <Cell python.B2>, <Cell python.B3>, <Cell python.B4>), 
 (<Cell python.C1>, <Cell python.C2>, <Cell python.C3>, <Cell python.C4>))

不管用那种方法,只要得到了cell对象,接下来就可以依次赋值了。比如要将上面的表格中,依次填写上1,2,3,…

>>> i = 1
>>> for cell in ws.rows:
...     cell.value = i
...     i += 1


Traceback (most recent call last):
File ““, line 2, in
AttributeError: ‘tuple’ object has no attribute ‘value’

报错了。什么错误。关键就是没有注意观察上面的结果。tuple里面是以tuple为元素,再里面才是cell对象。所以,必须要“时时警醒”,常常谨慎。

>>> for row in ws.rows:
...     for cell in row:
...         cell.value = i
...         i += 1
...

如此,就给每个cell添加了数据。查看一下,不过要换一个属性:

>>> for col in ws.columns:
...     for cell in col:
...         print cell.value
... 
1
4
7
10
2
5
8
11
3
6
9
12

虽然看着有点不舒服,但的确达到了前面的要求。

保存

把辛苦工作的结果保存一下吧。

>>> wb.save("23401.xlsx")

如果有同名文件存在,会覆盖。

此时,可以用Excel打开这个文件,看看可视化的结果:

读取已有文件

如果已经有一个.xlsx文件,要读取它,可以这样来做:

>>> from openpyxl import load_workbook
>>> wb2 = load_workbook("23401.xlsx")
>>> print wb2.get_sheet_names()
['python', 'Sheet2', 'Sheet1']
>>> ws_wb2 = wb2["python"]
>>> for row in ws_wb2.rows:
...     for cell in row:
...         print cell.value
... 
1
2
3
4
5
6
7
8
9
10
11
12

很好,就是这个文件。

其它第三方库

针对电子表格的第三方库,除了上面这个openpyxl之外,还有别的,列出几个,供参考,使用方法大同小异。

下面两个用来处理.xls格式的电子表表格。

  • xlrd:网络文件:https://secure.simplistix.co.uk/svn/xlrd/trunk/xlrd/doc/xlrd.html?p=4966
  • xlwt:网络文件:http://xlwt.readthedocs.org/en/latest/