零基础学Python:编写模块

在本章之前，Python还没有显示出太突出的优势。本章开始，读者就会越来越感觉到Python的强大了。这种强大体现在“模块自信”上，因为Python不仅有很强大的自有模块（或者包、库，比如为标准库），还有海量的第三方模块（或者包、库），任何人还都能自己开发模块（或者包、库），正是有了这么强大的“模块自信”，才体现了Python的优势所在。并且这种方式也正在不断被更多其它语言所借鉴。

“模块自信”的本质是：开放。

Python不是一个封闭的体系，是一个开放系统。开放系统的最大好处就是避免了“熵增”。

回忆过去

在本教程的《语句(1)》中，曾经介绍了import语句，有这样一个例子：

>>> import math
>>> math.pow(3,2)
9.0

这里的math就是一个库，用import引入这个库，然后可以使用库里面的函数，比如这个pow()函数。显然，这里我们是不需要自己动手写具体函数的，我们的任务就是拿过来使用。这就是库的好处：拿过来就用，不用自己重写。

请读者注意，到现在为止，我们看到了模块、库、包这些名词，并且在开发实践中，也会常常遇到。它们有区别吗？有！只不过，现在我们暂时不区分，就笼统地说，阅读下面的内容，就理解它们之间的区分了。

模块是程序

这个标题，一语道破了模块的本质，它就是一个扩展名为.py的Python程序。我们能够在应该使用它的时候将它引用过来，节省精力，不需要重写雷同的代码。

但是，如果我自己写一个.py文件，是不是就能作为模块import过来呢？还不那么简单。必须得让Python解释器能够找到你写的模块。比如：在某个目录中，我写了这样一个文件：

#!/usr/bin/env python
# coding=utf-8

lang = "python"

并把它命名为pm.py，那么这个文件就可以作为一个模块被引入。不过由于这个模块是我自己写的，Python解释器并不知道，我得先告诉它我写了这样一个文件。

>>> import sys
>>> sys.path.append("~/Documents/VBS/StartLearningPython/2code/pm.py")

用这种方式就是告诉Python解释器，我写的那个文件在哪里。在这个告诉方法中，也用了Python标准库中的sys，即import sys，不过由于sys是Python被安装的时候就有的，所以不用特别告诉，Python解释器就知道它在哪里了。

上面那个一长串的地址，是Ubuntu系统的地址格式，如果读者使用的windows系统，请写你所保存的文件路径。

>>> import pm
>>> pm.lang
'python'

本来在pm.py文件中，有一个变量lang = "python"，这次它作为模块引入（注意作为模块引入的时候，不带扩展名），就可以通过模块名字来访问变量pm.py，当然，如果不存在的属性这么去访问，肯定是要报错的。

>>> pm.xx
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'module' object has no attribute 'xx'

请读者回到pm.py文件的存储目录，是不是多了一个扩展名是.pyc的文件？如果不是，你那个可能是外星人用的Python。

不少人喜欢将这个世界简化简化再简化。比如人，就分为好人还坏人，比如编程语言就分为解释型和编译型，不但如此，还将两种类型的语言分别贴上运行效率高低的标签，解释型的运行速度就慢，编译型的就快。一般人都把Python看成解释型的，于是就得出它运行速度慢的结论。不少人都因此上当受骗了，认为Python不值得学，或者做不了什么“大事”。这就是将本来复杂的多样化的世界非得划分为“黑白”的结果。这种喜欢用“非此即彼”的思维方式考虑问题的现象可以说在现在很常见，比如一提到“日本人”，除了苍老师，都该杀，这基本上是小孩子的思维方法，可惜在某国大行其道。

世界是复杂的，“敌人的敌人就是朋友”是幼稚的，“一分为二”是机械的。当然，苍老师是德艺双馨的，无可辩驳、毋庸置疑。

就如同刚才看到的那个.pyc文件一样，当Python解释器读取了.py文件，先将它变成由字节码组成的.pyc文件，然后这个.pyc文件交给一个叫做Python虚拟机的东西去运行（那些号称编译型的语言也是这个流程，不同的是它们先有一个明显的编译过程，编译好了之后再运行）。如果.py文件修改了，Python解释器会重新编译，只是这个编译过程不是完全显示给你看的。

我这里说的比较笼统，要深入了解Python程序的执行过程，可以阅读这篇文章：说说Python程序的执行过程

总之，有了.pyc文件后，每次运行，就不需要从新让解释器来编译.py文件了，除非.py文件修改了。这样，Python运行的就是那个编译好了的.pyc文件。

是否还记得，我们在前面写有关程序，然后执行，常常要用到if __name__ == "__main__"。那时我们写的.py文件是来执行的，这时我们同样写了.py文件，是作为模块引入的。这就得深入探究一下，同样是.py文件，它是怎么知道是被当做程序执行还是被当做模块引入？

为了便于比较，将pm.py文件进行改造，稍微复杂点。

#!/usr/bin/env python
# coding=utf-8

def lang():
    return "python"

if __name__ == "__main__":
    print lang()

如以前做的那样，可以用这样的方式：

$ python pm.py
python

但是，如果将这个程序作为模块，导入，会是这样的：

>>> import sys
>>> sys.path.append("~/Documents/VBS/StarterLearningPython/2code/pm.py")
>>> import pm
>>> pm.lang()
'python'

因为这时候pm.py中的函数lang()就是一个属性：

>>> dir(pm)
['__builtins__', '__doc__', '__file__', '__name__', '__package__', 'lang']

同样一个.py文件，可以把它当做程序来执行，还可以将它作为模块引入。

>>> __name__
'__main__'
>>> pm.__name__
'pm'

如果要作为程序执行，则__name__ == "__main__"；如果作为模块引入，则pm.__name__ == "pm"，即变量__name__的值是模块名称。

用这种方式就可以区分是执行程序还是作为模块引入了。

在一般情况下，如果仅仅是用作模块引入，可以不写if __name__ == "__main__"。

模块的位置

为了让我们自己写的模块能够被Python解释器知道，需要用sys.path.append("~/Documents/VBS/StarterLearningPython/2code/pm.py")。其实，在Python中，所有模块都被加入到了sys.path里面了。用下面的方法可以看到模块所在位置：

>>> import sys
>>> import pprint
>>> pprint.pprint(sys.path)
['',
 '/usr/local/lib/python2.7/dist-packages/autopep8-1.1-py2.7.egg',
 '/usr/local/lib/python2.7/dist-packages/pep8-1.5.7-py2.7.egg',
 '/usr/lib/python2.7',
 '/usr/lib/python2.7/plat-i386-linux-gnu',
 '/usr/lib/python2.7/lib-tk',
 '/usr/lib/python2.7/lib-old',
 '/usr/lib/python2.7/lib-dynload',
 '/usr/local/lib/python2.7/dist-packages',
 '/usr/lib/python2.7/dist-packages',
 '/usr/lib/python2.7/dist-packages/PILcompat',
 '/usr/lib/python2.7/dist-packages/gtk-2.0',
 '/usr/lib/python2.7/dist-packages/ubuntu-sso-client',
 '~/Documents/VBS/StarterLearningPython/2code/pm.py']

从中也发现了我们自己写的那个文件。凡在上面列表所包括位置内的.py文件都可以作为模块引入。不妨举个例子。把前面自己编写的pm.py文件修改为pmlib.py，然后把它复制到'/usr/lib/python2.7/dist-packages中。（这是以ubuntu为例说明，如果是其它操作系统，读者用类似方法也能找到。）

$ sudo cp pm.py /usr/lib/python2.7/dist-packages/pmlib.py
[sudo] password for qw:

$ ls /usr/lib/python2.7/dist-packages/pm*
/usr/lib/python2.7/dist-packages/pmlib.py

文件放到了指定位置。看下面的：

>>> import pmlib
>>> pmlib.lang
<function lang at 0xb744372c>
>>> pmlib.lang()
'python'

也就是，要将模块文件放到合适的位置——就是sys.path包括位置——就能够直接用import引入了。

PYTHONPATH环境变量

将模块文件放到指定位置是一种不错的方法。当程序员都喜欢自由，能不能放到别处呢？当然能，用sys.path.append()就是不管把文件放哪里，都可以把其位置告诉Python解释器。但是，这种方法不是很常用。因为它也有麻烦的地方，比如在交互模式下，如果关闭了，然后再开启，还得从新告知。

比较常用的告知方法是设置PYTHONPATH环境变量。

我以Ubuntu为例，建立一个Python的目录，然后将我自己写的.py文件放到这里，并设置环境变量。

:~$ mkdir python
:~$ cd python
:~/python$ cp ~/Documents/VBS/StarterLearningPython/2code/pm.py mypm.py
:~/python$ ls
mypm.py

然后将这个目录~/python，也就是/home/qw/python设置环境变量。

vim /etc/profile

提醒要用root权限，在打开的文件最后增加export PYTHONPATH = “$PYTHONPATH：/home/qw/python”，然后保存退出即可。

环境变量更改之后，用户下次登录时生效，如果想立刻生效，则要执行下面的语句（此处感谢Hsinwe朋友的指正）：

$ source /etc/profile

注意，我是在~/python目录下输入python，进入到交互模式：

:~$ cd python
:~/python$ python

>>> import mypm
>>> mypm.lang()
'python'

如此，就完成了告知过程。

但是，问题并没有结束。正如Hsinwe所指出的那样，我上面的操作使进入了模块所在的目录，如果进入别的目录呢？能不能正常引入呢？这是一个非常好的问题，恭请各位读者来试一试。

‘all‘在模块中的作用

上面的模块虽然比较简单，但是已经显示了编写模块和在程序中导入模块的基本方式。在实践中，所编写的模块也许更复杂一点，比如，我写了这么一个模块，并把其文件命名为pp.py

# /usr/bin/env python
# coding:utf-8

public_variable = "Hello, I am a public variable."
_private_variable = "Hi, I am a private variable."

def public_teacher():
    print "I am a public teacher, I am from JP."

def _private_teacher():
    print "I am a private teacher, I am from CN."

接下来就是熟悉的操作了，进入到交互模式中。pp.py这个文件就是一个模块，这个模块中包含了变量和函数。

>>> import sys
>>> sys.path.append("~/Documents/StarterLearningPython/2code/pp.py")
>>> import pp
>>> from pp import *
>>> public_variable
'Hello, I am a public variable.'
>>> _private_variable
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name '_private_variable' is not defined

变量public_variable能够被使用，但是另外一个变量_private_variable不能被调用，先观察一下两者的区别，后者是以单下划线开头的，这样的是私有变量。而from pp import *的含义是“希望能访问模块（pp）中有权限访问的全部名称”，那些被视为私有的变量或者函数或者类，当然就没有权限被访问了。

再如：

>>> public_teacher()
  I am a public teacher, I am from JP.
>>> _private_teacher()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name '_private_teacher' is not defined

但也不是绝对的，如果要访问具有私有性质的东西，可以这样做啦。

>>> import pp
>>> pp._private_teacher()
I am a private teacher, I am from CN.
>>> pp._private_variable
'Hi, I am a private variable.'

下面再对pp.py文件改写，增加一点东西，注意观察。

# /usr/bin/env python
# coding:utf-8

__all__ = ['_private_variable', 'public_teacher']

public_variable = "Hello, I am a public variable."
_private_variable = "Hi, I am a private variable."

def public_teacher():
    print "I am a public teacher, I am from JP."

def _private_teacher():
    print "I am a private teacher, I am from CN."

在修改之后的pp.py中，增加了__all__以它的值，在列表中包含了一个私有变量的名字和一个函数的名字。这是在告诉引用本模块的解释器，这两个东西是有权限被访问的，而且只有这两个东西。

>>> import sys
>>> sys.path.append("~/Documents/StarterLearningPython/2code/pp.py")
>>> from pp import *
>>> _private_variable
'Hi, I am a private variable.'

果然，曾经不能被访问的私有变量，现在能够访问了。

>>> public_variable
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name 'public_variable' is not defined

因为这个变量没有在__all__的值中，虽然以前曾经被访问到过，但是现在就不行了。

>>> public_teacher()
I am a public teacher, I am from JP.
>>> _private_teacher()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name '_private_teacher' is not defined

这只不过是再次说明前面的结论罢了。当然，如果以import pp引入模块，再用pp._private_teacher的方式是一样有效的。

包或者库

顾名思义，包或者库，应该是比“模块”大的。也的确如此，一般来讲，一个“包”里面会有多个模块，当然，“库”是一个更大的概念了，比如Python标准库中的每个库，都可以看成有好多个包，每个包，都有若干个模块。或许这个概念不是很明确，这么理解不会耽误你使用。

对于一个包，因为它是由多个模块组成，也就是说是多个.py的文件，那么这个所谓“包”也就是我们熟悉的一个目录罢了。现在就需要解决如何引用某个目录中的模块问题了。解决方法就是在该目录中放一个__init__.py文件。__init__.py是一个空文件，将它放在某个目录中，就可以将该目录中的其它.py文件作为模块被引用。

例如，我建立了一个目录，名曰：package_qi，里面依次放了pm.py和pp.py两个文件，然后建立一个空文件__init__.py

接下来，我需要导入这个包（package_qi）中的模块。

下面这种方法，是很清晰明了的。

>>> import package_qi.pm
>>> package_qi.pm.lang()
'python'

另外一种方法，貌似简短，但如果多了，恐怕有点难以分辨了。

>>> from package_qi import pm
>>> pm.lang()
'python'

在后续制作网站的实战中，还会经常用到这种方式，届时会了解更多。

转载请注明：www.ainoob.cn » 零基础学Python:编写模块