Python--模块与包

Python--模块与包
模块

1、什么是模块？

一个模块就是一个Python文件，文件名就是模块名字加上.py后缀。因此模块名称也必须符合变量名的命名规范。

　　1 使用python编写的代码（.py文件）

　　2 已被编译为共享库或DLL的C或C++扩展

　　3 包好一组模块的包

　　4 使用C编写并链接到python解释器的内置模块

2、为什么要使用模块？

如果你退出python解释器然后重新进入，那么你之前定义的函数或者变量都将丢失，因此我们通常将程序写到文件中以便永久保存下来，需要时就通过python test.py方式去执行，此时test.py被称为脚本script。

随着程序的发展，功能越来越多，为了方便管理，我们通常将程序分成一个个的文件，这样做程序的结构更清晰，方便管理。这时我们不仅仅可以把这些文件当做脚本去执行，还可以把他们当做模块来导入到其他的模块中，实现了功能的重复利用，

3、如何使用模块？
- 方式一：import
- 方式二：from ... import ...
import

首先，自定义一个模块my_module.py，文件名my_module.py,模块名my_module
name = "我是自定义模块的内容..." def func(): print("my_module: ", name) print("模块中打印的内容...")
my_module
在import一个模块的过程中，发生了哪些事情？
```
# 用import导入my_module模块
import my_module
>>>
模块中打印的内容... # 怎么回事，竟然执行了my_module模块中的print语句

import my_module
import my_module
import my_module
import my_module
import my_module
>>>
模块中打印的内容... # 只打印一次
```
从上面的结果可以看出，import一个模块的时候相当于执行了这个模块，而且一个模块是不会重复被导入的，只会导入一次（python解释器第一次就把模块名加载到内存中，之后的import都只是在对应的内存空间中寻找。）成功导入一个模块后，被导入模块与文本之间的命名空间的问题，就成为接下来要搞清楚的概念了。

被导入模块与本文件之间命名空间的关系？

假设当前文件也有一个变量为： name = 'local file'，也有一个同名的func方法。
```
# 本地文件
name = "local file"
def func():
    print(name)
    
# 本地文件有跟被导入模块同名的变量和函数，究竟用到的是哪个呢？
import my_module
print(my_module.name)   # 根据结果可以看出，引用的是模块里面的name
my_module.func()        # 执行的是模块里面的func()函数
>>>
模块中打印的内容...
我是自定义模块的内容...
my_module:  我是自定义模块的内容...

print(name)             # 使用的是本地的name变量
func()                  # 使用的是本地的func函数
>>>
local file
local file
```
在import模块的时候发生了下面的几步：

　　1、先寻找模块

　　2、如果找到了，就在内存中开辟一块空间，从上至下执行这个模块

　　3、把这个模块中用到的对象都收录到新开辟的内存空间中

　　4、给这个内存空间创建一个变量指向这个空间，用来引用其内容。

　　总之，模块与文件之间的内存空间始终是隔离的

给导入的模块取别名，用as关键字

如果导入的模块名太长不好记，那么可以通过“import 模块名 as 别名”的方式给模块名取一个别名，但此时原来的模块就不再生效了（相当于创建了新的变量名指向模块内存空间，断掉原模块名的引用）。
```
# 给my_module模块取别名
import my_module as sm
print(sm.name)
>>>
我是自定义模块的内容...
print(my_module.name)   # 取了别名后，原来的模块名就不生效了
>>>
NameError: name 'my_module' is not defined
```
给模块去别名，还可以使代码更加灵活，减少冗余，常用在根据用户输入的不同，调用不同的模块。
```
# 按照先前的做法，写一个函数，根据用户传入的序列化模块，使用对应的方法
def dump(method):
    if method == 'json':
        import json
        with open('dump.txt', 'wb') as f:
            json.dump('xxx', f)
    elif method == 'pickle':
        import pickle
        with open('dump.txt', 'wb') as f:
            pickle.dump('xxx', f)

# 上面的代码冗余度很高，如果简化代码？通过模块取别名的方式，可以减少冗余
def dump(method):
    if method == 'json':
        import json as m
    elif method == 'pickle':
        import pickle as m
    with open('dump.txt', 'wb') as f:
        m.dump('dump.txt', f)
```
如何同时导入多个模块？

方式一：每行导入一个模块
```
import os
import sys
import time
```
方式二：一行导入多个模块，模块之间通过逗号“,”来分隔
```
import os, sys, my_module
```
但是，根据PEP8规范规定使用第一种方式，并且三种模块有先后顺序（内置>第三方>自定义）
```
# 根据PEP8规范
import os
import django
import my_module
```
模块搜索路径

通过sys内置模块，我们知道sys.path存储了所有模块的路径，但是正常的sys.path的路径中除了内置模块，第三方模块所在的路径之外，只有一个路径是永远正确的，就是当前执行的文件所在目录。一个模块是否能够被导入，就取决于这个模块所在的目录是否在sys.path中。

python解释器在启动时会自动加载一些模块，可以使用sys.modules查看

在第一次导入某个模块时（比如my_module），会先检查该模块是否已经被加载到内存中（当前执行文件的名称空间对应的内存），如果有则直接引用

如果没有，解释器则会查找同名的内建模块，如果还没有找到就从sys.path给出的目录列表中依次寻找my_module.py文件。

所以总结模块的查找顺序是：内存中已经加载的模块->内置模块->sys.path路径中包含的模块

需要特别注意的是：我们自定义的模块名不应该与系统内置模块重名。

模块和脚本

运行一个py文件有两种方式，但是这两种执行方式之间有一个明显的差别，就是__name__。

　　1、已脚本的方式执行：cmd中“python xxx.py” 或者pycharm等IDE中执行

　　　　__name__ = '__main__'

　　2、导入模块时执行：import模块，会执行该模块。

　　　　__name__ = 模块名

然而，当你有一个py文件既可以作为脚本执行，又可以作为模块提供给其他模块引用时，这时作为模块需要导入时而不显示多余的打印逻辑/函数调用，所以这些逻辑可以放在“if __name__ = '__main__': xxx” 代码块中。

这样py文件作为脚本执行的时候就能够打印出来，以模块被导入时，便不会打印出来。

from ... import ...

from...import是另一种导入模块的形式，如果你不想每次调用模块的对象都加上模块名，就可以使用这种方式。

在from ... import ... 的过程中发生了什么事儿？
```
from my_module import name, func
print(name)     # 此时引用模块中的对象时，就不要再加上模块名了。
func()
```
　　1、寻找模块

　　2、如果找到模块，在内存中开辟一块内存空间，从上至下执行模块

　　3、把模块中的对应关系全部都保存到新开辟的内存空间中

　　4、建立一个变量xxx引用改模块空间中对应的xxx，如果没有import进来的时候，就使用不了。

from ... import ... 方式取别名

与import方式如出一辙，通过"from 模块名 import 对象名 as 别名"。
```
from my_module import name as n, func as f
```
from ... import *

import * 相当于把这个模块中的所有名字都引入到当前文件中，但是如果你自己的py文件如果有重名的变量，那么就会产生不好的影响，因此使用from...import *时需要谨慎，不建议使用。

* 与 __all__

__all__是与*配合使用的，在被导入模块中增加一行__all__=['xxx','yyy']，就规定了使用import *是只能导入在__all__中规定的属性。
```
# 在my_module模块中定义__all__
__all__ = ['name']
name = 'My module...'

def func():
    print("my_module: ", name)

# 在其他文件中通过import *导入所有属性
from my_module import *
print(name)
>>>
My module...

func()
>>>
NameError: name 'func' is not defined
```
拓展知识点：

　　(1)pyc文件与pyi文件 *

　　pyi文件：跟.py一样，仅仅作为一个python文件的后缀名。

　　pyc文件: python解释器为了提高加载模块的速度，会在__pycache__目录中生成模块编译好的字节码文件，并且对比修改时间，只有模块改变了，才会再次编译。pyc文件仅仅用于节省了启动时间，但是并不能提高程序的执行效率。

　　(2)模块的导入和修改 *

　　1.导入模块后，模块就已经被加载到内存中，此后计算对模块进行改动，读取的内容还是内存中原来的结果。

　　2.如果想让改动生效，可以通过“from importlib import reload”, 需要'reload 模块名'重新加载模块，改动才生效。

　　(3)模块的循环使用 ****

　　谨记模块的导入必须是单链的，不能有循环引用，如果存在循环，那么就是程序设计存在问题。

　　(4)dir(模块名) ***

　　可以获得该模块中所有的名字，而且是字符串类型的，就可以通过反射去执行它。

包

包是一种通过‘.模块名’来组织python模块名称空间的方式。

（1）无论是import形式还是from ... import 形式，凡是在导入语句中（而不是在使用时）遇到带点的，都要第一时间提高警觉：这是关于包才有的导入语法

（2）包是目录级的（文件夹级），文件夹是用来组成py文件（包的本质就是一个包含__init__.py文件的目录）

（3）import导入文件时，产生名称空间中的名字来源与文件，import包，产生的名称空间的名字同样来源与文件，即包下的__init__.py，导入包本质就是在导入文件

　　注意：

　　　　1、在python3中，即使包下没有__init__.py文件，import包仍然不会报错，而在python2中，包下一定要有该文件，否则import包会报错

　　　　2、创建包的目的不是为了运行，而是被导入使用，记住，包只有模块的一种形式而已，包即模块

包A和包B下有同名模块也不会冲突，如A.a与B.a来自两个命令空间

示例环境如下：
import os os.makedirs('glance/api') os.makedirs('glance/cmd') os.makedirs('glance/db') l = [] l.append(open('glance/__init__.py','w')) l.append(open('glance/api/__init__.py','w')) l.append(open('glance/api/policy.py','w')) l.append(open('glance/api/versions.py','w')) l.append(open('glance/cmd/__init__.py','w')) l.append(open('glance/cmd/manage.py','w')) l.append(open('glance/db/models.py','w')) map(lambda f:f.close() ,l)
创建目录代码
glance/ #Top-level package ├── __init__.py #Initialize the glance package ├── api #Subpackage for api │ ├── __init__.py │ ├── policy.py │ └── versions.py ├── cmd #Subpackage for cmd │ ├── __init__.py │ └── manage.py └── db #Subpackage for db │ ├── __init__.py │ └── models.py
目录结构
#文件内容 #policy.py def get(): print('from policy.py') #versions.py def create_resource(conf): print('from version.py: ',conf) #manage.py def main(): print('from manage.py') #models.py def register_models(engine): print('from models.py: ',engine)
文件内容
从包中导入模块

（1）从包中导入模块有两种方式，但是无论哪种，无论在什么位置，都必须遵循一个原则：（凡是在导入时带点的，点的左边都必须是一个包），否则非法。

（2）对于导入后，在使用就没有这种限制，点的左边可以是包，模块，函数，类（它们都可以用点的方式调用自己的属性）

（3）对比import item 和from item import name的应用场景：如果我们想直接使用name那么必须使用后者。

方式一：import

　　例如: 包名1.包名2.包名3.模块名
```
# 在与包glance同级别的文件中测试
import glance.db.models
glance.db.models.register_models('mysql') 
"""执行结果：from models.py mysql"""
```
方式二：from ... import ...

　　例如：from 包名1.包名2 import 模块名

　　　　 from 包名1.包名2.模块名 import 变量名/函数名/变量名

　　注意：需要注意的是from后import导入的模块，必须是明确的一个不能带点，否则会有语法错误，如：from a import b.c是错误语法
```
# 在与包glance同级别的文件中测试
from glance.db import models
models.register_models('mysql')
"""执行结果：from models.py mysql"""
from glance.cmd import manage
manage.main()
"""执行结果：from manage.py"""
```
直接导入包

如果是直接导入一个包，那么相当于执行了这个包中的__init__文件

并不会帮你把这个包下面的其他包以及py文件自动的导入到内存

如果你希望直接导入包之后，所有的这个包下面的其他包以及py文件都能直接通过包来调用，那么需要你自己处理__init__文件。

__init__.py文件

不管是哪种方式，只要是第一次导入包或者是包的任何其他部分，都会依次执行包下的__init__.py文件；这个文件可以为空，但是也可以存放一些初始化包的代码。

绝对导入和相对导入

我们的最顶级包glance是写给别人用的，然后在glance包内部也会有彼此之间互相导入的需求，这时候就有绝对导入和相对导入两种方式：

绝对导入：以glance作为起始

相对导入：用. 或者.. 的方式作为起始（只能在一个包中使用，不能用于不同目录内）

绝对导入和绝对导入示例：
```
绝对导入：
    既然导入包就是执行包下的__init__.py文件，那么尝试在啊glance的__init__.py文件中"import api",执行一下，貌似没有报错，在尝试下在包外导入，情况如何？
    在包外创建一个test.py文件，在里面操作如下：
    import glance
    glance.api
    ModuleNotFoundError: No module named 'api'
    
原因：为什么还会报错？因为一个模块能不能被导入就看在sys.path中有没有路径，在哪里执行文件，sys.path永远记录该文件的目录。
    （1）在glance的__init__.py文件中，sys.path的路径是：
    'E:\Python练习\包\glance'
    所以能够找到同级的api
    （2）但是在test文件中导入，此时sys.path的路径是：
    'E:\李彦杰\Python练习\包'
    所以找不到不同层级的api，所以就会报No module name 'api'
    
解决办法一：
    使用绝对路径（绝对路径为当前执行文件的目录）
    （1）在glance包中的__init__.py中通过绝对路径导入：
    "from glance import api"
    （2）这样在test文件中执行，就能找到同层级的glance，再去里面找api
    （3）同理，如果想使用api包中的模块，也要在api包中的__init__.py文件中导入"from glance.api import policy, veersions",
    （4）现在在test文件中调用glance下的api下的policy模块就不会报错：
        import glance
        glance.api.policy.get()
        glance.api.versions.create_resource('测试')
        执行结果：
            from policy.py
            from versions.py 测试
绝对导入的缺点：
如果以后包的路径发生了转移，包内的所有__init__.py文件中的绝对路径都需要改变


解决办法二：
    使用相对导入
        . 表示当前目录
        .. 表示上一级目录
    （1）在glance包中的__init__.py中通过相对路径的形式导入：
     “from . import api”
    （2）同理在api包中的__init__.py中通过相对路径的形式导入:
     “from . import policy,version”
    （3）同样在test文件中调用glance下的api下的policy模块就不会报错：
        import glance
        glance.api.policy.get()
        glance.api.versions.create_resource('测试')
        执行结果：
            from policy.py
            from versions.py 测试

相对导入的优点：
    包发生路径转移，其中的相对路径都没有改变，所以不用逐个逐个修改。

相对导入的缺点：
    但凡带着相对导入的文件，只能当做模块导入，不能作为一个脚本单独执行！！！
```
扩展知识：

　　同级目录下的包导入

　　需求：现在需要在bin下面的start文件中导入core目录下的main模块；怎么破？
```
project

├── bin                 #Subpackage for bin
    ├── __init__.py
    └── start.py

├── core                #Subpackage for core
    ├── __init__.py
    └── main.py
```
```
# main.py文件中的内容：
def func():
    print("In main")
```
```
（1）、在start中直接导入,因为路径不对，所以直接报错：
```
```
import main # 执行，报错ModuleNotFoundError: No module named 'main'
```
```
（2）、由上面报错我们知道肯定路径不对，那么我们想到直接将core路径加进去不就好了吗？是的，这样是可行的
```
```
import sys
path = 'E:练习包core'   # 复制得到core的绝对路径
sys.path.append(path)     # 将core路径添加
import main         # 再次导入便不会报错
main.func()         # 执行结果：In main
```
```
（3）、上面的方法看似可行，但是还是有一个问题，如果我将project打包发给别人，或者我换个环境运行呢？   那么又得更改对应的path。不怎么合理，那么我们看下面的方法：
```
```
import sys
print(__file__)
ret = __file__.split('/')
base_path = '/'.join(ret[:-2])

sys.path.append(base_path)

from core import main
main.func()     # In main
```
```
 1、__file__ 可以得到当前文件的绝对路径，E:/练习/project/bin/start.py
```
```
 2、__file__.split('/') 将当前文件的绝对路径进行处理，按照'/'分隔得到：['E:', '练习', 'project', 'bin', 'start.py']
```
```
 3、'/'.join(ret[:-2]) 因为我们只需要拿到project项目的动态路径，所以进行切割，在jojn得到： E:/练习/project
```
```
 4、sys.path.append(base_path) 再将得到的路径添加到sys.path中
```
```
 5、from core import main   因为我们拿到的是project目录，所以导入是从当前路径的core包导入main模块
```
```
 6、main.func()  最后再是模块名.方法。
```
相关阅读:
基于Dubbo框架构建分布式服务（一）
大型网站架构系列：消息队列
 Redis Cluster 分区实现原理
 Redis五种数据结构简介
 Java中创建对象的5种方式
 Netty 系列之 Netty 高性能之道
 Java 抽象类与接口
 谈iOS抓包：Mac下好用的HTTP/HTTPS抓包工具Charles
Web系统大规模并发——电商秒杀与抢购
 [转]MS SQL Server 数据库连接字符串详解
原文地址：https://www.cnblogs.com/yanjieli/p/10037191.html

Python--模块与包

模块

import

from ... import ...

包

从包中导入模块

直接导入包