Python中import

Python 中的 import 机制漫谈

几乎每一份 Python 代码的开头，我们都能看到 import 语句的身影。它如此基础，以至于我们常常不假思索地就写下它。但这个我们每天都在使用的关键字，其背后的工作流程，我却似乎从未系统地梳理过。每当遇到一些诡异的 ImportError 或是关于项目结构的争论时，我总感觉自己的理解还停留在表面。今天，我就想借此机会，把 import 的整个脉络理一理清楚。

模块与包：究竟是什么？

在正式开始探索 import 的旅程之前，我觉得有必要先明确两个最基本的概念：module（模块）和 package（包）。

一开始我总是会把它们和操作系统的文件、文件夹简单地等同起来。一个 .py 文件就是一个模块，一个带 __init__.py 的文件夹就是一个包。这在大多数情况下是没错的，但它忽略了本质。从 Python 解释器的视角来看，module 是一个实实在在的 Python 对象，它拥有自己的命名空间。当我们从一个 .py 文件加载时，这个文件里的代码会被执行，顶层的变量、函数、类都成为这个模块对象的属性。

而 package，本质上也是一个 module 对象，只不过它比较特殊，通常对应于一个文件夹结构，并且可以包含其他的 module（或子 package）。所以说，它们在 Python 运行时的身份都是 module 对象，只是其来源和结构有所不同。厘清这一点，对后续的理解至关重要。

`import` 的“寻宝之旅”

那么，当我写下 import numpy 这行代码时，Python 解释器究竟做了些什么？对我来说，这就像一场按图索骥的“寻宝之旅”。

首先，Python 会将 numpy 视作一个字符串标识符。它会先检查这是否是一个内建模块（比如 os、sys 等）。如果不是，真正的搜索就开始了。这个搜索的“藏宝图”，就是 sys.path 这个变量。

为了验证我的想法，我决定亲自看一看这张“藏宝图”里都画了些什么。

>>> import sys
>>> import numpy
>>> print(sys.path)
['', '/Users/chengyongru/miniconda3/lib/python311.zip', '/Users/chengyongru/miniconda3/lib/python3.11', '/Users/chengyongru/miniconda3/lib/python3.11/lib-dynload', '/Users/chengyongru/miniconda3/lib/python3.11/site-packages']
 
>>> print(numpy)
<module 'numpy' from '/Users/chengyongru/miniconda3/lib/python3.11/site-packages/numpy/__init__.py'>

从输出结果中，我们可以清晰地看到一个路径列表。Python 解释器会严格按照这个列表的顺序，从前往后，在每个路径下尝试寻找名为 numpy 的模块或包。一旦在某个路径下找到了，搜索就会停止。

这个“先到先得”的机制也解释了一个常见的“坑”：命名空间污染。如果我在当前项目目录下（sys.path 的第一个元素通常是空字符串 ''，代表当前目录）创建一个名为 numpy.py 的文件，那么当我试图 import numpy 时，Python 找到的将是我的这个同名文件，而不是真正的 numpy 库，这几乎必然会导致程序出错。因此，在给自己的文件或包命名时，一定要注意避开标准库和已安装第三方库的名称。

当 Python 成功找到对应的文件或文件夹后，它会执行以下步骤：

在一个专门的缓存字典 sys.modules 中检查 numpy 是否已经被加载。
如果尚未加载，Python 解释器就会编译并执行找到的模块文件（对于包，则是其 __init__.py 文件），从而创建一个 module 对象。
将这个新创建的 module 对象存入 sys.modules 缓存中。
最后，在当前执行文件的命名空间里，创建一个名为 numpy 的变量，并让它指向这个 module 对象。

这个缓存机制意味着，对于同一个 Python 进程，一个模块只会被真正加载和执行一次。后续所有对该模块的 import 操作，都只是从 sys.modules 缓存中取出已经存在的对象，然后赋值给一个新变量，这是一个相当高效的做法。

包的“初始化”：`init.py` 的角色

前面提到，导入一个包，实际上是执行了它的 __init__.py 文件。这让我不禁思考，这个文件的确切作用是什么？

如果一个文件夹下没有 __init__.py 文件（在较新版本的 Python 中，它不再是必需的，这种包被称为“命名空间包”），那么当我们 import a_package 时，我们仅仅是得到了一个包对象，但这个包对象本身可能空空如也，我们无法直接通过 a_package.some_function 来调用任何东西。

__init__.py 的存在，就是为了给这个包对象进行“初始化”。我们可以在这个文件里编写代码，比如定义一些变量，或者使用 from . import module_a 这样的语句，将子模块中的成员“提升”到包的顶层命名空间中。这样一来，使用者就可以通过 import a_package 然后 a_package.some_function() 这样更便捷的方式来访问深层模块的功能，而无需关心包内部复杂的组织结构。可以说，__init__.py 定义了一个包对外暴露的 API 接口。

绝对导入 vs 相对导入

现在，让我们把场景切换到一个更复杂的项目中。假设我正在开发一个自己的包，内部的模块之间需要相互引用。这时候，我就面临一个选择：是使用绝对导入还是相对导入？

绝对导入，就是我们一直以来使用的，从 sys.path 的某个根路径开始的完整路径，例如 from my_package.utils import helper。这种写法的优点是清晰明了，路径唯一。但它的一个显著缺点是，如果有一天我决定把 my_package 这个顶级包的名字改成 my_awesome_package，那我就必须在整个项目中进行搜索和替换，这是一个相当大的心智负担，而且很容易出错。

为了解决这个问题，相对导入应运而生。它的语法很直观，from . import module 表示从当前文件所在的包中导入 module，而 from .. import module 则表示从上级包中导入。

例如，在 my_package/core/main.py 文件中，如果我想引用 my_package/utils/helper.py 里的函数，我可以这样写：

# from my_package.utils import helper  <-- 绝对导入
from ..utils import helper           # <-- 相对导入

这样一来，无论我的顶级包 my_package 叫什么名字，甚至它被作为另一个更大项目的一部分，这种内部引用关系都依然稳固。Python 解释器会自动根据当前模块的 __name__ 和 __package__ 属性，将这个相对路径解析成正确的绝对路径。这使得我们的包具有了更好的封装性和可移植性。

关于相对导入的一个重要“陷阱”
这里有一个需要特别注意的地方：包含相对导入的 .py 文件，通常不能作为顶层脚本直接被执行。如果我们尝试这样做，比如在命令行中直接运行 python main.py，解释器几乎必然会抛出 ImportError: attempted relative import with no known parent package。

这个错误，我早年间也踩过不少次坑，它背后的原因其实相当根本。当 Python 解释器直接运行一个文件时，这个文件就被当作程序的入口。为了标识它的特殊身份，Python 会将该文件的 __name__ 属性设置为特殊字符串 "__main__"，同时，它的 __package__ 属性会被设为 None。在这种“孤儿”状态下，这个脚本自身并不知道自己属于哪个包，它是一个独立的、顶层的存在。因此，当它遇到 from . import module 或 from .. import utils 这样的相对导入语句时，它就彻底迷失了方向——既然连自己所在的“家”（package）都不知道是哪，又如何去寻找“邻居”（同级模块）或“长辈”（上级包）呢？

那么，正确的做法是什么？关键在于改变我们的“运行观念”：不要将包内的模块当作一个孤立的脚本去执行，而应始终通过包的结构来调用它。

Python 为此提供了一个绝佳的工具：-m 开关。这个开关告诉解释器：“请不要直接运行一个文件，而是去导入并执行一个模块”。

举个例子，假设我们的项目结构如下：
project_root/
└── my_package/
    ├── __init__.py
    ├── core/
    │   ├── __init__.py
    │   └── main.py  # 内部有 from ..utils import helper
    └── utils/
        ├── __init__.py
        └── helper.py
如果我们想运行 main.py，错误的做法是在任何目录下执行 python my_package/core/main.py。

正确的做法是，我们应该站在 project_root 目录下（即 my_package 的上一级目录），然后执行：
python -m my_package.core.main
当我们使用 -m 时，Python 会将当前目录（project_root）临时加入到 sys.path 的最前面。然后，它会像处理正常的 import 语句一样，去寻找 my_package.core.main 这个模块。在这个过程中，main.py 是被解释器作为 my_package 包的一部分加载的。因此，它的 __name__ 属性将是 my_package.core.main，而 __package__ 属性则是 my_package.core。有了明确的包信息，解释器就能轻松地将相对路径 .. 解析为 my_package，进而成功找到 my_package.utils.helper。

所以，相对导入是专为包内部模块之间的相互引用而设计的。一旦你开始使用它，就意味着你的代码已经是一个结构化的“包”了，你也应该相应地使用 python -m 这种“模块化”的思维方式来运行它。

一些语法变体

最后，再简单提一下 import 的两种常见变体：

from xxx import yyy: 这其实是上面“寻宝之旅”的延伸。它同样会先完整地加载 xxx 模块，然后从 xxx 模块对象的命名空间中，找到名为 yyy 的属性（函数、类或变量），并直接将其绑定到当前文件的命名空间中。
import xxx as y: 这纯粹是为了方便而生的“别名”机制。它等同于先执行 import xxx，然后执行 y = xxx。当模块名过长，或者为了避免命名冲突时，这个语法就显得非常有用。

小结

经过这一番梳理，import 在我眼中不再是一个简单的关键字，而是一个清晰、有序的“查找、加载、缓存、绑定”的过程。从模块与包的本质，到 sys.path 的搜索机制，再到 __init__.py 的初始化作用，以及相对导入为解决项目重构带来的便利，每一个环节都体现了 Python 设计的考量。理解了这一点，无论是组织项目结构，还是排查导入错误，我都感觉更有底气了。

ChengYongru'ML

Recent Writing

基于 LIEF 的 PE 解析死循环排查

全期望公式

强化学习基础：从回报定义到贝尔曼方程的推导

核技巧

Recent Notes

2025-11-19

2025-11-11

Python中import

Python 中的 import 机制漫谈

模块与包：究竟是什么？

`import` 的“寻宝之旅”

包的“初始化”：`init.py` 的角色

绝对导入 vs 相对导入

一些语法变体

小结

Recent Writing

基于 LIEF 的 PE 解析死循环排查

全期望公式

强化学习基础：从回报定义到贝尔曼方程的推导

核技巧

Recent Notes

2025-11-19

2025-11-11

关系图谱

Recent Writing

Recent Notes

Python中import

Python 中的 import 机制漫谈

模块与包：究竟是什么？

import 的“寻宝之旅”

包的“初始化”：__init__.py 的角色

绝对导入 vs 相对导入

一些语法变体

小结

Recent Writing

Recent Notes

关系图谱

`import` 的“寻宝之旅”

包的“初始化”：`init.py` 的角色