一文讓你搞懂 Python 的 pyc 文件

作者：古明地覺 2024-09-26 07:27:27

混淆之后多了兩條指令，其中偏移量為 8 的指令，參數為 255，表示加載常量池中索引為 255 的元素。如果常量池沒有這么多元素，那么顯然會發生索引越界，導致反編譯的時候報錯。

pyc 文件的觸發

上一篇文章我們介紹了字節碼，當時提到，py 文件在執行的時候會先被編譯成 PyCodeObject 對象，并且該對象還會被保存到 pyc 文件中。

然而事實并不總是這樣，有時當我們運行一個簡單的程序時，并沒有產生 pyc 文件。因此我們猜測：有些 Python 程序只是臨時完成一些瑣碎的工作，這樣的程序僅僅只會運行一次，然后就不會再使用了，因此也就沒有保存至 pyc 文件的必要。

如果我們在代碼中加上了一個 import abc 這樣的語句，再執行你就會發現解釋器為 abc.py 生成了 pyc 文件，這就說明 import 語句會觸發 pyc 的生成。

實際上，在運行過程中，如果碰到 import abc 這樣的語句，那么 Python 會在設定好的 path 中尋找 abc.pyc 或者 abc.pyd 文件。但如果沒有這些文件，而是只發現了 abc.py，那么會先將 abc.py 編譯成 PyCodeObject，然后寫入到 pyc 文件中。

接下來，再對 abc.pyc 進行 import 動作。對的，并不是編譯成 PyCodeObject 對象之后就直接使用，而是先寫到 pyc 文件里，然后再將 pyc 文件里面的 PyCodeObject 對象重新在內存中復制出來。

當然啦，觸發 pyc 文件生成不僅可以通過 import，還可以通過 py_compile 模塊手動生成。比如當前有一個 tools.py，代碼如下。

a = 1
b = "你好啊"

如何將其編譯成 pyc 呢？

import py_compile

py_compile.compile("tools.py")

查看當前目錄的 __pycache__ 目錄，會發現 pyc 已經生成了。

圖片

然后 py文件名.cpython-版本號.pyc 便是編譯之后的 pyc 文件名。

pyc 文件的導入

如果有一個現成的 pyc 文件，我們要如何導入它呢？

from importlib.machinery import SourcelessFileLoader

tools = SourcelessFileLoader(
    "tools", "__pycache__/tools.cpython-312.pyc"
).load_module()

print(tools.a)  # 1
print(tools.b)  # 你好啊

以上我們就成功手動導入了 pyc 文件。

pyc 文件都包含哪些內容

pyc 文件在創建的時候都會往里面寫入哪些內容呢？

1）magic number

這是 Python 定義的一個整數值，不同版本的 Python 會定義不同的 magic number，這個值是為了保證 Python 能夠加載正確的 pyc。

比如 Python3.12 不會加載 3.10 版本的 pyc，因為 Python 在加載 pyc 文件的時候會首先檢測該 pyc 的 magic number。如果和自身的 magic number 不一致，則拒絕加載。

from importlib.util import MAGIC_NUMBER
print(MAGIC_NUMBER)  # b'\xcb\r\r\n'

with open("__pycache__/tools.cpython-312.pyc", "rb") as f:
    magic_number = f.read(4)
print(magic_number)  # b'\xcb\r\r\n'

pyc 文件的前 4 個字節便是 magic number。

2）pyc 文件的寫入時間

這個很好理解，在加載 pyc 之前會先比較源代碼的最后修改時間和 pyc 文件的寫入時間。如果 pyc 文件的寫入時間比源代碼的修改時間要早，說明在生成 pyc 之后，源代碼被修改了，那么會重新編譯并寫入 pyc，而反之則會直接加載已存在的 pyc。

3）py 文件的大小

py 文件的大小也會被記錄在 pyc 文件中。

4）PyCodeObject 對象

編譯之后的 PyCodeObject 對象，這個不用說了，肯定是要存儲的，并且是序列化之后再存儲。

因此 pyc 文件的結構如下：

圖片

我們實際驗證一下：

import struct
from importlib.util import MAGIC_NUMBER
from datetime import datetime

with open("__pycache__/tools.cpython-312.pyc", "rb") as f:
    data = f.read()

# 0 ~ 4 字節是 MAGIC NUMBER
print(data[: 4])  # b'\xcb\r\r\n'
print(MAGIC_NUMBER)  # b'\xcb\r\r\n'

# 4 ~ 8 字節是 4 個 \x00
print(data[4: 8])  # b'\x00\x00\x00\x00'

# 8 ~ 12 字節是 pyc 的寫入時間（小端存儲），一個時間戳
ts = struct.unpack("<I", data[8: 12])[0]
print(ts)  # 1726742711
print(
    datetime.fromtimestamp(ts)
)  # 2024-09-19 10:45:11

# 12 ~ 16 字節是 py 文件的大小
print(
    struct.unpack("<I", data[12: 16])[0]
)  # 22

結果和我們分析的一樣，前 16 字節是固定的，而 16 個字節往后就是 PyCodeObject 對象，并且是序列化之后的，因為該對象顯然無法直接存在文件中。

import marshal

with open("__pycache__/tools.cpython-312.pyc", "rb") as f:
    data = f.read()

# 通過 marshal.loads 可以反序列化
# marshal.dumps 則表示序列化
code = marshal.loads(data[16:])
# 此時就拿到了 py 文件編譯之后的 PyCodeObject
print(code)
"""
<code object <module> at 0x..., file "tools.py", line 1>
"""
# 查看常量池
print(code.co_consts)  # (1, '你好啊', None)

# 符號表
print(code.co_names)  # ('a', 'b')

常量池和符號表都是正確的。

pyc 文件的寫入

下面通過源碼來查看 pyc 文件的寫入過程，既然要寫入，那么肯定要有文件句柄。

// Python/marshal.c

// FILE 是 C 自帶的文件句柄
// 可以把 WFILE 看成是 FILE 的包裝
typedef struct {
    FILE *fp;
    // 下面的字段在寫入數據的時候會看到
    int error; 
    int depth;
    PyObject *str;
    char *ptr;
    const char *end;
    char *buf;
    _Py_hashtable_t *hashtable;
    int version;
} WFILE;

首先是寫入 magic number、創建時間和文件大小，它們會調用 PyMarshal_WriteLongToFile 函數進行寫入：

// Python/marshal.c
void
PyMarshal_WriteLongToFile(long x, FILE *fp, int version)
{
    // magic number、創建時間和文件大小，只是一個 4 字節整數
    // 因此使用 char[4] 來保存
    char buf[4];
    // 聲明一個 WFILE 類型的變量 wf
    WFILE wf;
    // 內存初始化
    memset(&wf, 0, sizeof(wf));
    // 初始化內部字段
    wf.fp = fp;  // 文件句柄
    wf.ptr = wf.buf = buf;  // buf 數組首元素的地址
    wf.end = wf.ptr + sizeof(buf);  // buf 數組尾元素的地址
    wf.error = WFERR_OK;
    wf.version = version;
    // 調用 w_long 將信息寫到 wf 里面
    // 寫入的信息可以是 magic number、時間和文件大小
    w_long(x, &wf);
    // 刷到磁盤上
    w_flush(&wf);
}

所以該函數只是初始化了一個 WFILE 對象，真正寫入則是調用的 w_long。

// Python/marshal.c
static void
w_long(long x, WFILE *p)
{   
    w_byte((char)( x      & 0xff), p);
    w_byte((char)((x>> 8) & 0xff), p);
    w_byte((char)((x>>16) & 0xff), p);
    w_byte((char)((x>>24) & 0xff), p);
}

w_long 則是調用 w_byte 將 x 逐個字節地寫到文件里面去。

當頭信息寫完之后，就該寫 PyCodeObject 對象了，這個過程由 PyMarshal_WriteObjectToFile 函數負責。

// Python/marshal.c
void
PyMarshal_WriteObjectToFile(PyObject *x, FILE *fp, int version)
{
    char buf[BUFSIZ];
    WFILE wf;
    if (PySys_Audit("marshal.dumps", "Oi", x, version) < 0) {
        return; /* caller must check PyErr_Occurred() */
    }
    memset(&wf, 0, sizeof(wf));
    wf.fp = fp;
    wf.ptr = wf.buf = buf;
    wf.end = wf.ptr + sizeof(buf);
    wf.error = WFERR_OK;
    wf.version = version;
    if (w_init_refs(&wf, version)) {
        return; /* caller must check PyErr_Occurred() */
    }
    // 寫入頭信息由 PyMarshal_WriteLongToFile 負責，它內部會調用 w_long
    // 寫入 PyCodeObject 由當前函數負責，它內部會調用 w_object
    w_object(x, &wf);
    w_clear_refs(&wf);
    w_flush(&wf);
}

然后我們看一下 w_object 函數。

// Python/marshal.c
static void
w_object(PyObject *v, WFILE *p)
{
    char flag = '\0';

    p->depth++;

    if (p->depth > MAX_MARSHAL_STACK_DEPTH) {
        p->error = WFERR_NESTEDTOODEEP;
    }
    else if (v == NULL) {
        w_byte(TYPE_NULL, p);
    }
    else if (v == Py_None) {
        w_byte(TYPE_NONE, p);
    }
    else if (v == PyExc_StopIteration) {
        w_byte(TYPE_STOPITER, p);
    }
    else if (v == Py_Ellipsis) {
        w_byte(TYPE_ELLIPSIS, p);
    }
    else if (v == Py_False) {
        w_byte(TYPE_FALSE, p);
    }
    else if (v == Py_True) {
        w_byte(TYPE_TRUE, p);
    }
    else if (!w_ref(v, &flag, p))
        w_complex_object(v, flag, p);

    p->depth--;
}

可以看到 w_object 和 w_long 一樣，本質上都是調用了 w_byte。當然 w_byte 只能寫入一些簡單數據，如果是列表、字典之類的數據，那么會調用 w_complex_object 函數，也就是代碼中的最后一個 else if 分支。

w_complex_object 這個函數的源代碼很長，我們看一下整體結構，具體邏輯就不貼了，后面會單獨截取一部分進行分析。

// Python/marshal.c
static void
w_complex_object(PyObject *v, char flag, WFILE *p)
{
    Py_ssize_t i, n;
    // 如果是整數的話，執行整數的寫入邏輯
    if (PyLong_CheckExact(v)) {
        // ......
    }
    // 如果是浮點數的話，執行浮點數的寫入邏輯
    else if (PyFloat_CheckExact(v)) {
        // ......
    }
    // 如果是復數的話，執行復數的寫入邏輯
    else if (PyComplex_CheckExact(v)) {
        // ......
    }
    // 如果是字節序列的話，執行字節序列的寫入邏輯
    else if (PyBytes_CheckExact(v)) {
        // ......
    }
    // 如果是字符串的話，執行字符串的寫入邏輯
    else if (PyUnicode_CheckExact(v)) {
        // ......
    }
    // 如果是元組的話，執行元組的寫入邏輯
    else if (PyTuple_CheckExact(v)) {
       // ......
    }
    // 如果是列表的話，執行列表的寫入邏輯
    else if (PyList_CheckExact(v)) {
        // ......
    }
    // 如果是字典的話，執行字典的寫入邏輯
    else if (PyDict_CheckExact(v)) {
        // ......
    }
    // 如果是集合的話，執行集合的寫入邏輯
    else if (PyAnySet_CheckExact(v)) {
        // ......
    }
    // 如果是 PyCodeObject 對象的話
    // 執行 PyCodeObject 對象的寫入邏輯
    else if (PyCode_Check(v)) {
        //......
    }
    // 如果是 Buffer 的話，執行 Buffer 的寫入邏輯
    else if (PyObject_CheckBuffer(v)) {
        //......
    }
    else {
        W_TYPE(TYPE_UNKNOWN, p);
        p->error = WFERR_UNMARSHALLABLE;
    }
}

源代碼雖然長，但是邏輯非常單純，就是對不同的對象、執行不同的寫動作，然而其最終目的都是通過 w_byte 寫到 pyc 文件中。了解完函數的整體結構之后，我們再看一下具體細節，看看它在寫入對象的時候到底寫入了哪些內容？

// Python/marshal.c
static void
w_complex_object(PyObject *v, char flag, WFILE *p)
{
    // ......
    else if (PyList_CheckExact(v)) {
        W_TYPE(TYPE_LIST, p);
        n = PyList_GET_SIZE(v);
        W_SIZE(n, p);
        for (i = 0; i < n; i++) {
            w_object(PyList_GET_ITEM(v, i), p);
        }
    }
    else if (PyDict_CheckExact(v)) {
        Py_ssize_t pos;
        PyObject *key, *value;
        W_TYPE(TYPE_DICT, p);
        /* This one is NULL object terminated! */
        pos = 0;
        while (PyDict_Next(v, &pos, &key, &value)) {
            w_object(key, p);
            w_object(value, p);
        }
        w_object((PyObject *)NULL, p);
    }  
    // ......
}

以列表和字典為例，它們在寫入的時候實際上寫的是內部的元素，其它對象也是類似的。

def foo():
    lst = [1, 2, 3]

# 把列表內的元素寫進去了
print(
    foo.__code__.co_consts
)  # (None, (1, 2, 3))

當然啦，對于 3.12 版本來說，內部的元素會以元組的形式被收集起來。

但很明顯，如果只是將元素收集起來顯然是不夠的，否則 Python 在加載的時候怎么知道它是一個列表呢？所以在寫入的時候不能光寫數據，還要將類型信息也寫進去。我們再看一下上面列表和字典的寫入邏輯，里面都調用了 W_TYPE，它負責寫入類型信息。

因此無論對于哪種對象，在寫入具體數據之前，都會先調用 W_TYPE 將類型信息寫進去。如果沒有類型信息，那么當解釋器加載 pyc 文件的時候，只會得到一坨字節流，而無法解析字節流中隱藏的結構和蘊含的信息。

所以在往 pyc 文件里寫入數據之前，必須先寫入一個標識，諸如 TYPE_LIST, TYPE_TUPLE, TYPE_DICT 等等，這些標識正是對應的類型信息。

如果解釋器在 pyc 文件中發現了這樣的標識，則預示著上一個對象結束，新的對象開始，并且也知道新對象是什么樣的對象，從而也知道該執行什么樣的構建動作。當然，這些標識也是可以看到的，在底層已經定義好了。

圖片

到了這里可以看到，Python 對 PyCodeObject 對象的導出實際上是不復雜的。因為不管什么對象，最后都會歸結為兩種簡單的形式，一種是數值寫入，一種是字符串寫入。

上面都是對數值的寫入，比較簡單，僅僅需要按照字節依次寫入 pyc 即可。然而在寫入字符串的時候，Python 設計了一種比較復雜的機制，有興趣可以自己閱讀源碼，這里不再介紹。

字節碼混淆

最后再來說一下字節碼混淆，我們知道 pyc 是可以反編譯的，而且目前也有現成的工具。但這些工具它會將每一個指令都解析出來，所以字節碼混淆的方式就是往里面插入一些惡意指令（比如加載超出范圍的數據），讓反編譯工具在解析的時候報錯，從而失去作用。

但插入的惡意指令還不能影響解釋器執行，因此還要插入一些跳轉指令，從而讓解釋器跳過惡意指令。

圖片

但對于解釋器來說，是可以正常執行的，因為在執行到偏移量為 6 的指令時出現了一個相對跳轉，直接跳到偏移量為 10（6 + 4）的指令了。

因此對于解釋器執行來說，混淆前后是沒有區別的。但對于反編譯工具而言則無法正常工作，因為它會把每一個指令都解析一遍。根據這個思路，我們可以插入很多很多的惡意指令，然后再利用跳轉指令來跳過這些不合法指令。當然混淆的手段并不止這些，我們還可以添加一下虛假的分支，然后在執行時跳轉到真實的分支當中。

而這一切的目的，都是為了防止別人根據 pyc 文件反推出源代碼。不過這種做法屬于治標不治本，如果真的想要保護源代碼的話，可以使用 Cython 將其編譯成 pyd ，這是最推薦的做法。

責任編輯：武曉燕來源：古明地覺的編程教室

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看