我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python编译结果之code对象与pyc文件详解

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python编译结果之code对象与pyc文件详解

1、Python程序执行过程

与java类似,Python将.py编译为字节码,然后通过虚拟机执行。编译过程与虚拟机执行过程均在python25.dll中。Python虚拟机比java更抽象,离底层更远。

编译过程不仅生成字节码,还要包含常量、变量、占用栈的空间等,Pyton中编译过程生成code对象PyCodeObject。将PyCodeObject写入二进制文件,即.pyc。


有必要则写入A.pyc指的是该.py是否只运行一次,如果import的模块,肯定会生成.pyc。

2、PyCodeObject对象与.pyc文件

Python解释器将.py程序编译为PyCodeObject对象,具体过程与编译原理类似。


typedef struct {
    PyObject_HEAD
    int co_argcount;		// Code Block的参数的个数,比如说一个函数的参数
    int co_nlocals;			// Code Block中局部变量的个数
    int co_stacksize;		// 执行该段Code Block需要的栈空间
    int co_flags;			// N/A
    PyObject *co_code;		// Code Block编译所得的byte code,以PyStringObject的形式存在
    PyObject *co_consts;	// PyTupleObject对象,保存Code Block中的常量
    PyObject *co_names;		// PyTupleObject对象,保存Code Block中的所有符号
    PyObject *co_varnames;	// Code Block中局部变量名集合
    PyObject *co_freevars;	// 实现闭包所需东西
    PyObject *co_cellvars;  // Code Block内部嵌套函数所引用的局部变量名集合
    PyObject *co_filename;	// Code Block所对应的.py文件的完整路径
    PyObject *co_name;		// Code Block的名字,通常是函数名或类名
    int co_firstlineno;		// Code Block在对应的.py文件中的起始行
    PyObject *co_lnotab;	// byte code与.py文件中source code行号的对应关系,以PyStringObject的形式存在
    void *co_zombieframe;
    PyObject *co_weakreflist;
} PyCodeObject;

一个Code Block生成一个PyCodeObject,进入一个名字空间成为进入一个Code Block。如下.py文件编译完成后会生成三个PyCodeObject,一个对应整个.py文件一个对应Class A,一个对应def Fun。实际这三个code对象是嵌套的,后两个code对象位于第一个code对象的co_consts属性中。其实,字节码位于co_code中。


class A:
	pass
def Fun():
	pass
a = A()
Fun()

pyc文件包括三部分:

(1)四字节的Magic int,表示pyc版本信息

(2)四字节的int,是pyc产生时间,若与py文件时间不同会重新生成

(3)序列化了的PyCodeObject对象。

3、pyc文件的生成

写入pyc文件的函数包括以下几个步骤:


PyMarshal_WriteLongToFile(pyc_magic, fp, Py_MARSHAL_VERSION);	// 写入版本信息
PyMarshal_WriteLongToFile(0L, fp, Py_MARSHAL_VERSION);			// 写入时间信息
PyMarshal_WriteObjectToFile((PyObject *)co, fp, Py_MARSHAL_VERSION);	// 写入PyCodeObject对象

关键在于code对象的写入:


{
    WFILE wf;
    wf.fp = fp;
	……
    w_object(x, &wf);
}

用到了一个WFILE结构体,可以认为是对FILE *fp 的一个封装:


typedef struct {
    FILE *fp;
    int error;
    int depth;
    PyObject *strings; // 存储字符串,写入时以dict形式,读出时以list形式
} WFILE;

关键在于w_object()函数:


static void w_object(PyObject *v, WFILE *p){
	if (v == NULL)	……
	else if (PyInt_CheckExact(v)) ……
	else if (PyFloat_CheckExact(v)) ……
	else if (PyString_CheckExact(v)) ……
	else if (PyList_CheckExact(v)) ……
}

w_code实质为根据不同的对象类型选取不同的策略,例如tuple对象:


    else if (PyTuple_CheckExact(v)) {
        w_byte(TYPE_TUPLE, p);
        n = PyTuple_Size(v);
        W_SIZE(n, p);
        for (i = 0; i < n; i++) 
            w_object(PyTuple_GET_ITEM(v, i), p);

而所有类型最终可分解为写入数值与写入字符串两种操作,涉及以下几部分:


#define w_byte(c, p) putc((c), (p)->fp)	// 用于写入类型
static void w_long(long x, WFILE *p){	// 用于写入数字	
    w_byte((char)( x      & 0xff), p);	// 实质为用四个字节存储一个数字
    w_byte((char)((x>> 8) & 0xff), p);
    w_byte((char)((x>>16) & 0xff), p);
    w_byte((char)((x>>24) & 0xff), p);
}
static void w_string(char *s, int n, WFILE *p){	//用于写入字符串
    fwrite(s, 1, n, p->fp);
}

由于序列化写入文件后丢失了结构信息,故写入每个对象时写入类型信息w_byte:


#define TYPE_INT                'i'
#define TYPE_LIST               '['
#define TYPE_DICT               '{'
#define TYPE_CODE               'c'

由于Python皆对象,w_object(PyObject*)便可针对不同类型选取不同写入方法,不断细分,最终分解为PyInt_Object或PyString_Object,利用w_long或w_string写入。

数字比较简单:


else if (PyInt_CheckExact(v)) {
    w_byte(TYPE_INT, p);
    w_long(x, p);
}

字符串则比较复杂:


 else if (PyString_CheckExact(v)) {
        if (p->strings && PyString_CHECK_INTERNED(v)) {
            PyObject *o = PyDict_GetItem(p->strings, v);	// 获取在strings中的序号
            if (o) {			// inter对象的非首次写入
                long w = PyInt_AsLong(o);
                w_byte(TYPE_STRINGREF, p);
                w_long(w, p);
                goto exit;
            }
            else {				// intern对象的首次写入
                int ok;
                ok = o && PyDict_SetItem(p->strings, v, o) >= 0;
                Py_XDECREF(o);
                w_byte(TYPE_INTERNED, p);
            }
        }
        else {					// 写入普通string
            w_byte(TYPE_STRING, p);
        }
        n = PyString_GET_SIZE(v);
        W_SIZE(n, p);
        w_string(PyString_AS_STRING(v), n, p);
    }		

(1)若写入普通字符串,写入字符串类型信息"S",然后写入字符串长度及string值。

(2)若写入inter字符串,先到WFILE的strings中查找:

(a)若找到,则写入引用类型信息"R",然后写入序号

(b)若未找到,创建对象放入strings,并写入intern类型信息"t",然后写入字符串长度及string值。
若依次写入"efei"、"snow"、"efei",则会如下:


从pyc文件读入时,依靠list,那么序号就可以利用上了。

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注编程网的更多内容!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python编译结果之code对象与pyc文件详解

下载Word文档到电脑,方便收藏和打印~

下载Word文档

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录