我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python虚拟机栈帧对象及获取源码学习

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python虚拟机栈帧对象及获取源码学习

Python虚拟机

注:本篇是根据教程学习记录的笔记,部分内容与教程是相同的,因为转载需要填链接,但是没有,所以填的原创,如果侵权会直接删除。此外,本篇内容大部分都咨询了ChatGPT,为笔者解决了很多问题。

问题:

在 Python 程序执行过程与字节码中,我们研究了Python程序的编译过程:通过Python解释器中的编译器对 Python 源码进行编译,最终获得代码对象 PyCodeObject 。编译器根据语法规则对源码进行作用域的划分,并以此为单位来编译源码,最终为每个作用域生成一个代码对象。代码对象则保存了字节码,以及相关名字、常量等静态上下文信息。

(上面这段话是原文章的作者总结的,我个人觉得还是很到位的,大家也可以再回顾一下这篇笔记的内容: Python 程序执行过程与字节码,更深刻体会下。)

那么当我们得到了编译产出的代码对象后,虚拟机是如何解析并执行其中的字节码指令的呢?与语法作用域相对应的运行时名字空间,在虚拟机中又是如何动态维护的呢?

1. 栈帧对象

1.1 PyFrameObject

  • 当 Python 解释器加载一个模块或者执行函数时,会为对应的 PyCodeObject 创建一个 PyFrameObject 对象,并将其压入 Python 解释器的执行栈中。以函数为例,PyFrameObject 对象表示函数调用的栈帧对象,它包含了函数调用时的所有状态信息,包括局部变量、栈、当前指令等信息。

具体地我们来看一下执行上下文的具体结构——PyFrameObject,源码如下:

typedef struct _frame {
    PyObject_VAR_HEAD
    struct _frame *f_back;      
    PyCodeObject *f_code;       
    PyObject *f_builtins;       
    PyObject *f_globals;        
    PyObject *f_locals;         
    PyObject **f_valuestack;    
    
    PyObject **f_stacktop;
    PyObject *f_trace;          
    char f_trace_lines;         
    char f_trace_opcodes;       
    
    PyObject *f_gen;
    int f_lasti;                
    
    int f_lineno;               
    int f_iblock;               
    char f_executing;           
    PyTryBlock f_blockstack[CO_MAXBLOCKS]; 
    PyObject *f_localsplus[1];  
} PyFrameObject;

源码分析(只列出重要字段):

思考:PyFrameObject为什么没有记录闭包信息?

  • f_back:表示当前栈帧的前一个栈帧,即调用当前函数的函数的栈帧。Python解释器使用这个字段来实现函数调用的递归和返回。如果当前函数是最外层函数,即没有调用它的函数,则该字段为NULL。
  • f_code:表示当前栈帧对应的 PyCodeObject 对象,即当前函数的字节码和相关信息。Python 解释器使用这个字段来执行函数中的字节码指令。
  • f_builtins:表示当前栈帧的内建变量字典,即当前函数中访问的所有内建函数和对象的名称和值。Python 解释器使用这个字段来实现对内建函数和对象的访问。
  • f_locals:表示当前栈帧的局部变量字典,即当前函数的所有局部变量的名称和值。Python 解释器使用这个字段来实现变量的读取和写入操作。
  • f_lasti:表示当前栈帧执行的最后一条指令的指令码在字节码序列中的索引。Python 解释器使用这个字段来记录当前函数执行的进度,以便在函数被中断或者函数返回时,能够恢复到正确的执行位置。
  • f_lineno:表示当前栈帧执行的源代码行号。Python 解释器使用这个字段来跟踪当前函数的行号,以便在发生异常时能够提供更准确的错误信息。
  • f_localsplus:表示当前栈帧的栈顶指针,即当前函数调用的栈的顶部。Python 解释器使用这个字段来实现函数调用的参数传递和返回值传递。
  • PyFrameObject 对象本身不记录闭包相关的信息是出于设计上的考虑。一个主要的原因是为了保持执行栈的简洁性和高效性。
  • 闭包是一种在 Python 中广泛使用的编程模式,但是它在实现上是比较复杂的。在解释器执行 Python 代码时,一个函数在定义时可能没有引用外部变量,但是在运行时却可能引用了。因此,如果要记录函数中使用的外部变量,就需要在运行时动态地创建一个闭包对象,并将其与函数对象关联起来。这就会给执行栈的实现带来很大的复杂性。
  • 另一个原因是,闭包可能会被频繁地创建和销毁,而在执行栈中保存大量的闭包信息会导致执行效率变慢,甚至可能引起内存泄漏。因此,Python 解释器在设计执行栈时,选择不记录闭包相关的信息,以保持执行栈的简洁性和高效性。
  • 虽然 PyFrameObject 对象本身不记录闭包相关的信息,但是 Python 解释器可以通过其他方式来获取函数的闭包信息,例如通过函数对象的 closure 属性。

PyFrameObject结构图如下:

  • 其中,f_code字段保存了当前执行的代码对象,最核心的字节码就在代码对象中。而f_lasti字段则保存着上条已执行字节码的编号。虚拟机内部用一个C局部变量next_instr维护下条字节码的位置,并据此加载下一条待执行的字节码指令,原理和CPU的指令指针寄存器(%rip)一样。
  • 另外,注意到f_back字段执行前一个栈帧对象,也就是调用者的栈帧对象。这样一来,栈帧对象按照调用关系串成一个调用链。(这里和x86CPU栈帧布局是如出一辙的,原作者在这里介绍了x86CPU栈帧布局与函数调用之间的关系,笔者能力有限就不介绍了,大家感兴趣的可以自行查找相关资料(主要还是微机原理和汇编学的不是很好。。。))

1.2 栈帧对象链

现在,我们以具体例子来考察Python栈帧对象链以及函数调用之间的关系:

pi = 3.14
def square(r):
    return r ** 2
def circle_area(r):
    return pi * square(r)
def main():
    print(circle_area(5))
if __name__ == '__main__':
    main()

当Python开始执行这个程序时,虚拟机先创建一个栈帧对象,用于执行模块代码对象:

当虚拟机执行到模块代码第13行时,发生了函数调用。这时,虚拟机会新建一个栈帧对象,并开始执行函数main()的代码对象:

随着函数调用逐层深入,当调用square()函数时,调用链达到最长:

当函数调用完毕后,虚拟机通过f_back字段找到前一个栈帧对象并回到调用者代码中继续执行。

1.3 栈帧获取

栈帧对象PyFrameObject中保存着Python运行时信息,在底层执行流控制以及程序调试中非常有用。在Python代码层面,我们可以通过sys模块中的_getframe()函数,即可获得当前栈帧对象:

>>> import sys
>>> frame = sys._getframe()
>>> frame
<frame at 0x00000183FA78F870, file '<pyshell#1>', line 1, code <module>>
>>> dir(frame)
['__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'clear', 'f_back', 'f_builtins', 'f_code', 'f_globals', 'f_lasti', 'f_lineno', 'f_locals', 'f_trace', 'f_trace_lines', 'f_trace_opcodes']

拿到栈帧对象之后,我们来具体看一下相关的属性值,以之前的求面积的函数为例:

>>> import sys
>>> pi = 3.14
>>> def square(r):
        frame = sys._getframe()
        while frame:
            print('name:', frame.f_code.co_name)
            print('Locals', list(frame.f_locals.keys()))
            print('Globals', list(frame.f_globals.keys()))
            print('===========')
            frame = frame.f_back
        return r ** 2
>>> def circle_area(r):
        return pi * square(r)
>>> def main():
        print(circle_area(2))
>>> if __name__ == '__main__':
        main()
name: square
Locals ['r', 'frame']
Globals ['__name__', '__doc__', '__package__', '__loader__', '__spec__', '__annotations__', '__builtins__', '__file__', '__cached__', 'sys', 'pi', 'square', 'circle_area', 'main']
===========
name: circle_area
Locals ['r']
Globals ['__name__', '__doc__', '__package__', '__loader__', '__spec__', '__annotations__', '__builtins__', '__file__', '__cached__', 'sys', 'pi', 'square', 'circle_area', 'main']
===========
name: main
Locals []
Globals ['__name__', '__doc__', '__package__', '__loader__', '__spec__', '__annotations__', '__builtins__', '__file__', '__cached__', 'sys', 'pi', 'square', 'circle_area', 'main']
===========
name: <module>
Locals ['__name__', '__doc__', '__package__', '__loader__', '__spec__', '__annotations__', '__builtins__', '__file__', '__cached__', 'sys', 'pi', 'square', 'circle_area', 'main']
Globals ['__name__', '__doc__', '__package__', '__loader__', '__spec__', '__annotations__', '__builtins__', '__file__', '__cached__', 'sys', 'pi', 'square', 'circle_area', 'main']
===========
12.56

小拓展:自定义函数实现sys._getframe()功能:(这里是原作者举的一个例子,个人感觉对相关知识的理解是有帮助的)

当Python程序抛出异常时,会将执行上下文带出来,保存在异常中:

>>> try:
        1 / 0
    except Exception as e:
        print(e.__traceback__.tb_frame)
<frame at 0x000002440D95BC50, file '<pyshell#5>', line 4, code <module>>

因此,我们可以自定义一个getframe()函数:

>>> def getframe():
        try:
            1 / 0
        except Exception as e:
            return e.__traceback__.tb_frame.f_back

注意:getframe()中通过异常获得的是自己的栈帧对象e.traceback.tb_frame,所以还需要通过f_back字段找到调用者的栈帧。

2. 字节码执行

Python 虚拟机执行代码对象的主要函数有两个:

PyEval_EvalCodeEx() 是通用接口,一般用于函数这样带参数的执行场景:

PyObject *
PyEval_EvalCodeEx(PyObject *_co, PyObject *globals, PyObject *locals,
                  PyObject *const *args, int argcount,
                  PyObject *const *kws, int kwcount,
                  PyObject *const *defs, int defcount,
                  PyObject *kwdefs, PyObject *closure);

PyEval_EvalCode() 是更高层封装,用于模块等无参数的执行场景:

PyObject *
PyEval_EvalCode(PyObject *co, PyObject *globals, PyObject *locals);

这两个函数最终调用 _PyEval_EvalCodeWithName() 函数,初始化栈帧对象并调用 PyEval_EvalFrame 系列函数进行处理。栈帧对象将贯穿代码对象执行的始终,负责维护执行时所需的一切上下文信息。而PyEval_EvalFrame 系列函数最终调用 _PyEval_EvalFrameDefault() 函数,虚拟机执行的核心就在这里(具体源码这里就不讲解了)。

PyObject *
PyEval_EvalFrame(PyFrameObject *f);
PyObject *
PyEval_EvalFrameEx(PyFrameObject *f, int throwflag);
PyObject* _Py_HOT_FUNCTION
_PyEval_EvalFrameDefault(PyFrameObject *f, int throwflag);

文章后续以顺序执行、if判断、while循环详细讲解了字节码的执行过程,这里笔者就不赘述了。

以上就是Python虚拟机栈帧对象及获取源码学习的详细内容,更多关于Python虚拟机栈帧对象获取的资料请关注编程网其它相关文章!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python虚拟机栈帧对象及获取源码学习

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python虚拟机栈帧对象及获取源码学习

这篇文章主要为大家介绍了Python虚拟机栈帧对象及获取源码学习,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2023-03-23

Python虚拟机栈帧对象及获取的方法是什么

本篇内容主要讲解“Python虚拟机栈帧对象及获取的方法是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python虚拟机栈帧对象及获取的方法是什么”吧!Python虚拟机问题:在 Pyth
2023-07-05

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录