位置：首页-资讯-后端开发

Python内建类型str源码学习

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

引言

“深入认识Python内建类型”这部分的内容会从源码角度为大家介绍Python中各种常用的内建类型。

在介绍常用类型str之前，在上一篇博客：Python源码学习笔记：深入认识Python内建类型——bytes已经为大家介绍了和str息息相关的bytes的源码知识。这篇博客回味大家分析str相关的源码。

1 Unicode

计算机存储的基本单位是字节，由8个比特位组成。由于英文只由26个字母加若干符号组成，因此英文字符可以直接用字节来保存。但是其他语言（例如中日韩等），由于字符众多，不得不使用多个字节来进行编码。

随着计算机技术的传播，非拉丁文字符编码技术不断发展，但是仍然存在两个比较大的局限性：

不支持多语言：一种语言的编码方案不能用于另外一种语言
没有统一标准：例如中文就有GBK、GB2312、GB18030等多种编码标准

由于编码方式不统一，开发人员就需要在不同编码之间来回转换，不可避免地会出现很多错误。为了解决这类不统一问题，Unicode标准被提出了。Unicode对世界上大部分文字系统进行整理、编码，让计算机可以用统一的方式处理文本。Unicode目前已经收录了超过14万个字符，天然地支持多语言。（Unicode的uni就是“统一”的词根）

2 Python中的Unicode

2.1 Unicode对象的好处

Python在3之后，str对象内部改用Unicode表示，因此在源码中成为Unicode对象。使用Unicode表示的好处是：程序核心逻辑统一使用Unicode，只需在输入、输出层进行解码、编码，可最大程度地避免各种编码问题。

图示如下：

2.2 Python对Unicode的优化

问题：由于Unicode收录字符已经超过14万个，每个字符至少需要4个字节来保存（这里应该是因为2个字节不够，所以才用4个字节，一般不会使用3个字节）。而英文字符用ASCII码表示仅需要1个字节，使用Unicode反而会使频繁使用的英文字符的开销变为原来的4倍。

首先我们来看一下Python中不同形式的str对象的大小差异：

>>> sys.getsizeof('ab') - sys.getsizeof('a')
1
>>> sys.getsizeof('一二') - sys.getsizeof('一')
2
>>> sys.getsizeof('

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

Python内建类型str源码学习
下载Word文档到电脑，方便收藏和打印～

下载Word文档

`相关文章`

`猜你喜欢`

Python内建类型str源码学习

2024-04-02

Python内建类型float源码学习

2024-04-02

Python内建类型list源码学习

2024-04-02

Python内建类型int源码学习

2024-04-02

Python内建类型str源码分析这篇文章主要讲解了“Python内建类型str源码分析”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python内建类型str源码分析”吧！1 Unicode计算机存储的基本单位是字节，由8

2023-06-30

python学习系列--str类型str的内置方法。__contains__()        判断字符串中是否包含某特定字符。等同于'in'关键字。__format__()           字符串格式化。capitalize()             首字母大写。c

2023-01-31

Python内建类型dict源码分析本篇内容主要讲解“Python内建类型dict源码分析”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python内建类型dict源码分析”吧!深入认识Python内建类型—&mdas

2023-07-05

Python内建类型float源码分析这篇文章主要介绍“Python内建类型float源码分析”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“Python内建类型float源码分析”文章能帮助大家解决问题。1 回顾float的基础知识1.

2023-06-30

Python内建类型int源码分析今天小编给大家分享一下Python内建类型int源码分析的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。问题：对于C语言，下面

2023-06-30

Python内建类型bytes实例代码分析这篇文章主要讲解了“Python内建类型bytes实例代码分析”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python内建类型bytes实例代码分析”吧！1 bytes和str之间的关系不

2023-06-30

python深度学习之多标签分类器及pytorch实现源码

2024-04-02

Python编程算法学习笔记中的数据类型：你需要知道的所有内容。

2023-07-11

`编程热搜`

Python 学习之路 - Python
一、安装Python34Windows在Python官网（https://www.python.org/downloads/）下载安装包并安装。Python的默认安装路径是：C:\Python34配置环境变量：【右键计算机】--》【属性】-
chatgpt的中文全称是什么
chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，并协助人类完成一系列
C/C++中extern函数使用详解
C/C++可变参数的使用
可变参数的使用方法远远不止以下几种，不过在C,C++中使用可变参数时要小心，在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少，否则会产生访问越界，运气不好的话还会导致程序崩溃
css样式文件该放在哪里
php中数组下标必须是连续的吗
Python 3 教程
Python 3 教程 Python 的 3.0 版本，常被称为 Python 3000，或简称 Py3k。相对于 Python 的早期版本，这是一个较大的升级。为了不带入过多的累赘，Python 3.0 在设计的时候没有考虑向下兼容。 Python
Python pip包管理
一、前言在Python中，安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具： easy_install 和 pip ，目前官方推荐使用 pip。
ubuntu如何重新编译内核
改善Java代码之慎用java动态编译