我的编程空间,编程开发者的网络收藏夹
学习永远不晚

一篇文章教你掌握python数据类型的底层实现

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

一篇文章教你掌握python数据类型的底层实现

在这里插入图片描述

1. 列表

1.1 复制

浅拷贝


list_1 = [1, [22, 33, 44], (5, 6, 7), {"name":"Alina"}]
list_3 = list_1        ## 错误!!只是换了别名
list_2 = list_1.copy() ## 浅拷贝
##或者 也可这样实现 
## list_1[:]
## list(list_1)

对拷贝前后两个列表分别进行操作


list_2[1].append(55)
print("list_1: ", list_1)
print("list_2: ", list_2)

发现虽然浅拷贝了,但修改 list_2 的某些元素时,相应的 list_1 也有同样的变化

在这里插入图片描述

1.2 列表的底层实现 - 浅拷贝

通过 引用数组 实现列表元素的存储

列表中存储的并不是我们看到的元素的值,而是这些元素的地址

列表所谓的连续,是在内存中连续存储元素的地址,而元素的值是在内存中分散存储的

当访问到列表的某个元素时,是按照列表中存储的元素地址去找到元素的值

直接赋值,是完完全全的没改变原列表的任何内容,就是原来的列表多了一个别名。

浅拷贝,确实是把列表拷贝了一份,也就是把列表中存储的地址全部拷贝了一份给新列表,新列表拥有一份独立的地址信息。但这些地址指向的元素和原列表是同一份元素。总结,浅拷贝只是把地址重新拷贝了一份,他们指向的内容还是同一份内容。

在这里插入图片描述

1.3 浅拷贝 - 示例

在这里插入图片描述

在这里插入图片描述

1. 新增元素

在这里插入图片描述

新增元素时,list_1 列表中新存储了一个指向元素100的地址,list_2 列表中新增了一个指向元素 ‘n' 的地址,因此互不影响。

在这里插入图片描述

2. 修改元素

当我们对 list_1[0]重新赋值的时候,实际是把这里原来存储的指向元素1的地址,替换成了另一个地址——指向元素10的地址,下次我们去list_1[0] 找元素的时候,会直接找到元素10,而不会再和原来的元素1有任何联系。同样的,list_2[0] 存放的地址换成了元素20的地址。

在这里插入图片描述

在这里插入图片描述

3. 列表型元素

在这里插入图片描述

list_1[1] 和 list_2[1] 存放了同一个地址列表,这个地址列表指向的也是同一批列表元素,所以修改 list_1[1]和list_2[1]的时候,都是对这批列表元素进行修改,是同时更新的。

在这里插入图片描述

4. 元组型元素

元组是不可变的!!! 一旦改变了,就不再是这个元组了,而是一个新的元组。

所以要对元组执行操作,都是先产生一个新元组,再在新元组上执行相应操作。在这里就是先产生了一个新的地址元组(元组内存储了元素地址),再对新元组进行修改。

在这里插入图片描述

在这里插入图片描述

5. 字典型元素

对 list_1里的字典元素,增加一个键值对,发现 list_2 里的字典元素也增加了键值对。

和列表型元素类似,在对列表型元素操作时,地址列表本身是不变的,我们对于地址列表的内容进行操作。

在对字典型元素操作时,字典散列表本身也是不变的,我们对于字典散列表的内容进行操作,按照新增的键找到对应位置,把新增的值存进去,这个新增值的存放位置,是由字典的键决定的。

在这里插入图片描述

6. 小结

列表,字典类型的元素,都是可变的,可以在地址不变的情况下改变内容。

而元组,数字,字符串类型的元素,一旦内容发生变化,那么地址也必须变化。

浅拷贝之后,针对不可变元素(元组,数字,字符串)的操作都生效了

针对可变元素(列表,字典)的操作,则发生了一些混淆。

当列表中出现了可变类型的元素,我们想对列表进行一个安全的复制,使得能够独立操作而不影响原列表,那么就不能浅拷贝,而是需要深拷贝。

1.4 列表的底层实现 - 深拷贝

copy.deepcopy()

深拷贝将所有层级的相关元素全部完全的复制,避免了上述的混淆问题。

在这里插入图片描述

在这里插入图片描述

2. 字典

2.1 快速查找

慢 - 列表的查找


import time

ls_1 = list(range(1000000))
ls_2 = list(range(500)) + [-10]*500

start = time.time()
count = 0
for n in ls_2:
	if n in ls_1:
		count += 1
end = time.time()
print("查找{}个元素,在ls_1中有{}个,共用时{}秒".format(len(ls_2), count, round(end-start)))) 
# 查找1000个元素,在ls_1中有500个,共用时6.19秒

快 - 字典的查找


import time

d = {i:i for i in range(1000000)}
ls_2 = list(range(500)) + [-10]*500

start = time.time()
count = 0
for n in ls_2:
	try:
		d[n]
    except:
    	pass
    else:
    	count += 1
end = time.time()
print("查找{}个元素,在ls_1中有{}个,共用时{}秒".format(len(ls_2), count, round(end-start)))
# 查找1000个元素,在ls_1中有500个,共用时0秒

2.2 字典的底层实现

通过稀疏数组 实现值的存储与访问

1. 字典的创建过程

1.创建一个散列表(稀疏数组,N >>n,可以动态扩充

2.通过hash()计算键的散列值

3.根据计算的散列值确定其在散列表中的位置(个别时候有哈希冲突,解决办法是开放寻址法 或 链接法 )

4.在该位置上存入值


d = {}
# d = dict() 
print(hash("python"))
print(hash(1024))
print(hash(1.2))
# -477104656440599764...
# 1024
# 3713081631934410656...
d["age"] = 18  #增加键值对之前,首先计算键的散列值hash("age")
print(hash("age"))
# 

在这里插入图片描述

2. 字典的访问过程

1.计算要访问的键的散列值

2.根据计算的散列值,按照一定的规则,确定其在散列表中的位置

3.读取该位置上存储的值(存在则返回该值,不存在则报错 KeyError)


d["age"]  #访问键值对之前,首先计算键的散列值hash("age")

2.3 小结

字典数据类型,以空间换时间,内存占用大,空间利用率低,但查找速度快(稀疏数组 N >> n,否则会产生很多冲突,另外动态扩充也是)因为键在字典中显示的顺序,与实际计算出来的它在散列表中的存放位置,是两码事,因此字典表现为无序的

之前专门写过 —— Python字典及底层哈希

3. 字符串

通过紧凑数组 实现字符串的存储

字符串数据在内存中是连续存放的,空间利用率高

原因是:每个字符的大小是固定的,因此一个字符串的大小也是固定的,可以分配一个固定大小的空间给字符串。

同为序列类型,为什么列表采用引用数组,而字符串采用紧凑数据

虽然同为序列类型,但列表可以存储的元素类型是多种多样的,并且列表是可变的,无法预估内存空间,所以列表不能通过紧凑数组。

在这里插入图片描述

4. 是否可变

不可变类型:数字,字符串,元组

(元组并不总是不可变的,元组内存储的元素也必须同时是不可变类型,否则该元组属于可变)

在生命周期内保持内容不变,一旦内容变了,就不再是它了( id / 地址也变了)

不可变对象的 += 扩充操作,实际上是创建了一个新的对象。


x = 1
print("x id:", id(x))
# x id: 1407184...
x += 2
print("x id:", id(x))
# x id: 204099...

可变类型:列表,字典,集合

id (地址)不变的情况下,里面的内容可以改变

可变对象的 += 操作,实际是在原对象的基础上直接修改


ls = [1,2,3]
print("ls id:", id(ls))
# ls id: 2040991750856
ls += [4,5]
print("ls id:", id(ls))
# ls id: 2040991750856

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注编程网的更多内容!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

一篇文章教你掌握python数据类型的底层实现

下载Word文档到电脑,方便收藏和打印~

下载Word文档

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录