动态类型的语言
python是动态类型的语言,不需要声明变量的类型。
实际上,python中的变量仅仅只是用来保存一个数据对象的地址。无论是什么数据对象,在内存中创建好数据对象之后,都只是把它的地址保存到变量名中。所以变量名是类型无关的,但它指向的值是类型相关的,可以是数值、字符串、列表、函数、类、对象等等。这些内存对象中都至少包含3部分:对象类型、对象的引用计数(用来判断改对象是否可被垃圾回收器回收)、对象的值。
因此,a = 3
中,变量名a保存的是数据对象3的地址,之后可以为其赋值一个字符串a = "hello"
,这时a保存的是"hello"字符串的地址。在这个类型改变的过程中,a仅仅只是修改了一下地址而已。
变量的命名风格
python中的变量命名时只能包含数字、大小写字母、下划线这三种类型的字符,并且数字不能是首字符。
还有一些有特殊意义的变量命名方式(目前这些内容了解即可):
- 前缀并后缀双下划线的变量,如
__name__
,这种类型的变量在python中有特殊意义,属于对象的内置属性,以后学了类和对象就知道了
- 单下划线前缀的变量,如
_x
,这类变量不会被from ModuleName import *
的方式导入
- 双下划线前缀的变量,如
__x
,这类变量是类的本地变量或称为类的私有变量,它会扩展成__classname_x
除此之外,还有约定俗成的命名方式:
- 常量以全大写字符表示
- 普通变量、函数名、方法名都以小写字母开头命名
- 模块名、包名以全小写字母命名
- 类名以大写字母开头
因为只是约定俗成,所以没有强制限制。
变量赋值的几种形式细节
本文解释python中变量赋值的形式,并解释一些细节。后面还有一篇文章解释python中按引用赋值的文章。
python中变量赋值的几种形式。
x = "long" # (1).基本形式
x, y = "long", "shuai" # (2).元组对应赋值
[x, y] = ["long", "shuai"] # (3).列表对应赋值
a, b, c, d = "long" # (4).序列赋值
a, *b = 'long' # (5).解包赋值
a = b = "long" # (6).多目标赋值
a += 3 # (7).二元赋值表达式
((a, b), c) = ('lo','ng') # (8).嵌套赋值序列
注意:python的数值是不可变对象,无法在原处修改数据,所以不支持自增、自减。
a++
++a
a--
--b
其中(1)-(3)无需过多解释,唯一需要注意的是,当使用逗号的时候,python总会临时或永久地建立成tuple来保存元素,所以x, y = "long", "shuai"
在内部完全等价于(x, y) = ("long", "shuai")
。
实际上,列表元素也可以赋值给元组,或者元组赋值给列表,只要两边的序列元素个数能对应,无所谓左右两边的序列类型:
>>> (x,y) = (1,2)
>>> (x,y) = [1,2]
>>> [x,y] = (1,2)
>>> [x,y] = [1,2]
>>> (x,y) = 'ab'
>>> [x,y] = 'ab'
对于(4)赋值方式,是序列赋值的行为,在python中,只要是序列,都可以这样赋值。正如这里的变量赋值情况等价于:
a = "l"
b = "o"
c = "n"
d = "g"
如果换成其它的序列也一样。例如:
a, b, c, d = ("shell","perl","php","python")
a, b, c, d = ["shell","perl","php","python"]
但是变量和序列中的元素必须一一对应。如果变量名与元素个数不同,则会报错,除非只有一个变量名,这表示将整个序列赋值给这个变量。
如果想要将序列中的元素赋值给不等的变量,可以考虑先将序列进行切片。
>>> str='long'
>>> a, b, c = list(str[:2]) + [str[2:]]
>>> a,b,c
('l', 'o', 'ng')
(5)的赋值方式则正好是让变量名少于元素个数的方式。这种赋值形式称为序列解包(下文会专门解释这种赋值方式),多出来的元素会全部以列表的方式赋值给最后一个变量名。正如这里等价于:
a="l"
b=["o", "n", "g"]
下面两种赋值方式得到的结果是一样的,a是字符串,b是列表,b都包含3个元素:
a, *b = ("shell","perl","php","python")
a, *b = ["shell","perl","php","python"]
赋值的结果:
shell
['perl', 'php', 'python']
(6)的赋值方式等价于:
b = "long"
a = b
python赋值时,总是先计算"="右边的结果,然后将结果按照赋值方式赋值给"="左边的变量。所以,这里的过程是先将"long"赋值给变量b,再将b赋值给变量a。
因为总是先计算右边,所以交换变量非常的方便。
a, b = "a", "b"
# 交换:
a, b = b, a
# 交换结果:
a = "b"
b = "a"
(7)的赋值方式a += 3
在结果上等价于a = a + 3
,在其它语言中这两种赋值方式是完全等价的,但在python中这种增强赋值的方式要比后者更高效率些,为什么效率要高一些,下文会稍作解释。在很大程度上来说,Python中只要是简化的形式,基本上都比更复杂的等价形式效率更高。
(8)的赋值方式((a, b), c) = ('lo', 'ng')
是将序列进行嵌套序列赋值,将'lo'赋值给元组(a, b)
,'ng'赋值给c,元组又进一步赋值a='l', b='o'
。这种赋值方式在python中很好用,特别是在表达式中赋值的时候,比如for循环和函数参数:
for (a, b, c) in [(1, 2, 3), (4, 5, 6)]:...
for ((a, b), c) in [((1, 2), 3), ((4, 5), 6)]:...
def f(((a, b), c)):...
f(((1, 2), 3))
关于序列解包
在前面简单介绍了一下序列解包:
a, *b = 'long'
当使用一个*
前缀变量的时候,表示将序列中对应的元素全部收集到一个列表中(注意,总是一个列表),这个列表名为*
开头的那个变量名。*
号可以出现在任意位置处,只要赋值的时候能前后对应位置关系即可。
注意其中的几个关键字:序列、对应的元素、列表
- 序列意味着可以是列表、元组、字符串等等
- 列表意味着只要收集不报错,赋值给解包变量的一定是一个列表
- 对应的元素意味着可能收集到0或任意个元素到列表。
不管如何,收集的结果总是列表,只不过可能是空列表或者只有一个元素的列表。
例如:
L = ['aa','bb','cc','dd']
a, *b = L # a='aa',b=['bb','cc','dd']
a, b, *c = L # a='aa',b='bb',c=['cc','dd']
a,*b,d = L # a='aa',d='dd',b=['bb','cc']
*a,d = L # a=['aa','bb','cc'],d='dd'
a,b,c,*d = L # a='aa',b='bb',c='cc',d=['dd']
a,b,c,d,*e = L # a='aa',b='bb',c='cc',d='dd',e=[]
两个注意事项:
- 因为序列解包是根据元素位置来进行赋值的,所以不能出现多个解包变量
- 如果将序列直接赋值给单个解包变量时(即没有普通变量),这个解包变量必须放在列表或元组中
a,*b,c,*d = L # 错误
*a = L # 错误
[*a] = L # 正确
(*a) = L # 正确
之所以单个解包变量时必须放在元组或变量中,看下面两个等价的例子就很容易理解了:
a, *b = L
(a, *b) = L
最后,序列解包是切片的便捷替代方式。能用序列解包的,都能用切片来实现,但切片要输入额外的各种字符。例如:
a,b,c = L[0],L[1],L[2:]
a,b,*c = L
需要注意,解包返回的一定是列表,但序列切片返回的内容则取决于序列的类型。例如下面元组的切片返回的是元组,而不是列表:
>>> T=('aa','bb','cc','dd')
>>> a,b,c = T[0],T[1],T[2:]
>>> a,b,c
('aa', 'bb', ('cc', 'dd'))
二元赋值表达式
python支持类似于a += 3
这种二元表达式。比如:
a += 3 -> a = a + 3
a -= 3 -> a = a - 3
a *= 3 -> a = a * 3
...
在python中的某些情况下,这种二元赋值表达式可能比普通的赋值方式效率更高些。原因有二:
- 二元赋值表达式中,a可能会是一个表达式,它只需计算评估一次,而a = a + 3中,a要计算两次。
- 对于可变对象,可以直接在原处修改得到修改后的值,而普通的一元赋值表达式必须在内存中新创建一个修改后的数据对象,并赋值给变量
第一点无需解释。关于第二点,看下面的例子:
L = [1,2,3]
L = L + [4] # (1):慢
L += [4] # (2):快
L.append(4) # (3):快,等价于(2)
L = L + [5,6] # (4):慢
L += [5,6] # (5):快
L.extend([5,6]) # (6):快,等价于(5)
对于上面(1)和(4)的一元赋值表达式,先取得L,然后创建一个新的列表对象,将L拷贝到新列表对象中,并将4
或5,6
放进新列表对象,最后赋值给L。这个过程中涉及到了几个步骤:新分配内存、内存中列表拷贝、放入新数据。
而(2)(3)是等价的,(5)(6)也是等价的,它们都是直接在内存中的原始列表处修改,不会有拷贝操作,新建的数据对象仅仅只是一个元素。
按照理论上来说,确实二元赋值方式要效率高一些,但要注意的是,列表中保存的只是各元素的引用,所以拷贝列表也仅仅只是拷贝一点引用,这是微乎其微的开销。所以一元赋值和二元赋值的差距在这一点的性能上基本没差距,主要的差距还在于一元、二元赋值方式可能存在的表达式不同评估次数。
总的来说,使用二元赋值表达式通常可以作为可变对象赋值的一种优化手段。