我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python字符集和字符编码是什么

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python字符集和字符编码是什么

这篇文章主要介绍“Python字符集和字符编码是什么”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python字符集和字符编码是什么”文章能帮助大家解决问题。

首先计算机存储的基本单位是字节,由8个比特位组成,由于英文字母算上大小写只有52个,再加上若干字符,数量不会超过256个,因此一个字节完全可以表示。但是随着计算机的普及,越来越多的非英文字符出现,导致一个字节已经无法表示了。所以只能曲线救国,对于一个字节无法表示的字符,使用多个字节表示

但是这样会出现两个问题:

  • 因为每个国家都有自己的字符编码,所以不支持多国语言,例如中文的编码不可以包含日文,否则就会造成乱码;

  • 没有统一标准,例如中文有GB2312、GBK、GB18030等多个标准;

到这里我们先不继续往下深入,我们先来理清楚一些概念。

字符集和字符编码

估计有很多小伙伴搞不清这两者的区别,我们先来解释一下所谓的字符集和字符编码是怎么一回事?

字符集:系统支持的所有字符组成的集合,像ASCII、GB2312、Big5、unicode都属于字符集。只不过不同的字符集所能容纳的字符个数不同,比如ASCII字符集中不包含中文,unicode则可以容纳世界上的所有字符;

字符编码:负责将每个字符转换成一个或多个计算机可以接受的具体数字,该数字可以理解为编号,因此字符编码维护了字符和编号之间的对应关系。而编码也分为多种,比如ascii、gbk、utf-8等等,字符编码不同,那么字符转换之后的编号也不同,当然能转化的字符种类也不同。比如ASCII这种字符编码,它就只能转换ASCII字符。

当然,ASCII比较特殊,它既是字符集、也是字符编码。并且不管采用什么编码,ASCII字符对应的编号永远是相同的。

将字符串中的每一个字符转成对应的编号,那么得到的就是字节序列(bytes对象),因为计算机存储和网络通讯的基本单位都是字节,所以字符串必须以字节序列的形式进行存储或传输。

因此字符串和字节序列在某种程度上是很相似的,字符串按照指定的编码进行encode即可得到字节序列,也就是将每个字符都转成对应的编号;字节序列按照相同的编码decode即可得到字符串,也就是根据编号找到对应的字符。

比如我们写了一段文本,然后在存储的时候必须先进行编码,也就是将每一个字符都转成一个或多个系统可以接受的数字、即对应的编号之后,才可以进行存储。

s = "你好"# 编码之后就是一串数字print(s.encode("gbk"))  # b'\xc4\xe3\xba\xc3'

假设文本中只有你好二字,在存储的时候采用gbk进行编码,那么在读取的时候也必须使用gbk进行解码,否则的话就会无法解析而报错。因为字符编码不同,字符对应的编号也不同。

再比如每个国家都有自己的字符编码,你在日本的一台计算机上写好的文件拿到中国的计算机上打开,很有可能出现乱码。因为字符编码不同,字符和编号之间的对应关系也不同,采用不同的字符编码进行解析肯定会出问题。

但我们说,对于ASCII字符来说,由于不管采用哪一种编码,它们得到的编号都是固定的。所以编码对于ASCII字符来说,没有任何影响。

s = "abc"print(s.encode("gbk"))  # b'abc'print(s.encode("gbk").decode("utf-8"))  # abc# 但如果是非ASCII字符,就不行了try:    s = "你好"    s.encode("gbk").decode("utf-8")except UnicodeError as e:    # 报错了,无法解析    print(e)      # 'utf-8' codec can't decode byte 0xc4 in position 0: invalid continuation byte

这里我们再回忆一下bytes对象,我们创建的时候可以采用字面量的方式,比如 b"abc",但是 b"憨"却不可以。原因就是憨这个字符不是ASCII字符,那么采用不同的字符编码,其对应的编号是不同的,而这种方式Python又不知道我们使用哪一种编码,所以不允许这么做,而是需要通过"憨".encode的方式手动指定字符编码。

但是对于 ASCII 字符而言,不管采用哪一种字符编码,得到的编号都是一样的, 所以Python针对ASCII字符则允许这种做法,比如b"abc"。并且我们看到,对于汉字来说,在编码之后会对应多个编号,而每个编号占1字节,因此不同的字符所占的大小可能不同。

关于“Python字符集和字符编码是什么”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注编程网行业资讯频道,小编每天都会为大家更新不同的知识点。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python字符集和字符编码是什么

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python字符集和字符编码是什么

这篇文章主要介绍“Python字符集和字符编码是什么”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python字符集和字符编码是什么”文章能帮助大家解决问题。首先计算机存储的基本单位是字节,由8个比
2023-06-30

Python字符编码是什么

本文小编为大家详细介绍“Python字符编码是什么”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python字符编码是什么”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。1. 字符编码简介1.1. ASCIIAS
2023-06-29

python字符串的构成及字符编码的细节是什么

本篇内容主要讲解“python字符串的构成及字符编码的细节是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“python字符串的构成及字符编码的细节是什么”吧!字节与字符计算机存储的一切数据,
2023-06-02

python字符编码

近期接触到python的编码相关的东西,发现自己了解的不是太系统,故通过搜索资料做了一些总结。字符编码字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。我们知道,计算机内部,所有信息最终都是一个二进制值。每一个二进制位(bi
2023-01-31

linux设置字符集编码的方法是什么

查看当前系统字符集编码:使用命令`locale`查看当前系统的语言环境、字符集编码等信息。修改字符集编码:可以通过修改`/etc/locale.gen`文件来添加或删除语言环境和字符集编码。修改后需要使用命令`locale-gen`来更新系
2023-05-13

Python中的字符串与字符编码

Hello,这里是Token_w的博客,欢迎您的到来 今天文章讲解的是Python中的字符串与字符编码,其中有基础的理论知识讲解,也有实战中的应用讲解,希望对你有所帮助 整理不易,如对你有所帮助,希望能得到你的点赞、收藏支持。感谢
2023-08-30

mysql字符集是什么

MySQL字符集是指用于存储和处理文本数据的字符编码系统,定义了数据库中可以使用的字符集合,以及每个字符在计算机中的表示方式,MySQL支持多种字符集,包括常见的字符集如UTF-8、Latin1等,以及其他语言特定的字符集,字符集决定了数据
2023-07-25

python字符串编码

python默认编码  python 2.x默认的字符编码是ASCII,默认的文件编码也是ASCII。  python 3.x默认的字符编码是unicode,默认的文件编码是utf-8。 中文乱码问题  无论以什么编码在内存里显示字符,存到
2023-01-30

java使用的字符码集是什么

本篇内容介绍了“java使用的字符码集是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!java语言使用的字符码集是Unicode,Uni
2023-06-26

plsql字符集编码怎么设置

在Oracle数据库中,PL/SQL的字符集编码是与数据库的字符集编码相关联的。字符集编码可以在数据库级别设置,影响所有的PL/SQL代码和数据存储。字符集编码可以在数据库创建时指定,也可以通过ALTER DATABASE语句来修改。以下
plsql字符集编码怎么设置
2024-04-22

oracle怎么查看字符集编码

要查看Oracle数据库的字符集编码,可以使用以下方法之一:1. 使用V$NLS_PARAMETERS视图:在Oracle数据库中,可以使用V$NLS_PARAMETERS视图来查看字符集编码。执行以下SQL语句:```sqlSELECT
2023-09-13

如何掌握 Java 字符集编码解码技巧?(Java字符集编码解码技巧)

在Java编程中,字符集编码解码是一个非常重要的话题。正确处理字符集编码解码可以确保程序在不同的字符集环境下正确地处理文本数据,避免出现乱码等问题。本文将介绍一些Java字符集编码解码的技巧,帮助你更好地处理文本数据。一、字符集的概念
如何掌握 Java 字符集编码解码技巧?(Java字符集编码解码技巧)
Java2024-12-15

python字符编码与转码

python 2.x 字符编码与转码打印系统默认编码格式import sysprint(sys.getdefaultencoding())UTF-8 转 gbk方式:utf-8--转成--unicode--转成--gbka = "你好"pr
2023-01-31

Python chardet 字符编码判

使 用 chardet 可以很方便的实现字符串/文件的编码检测。尤其是中文网页,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码 很重要的,虽然HTML页面有charset标签,但是有些时候是不对的
2023-01-31

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录