一文搞懂Python文件读取报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte

2023-09-03 18:35

短信预约 -IT技能 免费直播动态提醒

问题描述：

下面是一个非常简单的读取并打印文件内容的示例：

with open('test.txt', 'r') as f:    contents = f.read()print(contents)

在test.txt文本文件中，只有一个 `你` 字：

test.txt

你

但是，我们在运行这段代码时，出现了如下的错误：

报错：

UnicodeDecodeError: 'gbk' codec can't decode byte 0xa0 in position 2: incomplete multibyte sequence

分析问题：

首先我们得知道这个错误是什么意思。

报错翻译过来就是：

Unicode解码错误：“gbk”编解码器无法解码位置2的字节0xa0：不完整的多字节序列

通过了解报错信息，我们知道了这是一个解码的错误。要分析这个错误，我们首先要对Python的字符编码有一个基本的认识。

对于Python字符编码的问题，大家可以看看我的这篇博文：

一文搞懂Python字符编码（编码方式、乱码和报错原因）_lyb06的博客-CSDN博客

在这篇博文中，我不仅介绍了字符编码，还分析了这个报错出现的具体原因，但这里我们主要探讨解决方法，就不做赘述了。想了解具体原因可看该文第3、4部分。

现在我们知道了这个错误是因为我们使用gbk（Windows 平台，默认编码是 gbk）对文本进行解码时，有一处地方多出了一个字节无法解码。gbk将一个汉字编码为2个字节，也就是每两个字节可解码为一个汉字，而一个字节无法解码，故报错，这也就解释了报错信息后面的：incomplete multibyte sequence（不完整的多字节序列）。

出现这种问题，一般是由于该文本文件是用utf-8编码的（utf-8将一个汉字编码为3个字节），但我们却使用gbk来解码。由于二者对于汉字的编码方式是不一样的，解码时又恰好出现了多余的无法解码的字节，因此就出现了报错。

为什么要说恰好出现多余的无法解码的字节？

因为有种特殊情况不会报错！用utf-8编码了两个汉字(6个字节)，此时用gbk可以将其解码为3个汉字(6个字节分为3份2个字节，可以对应3个汉字)，这种情况不会报错，但显示的信息不一样，就是我们常说的乱码，详情见上面提到的博文。

你可将读取的test.txt文件中的内容改为两个汉字 "你好" ，在运行一下这个代码，你会发现没有报错，但是打印出的信息就不是 '你好' 了。

5、要解决这个问题，我们就要让Python用utf-8来解码文件。

解决方法：

在使用open() 时，我们添加参数 encoding='utf-8'。使用这个参数，相当于我们就告诉了Python：我们这个文件是用utf-8编码的，你一会儿对这个文件解码的时候，就用utf-8解码，不要用gbk解码。

with open('test.txt', 'r', encoding='utf-8') as f:    contents = f.read()print(contents)

输出：

成功！问题解决。

来源地址：https://blog.csdn.net/lyb06/article/details/129675526

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python pycharm Powered by 金山文档

阅读原文内容投诉

一文搞懂Python文件读取报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte

下载Word文档到电脑，方便收藏和打印～

下载Word文档

一文搞懂Python文件读取报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte

问题描述：

分析问题：

解决方法：

一文搞懂Python文件读取报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte

相关文章

猜你喜欢

一文搞懂Python文件读取报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte

Python 读取csv文件时报错：UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xd0 in position 0:invali

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

一文搞懂Python文件读取报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte

问题描述：

分析问题：

解决方法：

一文搞懂Python文件读取报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte

相关文章

猜你喜欢

一文搞懂Python文件读取报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte

Python 读取csv文件时报错：UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xd0 in position 0:invali

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复