UTF-8、UTF-16、Unicode、GB2312、GBK、GB18030一次说清楚
关于存储编码和显示编码的区别。
Unicode是显示编码,UTF-8、UTF-16、GB2312、GBK、GB18030都是存储/传输方面使用,也叫做存储编码、处理编码,你在计算机上看见的所有文字都从存储编码转成显示编码后,显示出来,当你单机保存时又从显示编码转换为存储编码存储起来。
为什么要区分存储编码和显示编码?
目前是为了节约存储空间和节约传输带宽,自古以来磁盘存储资源和传输资源都是需要昂贵代价的,虽然Unicode编码很好、覆盖很全、被称为万国码,但是它的编码并不节约空间,Unicode编码对应的存储编码的实现是UTF-16,也就是说UTF-16基本等于Unicode,和Unicode一样不节约空间,因为UTF-16不够节约空间,这就产生了UTF-8编码。UTF-8编码比Unicode节约空间很多,而且可以做到可Unicode一一映射,已经成为全球使用最广的文字处理编码方式。
中国为什么要发展GB2312/GBK/GB18030这些区别于UTF-8的存储编码?
既然UTF-8编码那么优秀,可以和Unicode一一映射,然后又很节约空间,为什么不直接采用UTF-8编码来存储和传输呢?一定要发展GB系列(中国国标系列)的编码呢?
对于一个需要包容全世界语言文字的文件,建议用UTF-8编码来存储和传输,比如一个txt文件里,你既需要放中国汉字,还要在该文件里写入新加坡语文字、德语文字、法语文字、意大利文字,葡萄牙文字,匈牙利文字,那么这个文件肯定是要存储成UTF-8编码格式。但是对于只需要存放中文文字和数字、字母、标点符号的一个文件,用UTF-8编码还不是最节约空间的。GB系列的标准对于汉字的存储和传输比UTF-8编码还节约空间很多,大约节约1/4到1/3左右的存储空间,所以GB系的编码在中国这片大地上很实用,很节省空间、节约带宽。打个最简单的比喻,20个学生的学号,后面的10-20这些人的学号必然是个“2位数”,如果你只有9个学生,那么这9个学生的学号都是个“1位数”,当然就节约空间一些,GB系列的编码不能处理德语、法语等其他国家的文字,它所考虑的范围就少一些,那么它就比UTF-8节约空间。
GB2312、GBK、GB18030这三款有哪些区别呢?
GB/T 2312-1980标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。GB2312采用EUC储存方法,以便兼容于ASCII编码,GB2312编码存储的文字,每个符号最多用2个字节,最少用1个字节。它的生命周期就是1980年-1995年.
GBK的全称是《汉字内码扩展规范》(Chinese Internal Code Specification),中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订,国家技术监督局标准化司、电子工业部科技与质量监督司1995年12月15日联合以技监标函1995 229号文件的形式,将它确定为技术规范指导性文件。2000年已被GB18030-2000替代。GBK编码,是在GB2312-80标准基础上的内码扩展规范,使用了双字节编码方案,共23940个码位,共收录了21003个汉字,完全兼容GB2312-80标准。用最简单的话来说就是将GB2312的6千多个汉字扩充到了2万多个汉字,加了日、韩等邻国的常用文字和中文冷僻的人名、古汉语、繁体字等一些字。它的生命周期是1995年-2000年.中文版的WIN95、WIN98、WINDOWS NT以及WINDOWS 2000、WINDOWS XP、WIN7、win10等都支持GBK编码方案。
GB18030是在GBK之后发展起来的, 它是用以替代GBK的一部国家强制性标准,它完全兼容GB2312,基本兼容GBK,它收录的字比GBK多得多,GB18030-2005共计7万余符号,包括了CJK-A、CJK、CJK-B等中日韩统一表义文字。GB18030每个符号可能占1个/2个/4字节,而GB2312和GBK编码的每个符号可能占1个/2个字节。GB18030共发过三版,GB18030-2000是第一版、GB18030-2005是第二版,GB18030-2022是第三版,一版比一版文字多,2005版将于2023年7月31日废止,2022版将于2023年8月1日起实施。
GB18030-2005和GB18030-2022有哪些区别呢?
GBK在GB2312基础上收录了CJK-A中日韩统一表义文字,GB18030-2005在GBK基础上收录了CJK、CJK-B等中日韩统一表义文字,GB18030-2022在GB18030-2005基础上增加了CJK-C、CJK-D、CJK-E、CJK-F四部分中日韩统一表义文字和其他少数民族的一些文字,还修改编码映射18个、删除重复映射9个、删除文字6个。
GB18030-2005将符合性级别区分为“强制性部分符合”和“完全集符合”,强制性部分符合测试则约等于 GBK,共计2万多字符;完全集部分则有7万多字符。
GB18030-2022将符合性级别区分为“实现级别1”、“实现级别2”、“实现级别3”;
实现级别1要测 单字节部分、双字节部分和CJK-A、CJK部分,约等于GB18030-2005的强制性部分。
实现级别2要测 级别1基础上,加测通用规范汉字表,而通用规范汉字表夹含在双字节部分和CJK-A、CJK、CJK-B当中,而在通用规范汉字表当中且不在实现级别1里的,只有220多个汉字,所以实现级别2只比实现级别1加测约220余个汉字。
实现级别3要测 级别2基础上,加测CJK-B、CJK-C、CJK-D、CJK-E、CJK-F,实现级别3比实现级别2加测约6万多个符号,共计是8万7千多个汉字。
来源地址:https://blog.csdn.net/fanghongxia2008/article/details/130487199
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341