我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Java中常见的编码集问题总结

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Java中常见的编码集问题总结

一、遇到一个问题

1、读取CSV文件

package com.guor.demo.charset;

import java.io.BufferedReader;
import java.io.FileReader;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class CommonUtils {
    public static List<Map<String, Object>> readCSVToList(String filePath) throws Exception {
        List<Map<String, Object>> list = new ArrayList<Map<String, Object>>();
        BufferedReader reader = null;
        try {
            reader = new BufferedReader(new FileReader(filePath));
            String[] headtilte = reader.readLine().split(",");
            String line = null;
            while ((line = reader.readLine()) != null) {
                HashMap<String, Object> hashMap = new HashMap<String, Object>();
                String[] itemArray = line.split(",");
                for (int i = 0; i < itemArray.length; i++) {
                    hashMap.put(headtilte[i], itemArray[i]);
                }
                list.add(hashMap);
            }
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            if (null != reader) {
                reader.close();
            }
        }
        return list;
    }

    public static void main(String[] args) throws Exception {
        String filePath = "H:\\CSDN\\netty\\编码集问题\\test.csv";
        System.out.println(readCSVToList(filePath));
    }
}

2、控制台输出

这是什么鬼?

原来我的csv文件的编码集是带BOM的UTF-8,没听过啊,众里寻他千百度。

二、带有BOM的UTF-8

1、BOM

在UCS 编码中有一个叫做 “Zero Width No-Break Space” ,中文译名作“零宽无间断间隔”的字符,它的编码是 FEFF。而 FEFF 在 UCS 中是不存在的字符,所以不应该出现在实际传输中。UCS 规范建议我们在传输字节流前,先传输字符 “Zero Width No-Break Space”。这样如果接收者收到 FEFF,就表明这个字节流是 Big-Endian 的;如果收到FFFE,就表明这个字节流是 Little- Endian 的。因此字符 “Zero Width No-Break Space” (“零宽无间断间隔”)又被称作 BOM。

2、UTF-8

UTF-8(8位元,Universal Character Set/Unicode Transformation Format)是针对Unicode的一种可变长度字符编码。它可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCII相容,使得原来处理ASCII字符的软件无须或只进行少部分修改后,便可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。

3、UTF-8 BOM

UTF-8 不需要 BOM 来表明字节顺序,但可以用 BOM 来表明编码方式。字符 “Zero Width No-Break Space” 的 UTF-8 编码是 EF BB BF。所以如果接收者收到以 EF BB BF 开头的字节流,就知道这是 UTF-8编码了。Windows 就是使用 BOM 来标记文本文件的编码方式的。

4、CSV文件乱码问题

类似WINDOWS自带的记事本等软件,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入UTF-8 BOM头。记事本等编辑器通过它来识别这个文件是否以UTF-8编码(当然即便没有UTF-8 BOM头记事本也能通过其它方式正确识别UTF-8编码)。

三、编码解码

在计算机发展初期,美国等少数国家最先给自己的语言设置了一套编码,即ASCII。因为英语只有26个英文字母及一些常见的符号即可,因此只需要一个字节的 7 位(即 128 个整数)就能完全表示英文字符。

但随着计算机的发展,欧洲一些国家也需要为自己的语言设置一套编码,ASCII的128个字符不够用了,因此就产生了第二套编码类型 ISO-8859-1 ~ ISO-8859-15,其中使用最广泛的是ISO-8859-1,ISO-8859-1使用了一个字节的 8 位,可以表示256个字符。为了避免乱码问题,ISO-8859-1完全兼容ASCII,ISO-8859-1的前128位和ASCII完全一致,后128个字符才是ISO-8859-1自身新扩展的字符编码。

后来,中国也给汉语设置了一套编码,提出了适合汉语的编码集GB2312。GB2312包含了682个英文、字母等符号及常见的6763个简体中文,我勒个去,中华上下五千年,博大精深啊。

再后来,为了将简体中文和繁体中文兼容到字符集里,又发布了新的编码集GBK。GBK实际是GB2312的扩展,使用1个字节存储ASCII中的字符,使用2个字节存储一个中文汉字。

最后,为了给世界上的所有字符设置一套统一的编码集,出台了统一的字符集规范Unicode(国际标准字符集)。其中就包含最著名的UTF-8。

UTF-8是ASCII的超集,ASCII中每个字符的编码与UTF-8是完全一致的,因此当用UTF-8存储汉字或其他字符时,可能会使用2个、3个或4个字节。

  • 1个字节:英文,数字,回车符,ASCII中的常用符号+、-、*、/等;
  • 2个字节:个别特殊符号;
  • 3个字节:常见汉字,在GBK中存在的汉字;
  • 4个字节:中日韩等超大字符集里面的汉字;

在java.nio.charset.Charset类中,提供了一些编码及常用方法。

四、解决读取“带有BOM的UTF-8文件乱码”问题

1、读取文件编码集

按照给定的字符集存储文件时,在文件的最开头的三个字节中就有可能存储着编码信息,所以,基本的原理就是只要读出文件前三个字节,判定这些字节的值,就可以得知其编码的格式。其实,如果项目运行的平台就是中文操作系统,如果这些文本文件在项目内产生,即开发人员可以控制文本的编码格式。

2、用指定的编码格式读取文件流,写入文件流

(1)读取CSV文件

public static List<String[]> readCSVToListByUnicode(String filePath) {
        FileInputStream fis = null;
        UnicodeInputStream uin = null;
        InputStreamReader in= null;
        try {
            //logger.info("读取文件"+filePath+"编码集");
            List<String[]> list = new ArrayList<String[]>();
            //URL url = new URL(filePath);
            File f  = new File(filePath);
            fis = new FileInputStream(f);
            uin = new UnicodeInputStream(fis,enc);  //如果是本地将url.openStream -> new FileInputStream(f)
            enc = uin.getEncoding(); // check and skip possible BOM bytes
            if (enc == null){
                in = new InputStreamReader(uin);
            }else {
                in = new InputStreamReader(uin, enc);
            }
            long start = System.currentTimeMillis();
            //logger.info("读取文件"+filePath+"查看耗时开始");
            BufferedReader reader = new BufferedReader(in);
            //BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream("D:/tags.txt"),"utf-8"));
            //String tmp =reader.readLine();

            String[] headtilte = reader.readLine().split(",");
            list.add(headtilte);
            String line = null;
            String[] itemArray = null;
            while ((line = reader.readLine()) != null) {
                itemArray = line.split(",");
                list.add(itemArray);
            }
            long end = System.currentTimeMillis();
            //logger.info("读取文件"+filePath+"查看耗时="+(end-start)+"毫秒");
            return list;
        }catch (Exception e){
            logger.info("读取文件"+filePath+",异常:", e);
            return null;
        }finally {
            try {
                if(in!=null){
                    in.close();
                }
                if(uin!=null){
                    uin.close();
                }
                if(fis!=null){
                    fis.close();
                }
            }catch (Exception e){
                logger.info("读取文件"+filePath+",关闭流异常:", e);
            }
        }
    }

(2)获取文件编码集

package com.guor.demo.utils;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.IOException;
import java.io.InputStream;
import java.io.PushbackInputStream;

public class UnicodeInputStream extends InputStream {

    private static final Logger logger = LoggerFactory.getLogger(UnicodeInputStream.class);

    PushbackInputStream internalIn;

    boolean isInited = false;

    String defaultEnc;

    String encoding;

    private static final int BOM_SIZE = 4;

    public UnicodeInputStream(InputStream in, String defaultEnc) {
        internalIn = new PushbackInputStream(in, BOM_SIZE);
        this.defaultEnc = defaultEnc;
    }

    public String getDefaultEncoding() {
        return defaultEnc;
    }

    public String getEncoding() {
        if (!isInited) {
            try {
                init();
            } catch (IOException ex) {
                IllegalStateException ise = new IllegalStateException("Init method failed.");
                ise.initCause(ise);
                throw ise;
            }
        }
        return encoding;
    }

    
    protected void init() throws IOException {
        if (isInited) {
            return;
        }
        byte bom[] = new byte[BOM_SIZE];
        int n, unread;
        n = internalIn.read(bom, 0, bom.length);

        //logger.info("文件的前四个字符==="+bom[0]+","+bom[1]+","+bom[2]+","+bom[3]);

        if ( (bom[0] == (byte)0x00) && (bom[1] == (byte)0x00) &&
                (bom[2] == (byte)0xFE) && (bom[3] == (byte)0xFF) ) {
            encoding = "UTF-32BE";
            unread = n - 4;
        } else if ( (bom[0] == (byte)0xFF) && (bom[1] == (byte)0xFE) &&
                (bom[2] == (byte)0x00) && (bom[3] == (byte)0x00) ) {
            encoding = "UTF-32LE";
            unread = n - 4;
        } else if (  (bom[0] == (byte)0xEF) && (bom[1] == (byte)0xBB) &&
                (bom[2] == (byte)0xBF) ) {
            encoding = "UTF-8";
            unread = n - 3;
        } else if ( (bom[0] == (byte)0xFE) && (bom[1] == (byte)0xFF) ) {
            encoding = "UTF-16BE";
            unread = n - 2;
        } else if ( (bom[0] == (byte)0xFF) && (bom[1] == (byte)0xFE) ) {
            encoding = "UTF-16LE";
            unread = n - 2;
        } else {
            // Unicode BOM mark not found, unread all bytes
            encoding = defaultEnc;
            unread = n;
        }
        //System.out.println("read=" + n + ", unread=" + unread);
        if (unread > 0) {
            internalIn.unread(bom, (n - unread), unread);
        }
        isInited = true;
    }

    @Override
    public void close() throws IOException {
        //init();
        isInited = true;
        internalIn.close();
    }

    @Override
    public int read() throws IOException {
        //init();
        isInited = true;
        return internalIn.read();
    }
}

以上就是Java中常见的编码集问题总结的详细内容,更多关于Java编码集问题的资料请关注编程网其它相关文章!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Java中常见的编码集问题总结

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Java中常见的编码集问题总结

这篇文章主要为大家整理了一些Java中常见的编码集问题,文中的示例代码讲解详细,对我们深入理解Java有一定的帮助,感兴趣的小伙伴可以了解一下
2023-02-16

java中常见的中文乱码总结

在Java中,常见的中文乱码问题主要有以下几种情况:1. 字符串编码不一致:在Java中,字符串是以Unicode编码表示的,而在进行输入输出操作时,需要将Unicode编码转换为特定的字符编码(如UTF-8)。如果编码不一致,就会导致中文
2023-08-11

Java多线程和并发常见问题总结

这篇文章主要讲解了“Java多线程和并发常见问题总结”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Java多线程和并发常见问题总结”吧!Java多线程问题1:进程和线程之间有什么不同?一个进
2023-06-17

总结几种MySQL中常见的排名问题

前言: 在某些应用场景中,我们经常会遇到一些排名的问题,比如按成绩或年龄排名。排名也有多种排名方式,如直接排名、分组排名,排名有间隔或排名无间隔等等,这篇文章将总结几种MySQL中常见的排名问题。 创建测试表create table sc
2022-05-16

JAVA编程中的常见问题有哪些

本篇内容主要讲解“JAVA编程中的常见问题有哪些”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“JAVA编程中的常见问题有哪些”吧!问题一:编译器找不到类。解决方法:确保你已经导入了类或者它的包。
2023-06-17

Java编程中常见的问题有哪些

本篇内容介绍了“Java编程中常见的问题有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!字符串连接误用错误的写法:String s =
2023-06-17

C++中常见的编码规范问题详解

C++中常见的编码规范问题详解,需要具体代码示例引言:在软件开发过程中,良好的编码规范是确保代码质量的重要因素之一。规范的编码风格可以提高代码的可读性、可维护性以及团队协作效率。本文将详细解析C++中常见的编码规范问题,并提供具体的代码示例
2023-10-22

C++中常见的编码规范问题解析

C++中常见的编码规范问题解析在进行C++开发过程中,遵循一定的编码规范是非常重要的。良好的编码规范可以提高代码的可读性、可维护性和可扩展性,有助于团队合作和项目的成功实施。然而,在实际的开发中,我们常常会遇到一些常见的编码规范问题。本文将
2023-10-22

Python使用asyncio异步时的常见问题总结

这篇文章主要为大家整理了开发人员在 Python 中使用 asyncio 时提出的常见问题以及解决方法,文中的示例代码讲解详细,感兴趣的可以学习一下
2023-05-16

C++中常见的编码规范问题的详解

C++中常见的编码规范问题的详解在C++编程中,一个良好的编码规范是保证代码质量和可维护性的关键。它能够提高代码的可读性,降低出错的概率,使得团队协作更加高效。然而,很多开发者在实践中常常忽略一些常见的编码规范问题,导致了代码质量下降。本文
2023-10-22

关于java中出现问号乱码问题的总结

在基于Java的编程中,经常会碰到汉字的处里及显示的问题,比如一大堆乱码或问号。这是因为JAVA中默认的编码方式是UNICODE,而中国人通常使用的文件和DB都是基于GB2312或者BIG5等编码,故会出现此问题。下面是关于此类问题的总结。免费学习视频分享:j
关于java中出现问号乱码问题的总结
2015-10-17

Java web应用中的常见字符编码问题的解决方法

这篇文章给大家介绍Java web应用中的常见字符编码问题的解决方法,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。以下是 Java web应用的常见编码问题1. html页面的编码在web应用中,通常浏览器会根据htt
2023-06-17

Java和JSP编程中常见问题有哪些

这篇文章主要为大家展示了“Java和JSP编程中常见问题有哪些”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Java和JSP编程中常见问题有哪些”这篇文章吧。Java是由Sun Microsys
2023-06-17

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录