我的编程空间,编程开发者的网络收藏夹
学习永远不晚

java 实现Unicode与普通字符(包括中文)的转换

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

java 实现Unicode与普通字符(包括中文)的转换

    今天使用zl464发送tts语音播报,文档上面明确要求中文编码是UTF-8,但是我发过去的中文,它全都不认识,最后实验出来需要将字符串转成Unicode它就认识了,下面记录了java中文转Unicode的方法。

Java实现Unicode与普通字符的转换
什么是Unicode?与UTF-8、UTF-16、UTF-32是什么关系?
Unicode是一个字符编码标准,负责分配某个字符在Unicode字符集中的序号。

UTF-8、UTF-16、UTF-32等则是具体的编码方案,也就是将字符在Unicode字符集中的序号转换为具体的编码方案。

如:

UTF-8是针对不同范围的序号转换成不同长度的字符编码,最短编码为一个字节(8bit),可兼容ASCII;
UTF-16跟UTF-8类似,不过最短编码为两个字节(16bit),不可兼容ASCII;
当前Unicode能容纳的最大编号为2^32 - 1,也就是32bit,所以UTF-32是每个字符长度固定为32bit的定长编码。
如何进行转换?
知道什么是Unicode以后,代码就很简单了:将字符对应的Unicode编码转为16进制,并加上\u前缀即可转为Unicode;剥离Unicode的\u前缀即可获得其在Unicode字符集的序号,转成String即可。

引用原文链接:https://blog.csdn.net/java_t_t/article/details/127840074

package com.photon.core.DataApi.Utils;import com.alibaba.fastjson.JSON;import java.util.HashMap;import java.util.Map;import java.util.regex.Matcher;import java.util.regex.Pattern;public class UnicodeCharConvert {    private static final Pattern PATTERN_UNICODE = Pattern.compile("\\\\u[a-f0-9A-F]{1,4}");        private static String unicodeToChar(String unicode) {        if (unicode == null || unicode.isEmpty()) {            return unicode;        }        StringBuffer str = new StringBuffer();        String[] hex = unicode.split("\\\\u");        for (int index = 1; index < hex.length; index++) {            int data = Integer.parseInt(hex[index], 16);            str.append((char) data);        }        return str.toString();    }        public static String charToUnicode(String str) {        if (str == null || str.isEmpty()) {            return str;        }        StringBuffer unicode = new StringBuffer();        for (int index = 0; index < str.length(); index++) {            char c = str.charAt(index);            // 转换为unicode            String tmp = Integer.toHexString(c);            if (tmp.length() >= 4) {                unicode.append("\\u" + tmp);            } else if (tmp.length() == 3) {                unicode.append("\\u0" + tmp);            } else if (tmp.length() == 2) {                unicode.append("\\u00" + tmp);            } else if (tmp.length() == 1) {                unicode.append("\\u000" + tmp);            } else if (tmp.length() == 3) {                unicode.append("\\u0000");            }        }        return unicode.toString();    }        public static String mixStrToString(String mixStr) {        if (mixStr == null || mixStr.isEmpty()) {            return mixStr;        }        int start = 0;        StringBuffer result = new StringBuffer();        Matcher matcher = PATTERN_UNICODE.matcher(mixStr);        while (matcher.find()) {            String oldChar = matcher.group();            result.append(mixStr.substring(start, matcher.start()));            result.append(unicodeToChar(oldChar));            start = matcher.start() + oldChar.length();        }        result.append(mixStr.substring(start));        return result.toString();    }        public static String mixStrToUnicode(String mixStr) {        if (mixStr == null || mixStr.isEmpty()) {            return mixStr;        }        int start = 0;        StringBuffer result = new StringBuffer();        Matcher matcher = PATTERN_UNICODE.matcher(mixStr);        while (matcher.find()) {            String oldChar = matcher.group();            result.append(charToUnicode(mixStr.substring(start, matcher.start())));            result.append(oldChar);            start = matcher.start() + oldChar.length();        }        result.append(charToUnicode(mixStr.substring(start)));        return result.toString();    }        public static String string2Unicode(String string) {        StringBuffer unicode = new StringBuffer();        for (int i = 0; i < string.length(); i++) {            // 取出每一个字符            char c = string.charAt(i);            if (c < 0x20 || c > 0x7E) {                // 转换为unicode                String tmp = Integer.toHexString(c);                if (tmp.length() >= 4) {                    unicode.append("\\u" + Integer.toHexString(c));                } else if (tmp.length() == 3) {                    unicode.append("\\u0" + Integer.toHexString(c));                } else if (tmp.length() == 2) {                    unicode.append("\\u00" + Integer.toHexString(c));                } else if (tmp.length() == 1) {                    unicode.append("\\u000" + Integer.toHexString(c));                } else if (tmp.length() == 3) {                    unicode.append("\\u0000");                }            } else {                unicode.append(c);            }        }        return unicode.toString();    }    public static void main(String[] args) {        Map v = new HashMap<>();//        Channel channel = channelMap.get(IMEI);        v.put("tts", UnicodeCharConvert.charToUnicode("您好,您的订单即将结束,剩余时间15分钟,如需延时,请尽快续约!"));        v.put("vol", 100);        String strPacket = JSON.toJSONString(v);        System.out.println(msg);        System.out.println(strPacket);        //map 转成json 后会有多余的反斜杠需要去掉        System.out.println(strPacket.replace("\\\\", "\\"));      }}

来源地址:https://blog.csdn.net/liwang2016384/article/details/131471332

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

java 实现Unicode与普通字符(包括中文)的转换

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

将包含Unicode和普通字符串混合的文本转换为纯文本

大家好,我们又见面了啊~本文《将包含Unicode和普通字符串混合的文本转换为纯文本》的内容中将会涉及到等等。如果你正在学习Golang相关知识,欢迎关注我,以后会给大家带来更多Golang相关文章,希望我们能一起进步!下面就开始本文的正式
将包含Unicode和普通字符串混合的文本转换为纯文本
2024-04-04

Java如何将特殊的 HTML 实体转换回普通字符

Java中的StringEscapeUtils类提供了htmlEscape和htmlUnescape方法,可以将特殊HTML实体转换为普通字符和反之。htmlEscape将特殊字符(如<)转换为实体(如&lt;),而htmlUnescape则执行相反的操作。这些方法可用于安全地呈现用户输入和解析HTML文档。需要注意的是,这些方法不会转义双引号和单引号,并且不适用于所有类型的特殊实体。
Java如何将特殊的 HTML 实体转换回普通字符
2024-04-02

Pandas中字符串和时间转换与格式化的实现

本文主要介绍了Pandas中字符串和时间转换与格式化的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2023-01-17

Java中如何实现字符序列的替换与分解

这篇“Java中如何实现字符序列的替换与分解”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Java中如何实现字符序列的替换与
2023-06-29

使用Java怎么实现统计字符串中汉字与英文的数量

这期内容当中小编将会给大家带来有关使用Java怎么实现统计字符串中汉字与英文的数量,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。具体如下:package org.zhy.demo.algorithm;/*
2023-05-31

Java-json相关转换,JSONObject与实体类/map互转、List/List<map>和JSONArray互转、获取JSONObject中的key value、字符串String转换等

博客背景是Java开发。json相关的转换、取值等在日常开发中经常使用,但有时候还是会忘记or遇到些奇奇怪怪的问题。以此记录,提醒自己~不定期更新~ 文章目录 1、JSONObject相关实体类和JSONObject互转Map和JS
2023-08-17

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录