JavaString字符串和Unicode字符相互转换代码详解
⽹上⼤部分有关“Java String字符串和Unicode字符相互转换代码”的博⽂⼏乎都仅是将全为Unicode字符的字符串进⾏转换,⽽我们⽇常很可能需要的是将混有普通字符的Unicode⼀并转换(例如“\u0061\u0062\u0063(123)”,我们希望转换
成“abc(123)”,⽽实际上⽹上的通⽤⽅法并不符合该需求,运⾏即报错),普通字符跳过⽽Unicode字符要进⾏转换,在进⾏字符串的查替换截取什么的使⽤正则表达式往往是个很好的选择。
因此作者我结合了⽹上提供的⽅法结合正则i表达式实现该需求!
在进⾏代码讲解时我先贴出实现代码:
⽹上⼀般实现代码:
字符串转换unicode java⽅法代码⽚段:
/**
* 字符串转换unicode
* @param string
* @return
*/
public static String string2Unicode(String string) {
StringBuffer unicode = new StringBuffer();
for (int i = 0; i < string.length(); i++) {
// 取出每⼀个字符
char c = string.charAt(i);
// 转换为unicode
unicode.append("\\u" + HexString(c));
}
String();
}
unicode转换字符串java⽅法代码⽚段:
/**
* unicode 转字符串
* @param unicode 全为 Unicode 的字符串
* @return
*/
public static String unicode2String(String unicode) {
StringBuffer string = new StringBuffer();
String[] hex = unicode.split("\\\\u");
for (int i = 1; i < hex.length; i++) {
// 转换出每⼀个代码点
int data = Integer.parseInt(hex[i], 16);
// 追加成stringunicode所有字符
string.append((char) data);
}
String();
结合正则实现的代码:
混有普通字符的Unicode转换为字符串:
/**
* 含有unicode 的字符串转⼀般字符串
* @param unicodeStr 混有 Unicode 的字符串
* @return
*/
public static String unicodeStr2String(String unicodeStr) {
int length = unicodeStr.length();
int count = 0;
//正则匹配条件,可匹配“\\u”1到4位,⼀般是4位可直接使⽤ String regex = "\\\\u[a-f0-9A-F]{4}";
String regex = "\\\\u[a-f0-9A-F]{1,4}";
Pattern pattern = Patternpile(regex);
Matcher matcher = pattern.matcher(unicodeStr);
StringBuffer sb = new StringBuffer();
while(matcher.find()) {
String oldChar = up();//原本的Unicode字符
String newChar = unicode2String(oldChar);//转换为普通字符
// int index = unicodeStr.indexOf(oldChar);
// 在遇见重复出现的unicode代码的时候会造成从源字符串获取⾮unicode编码字符的时候截取索引越界等  int index = matcher.start();
sb.append(unicodeStr.substring(count, index));//添加前⾯不是unicode的字符
sb.append(newChar);//添加转换后的字符
count = index+oldChar.length();//统计下标移动的位置
}
sb.append(unicodeStr.substring(count, length));//添加末尾不是Unicode的字符
String();
}
完整代码:
package util;
import Matcher;
import Pattern;
/**
*
* <p>Title: String 与 Unicode 互相转换的⼯具类</p>
* <p>Description: </p>
* <p>Company: SCAU@Copyright</p>
* @Copyright 1.0
* @author jodenhe (824923282@qq)
* @version 1.0
* @since 2017年8⽉17⽇下午9:42:50
*/
public class StringUnicodeUtil {
/**
* 含有unicode 的字符串转⼀般字符串
* @param unicodeStr 混有 Unicode 的字符串
* @return
*/
public static String unicodeStr2String(String unicodeStr) {
int length = unicodeStr.length();
int count = 0;
//正则匹配条件,可匹配“\\u”1到4位,⼀般是4位可直接使⽤ String regex = "\\\\u[a-f0-9A-F]{4}";
String regex = "\\\\u[a-f0-9A-F]{1,4}";
Pattern pattern = Patternpile(regex);
Matcher matcher = pattern.matcher(unicodeStr);
StringBuffer sb = new StringBuffer();
while(matcher.find()) {
String oldChar = up();//原本的Unicode字符
String newChar = unicode2String(oldChar);//转换为普通字符
// int index = unicodeStr.indexOf(oldChar);
/
/ 在遇见重复出现的unicode代码的时候会造成从源字符串获取⾮unicode编码字符的时候截取索引越界等  int index = matcher.start();
sb.append(unicodeStr.substring(count, index));//添加前⾯不是unicode的字符
sb.append(newChar);//添加转换后的字符
count = index+oldChar.length();//统计下标移动的位置
}
sb.append(unicodeStr.substring(count, length));//添加末尾不是Unicode的字符
String();
}
/**
* 字符串转换unicode
* @param string
* @return
*/
public static String string2Unicode(String string) {
StringBuffer unicode = new StringBuffer();
for (int i = 0; i < string.length(); i++) {
// 取出每⼀个字符
char c = string.charAt(i);
// 转换为unicode
unicode.append("\\u" + HexString(c));
}
String();
}
/**
* unicode 转字符串
* @param unicode 全为 Unicode 的字符串
* @return
*/
public static String unicode2String(String unicode) {
StringBuffer string = new StringBuffer();
String[] hex = unicode.split("\\\\u");
for (int i = 1; i < hex.length; i++) {
// 转换出每⼀个代码点
int data = Integer.parseInt(hex[i], 16);
// 追加成string
string.append((char) data);
}
String();
}
public static void main(String[] args) {
String str = "abc";
String str2 = string2Unicode(str);
System.out.println(str2);
System.out.println(unicodeStr2String(str2));
System.out.println(unicodeStr2String("\\u61HJ\\u62\\u63(sfkfdsl)"));
}
}
代码运⾏结果图:
重要代码讲解:
代码的实现其实很简单,因此只对核⼼主要代码进⾏讲解,如对代码有疑惑可私信或留下评论!
1、正则匹配规则:
String regex = \\\\u[a-f0-9A-F]{1,4};
这个是正则匹配的规则,可能你会疑惑为什么使⽤“\\\\u”来匹配javan字符串的“\\u”,原因很简单,因为这样才匹配得上嘛(开个玩笑)直接看测试图1-2
测试图1:
测试图2:
很明显在菜鸟上使⽤两种匹配⽅式匹配到的结果是不同的,⽽java字符串需要转义,上图的“\u”java就应该是“\\u”,因此就要使⽤“\\\\u”来进⾏匹配!
[a-f0-9A-F]{1,4}
”[a-f0-9A-F]“ :这个意思就是a到f,0到9,A到F出现的数都符合要求,“{1,4}”意思是前⾯的字符出现1到4个(其实⼀般的Unicode都是“\u”后⾯家4个字符的,如“\u0061”代表“a”,因此该式⼦可改为“\\\\u[a-f0-9A-F]{4}”,这样可能更符合实际要求)其余的代码部分可查看源⽂件的注释,应该是可以理解的,慢慢推敲⼀下,应该不难。
以上所述是⼩编给⼤家介绍的Java String字符串和Unicode字符相互转换代码详解整合,希望对⼤家有所帮助,如果⼤家有任何疑问请给我留⾔,⼩编会及时回复⼤家的。在此也⾮常感谢⼤家对⽹站的⽀持!