33为什么在 Java 中编写代码时会遇到乱码问题？

约 708 个字 3 张图片预计阅读时间 2 分钟

“锟斤拷锟斤拷锟斤拷锟叫癸拷锟斤拷”，是不是似曾相识？很多人在编程的时候，都会遇到乱码问题。

甚至你拿上面这些乱码在网上搜，都能找到对应错误的网页：

那为什么会这样呢？

先了解下什么是编解码： - 编码：将字符按照一定的格式转换成字节流的过程。 - 解码：就是将字节流解析成字符。

用专业的术语来说，乱码是因为编解码时使用的字符集不一致导致的。比如你将字符利用 UTF-8 编码后，传输给别人，然后这个人用 GBK 来解码，那解出来的不就是乱码吗？

就好比加密算法和解密算法对不上，那解出来的是啥？不就是一堆乱七八糟的东西。

因为计算机底层的存储都是 0101，它可不认识什么字符。所以我们需要告诉计算机什么数字代表什么字符。

比如告诉它 0000 代表面试，0001 代表鸭，这样我输入 0000 0001 后，计算机就可以展示面试鸭三个字了。

这样的一套对应规则就是字符集，所以编解码用的字符集不同，就乱码了。其实就是类似一个翻译的过程，如果翻译成英文，我们按照中文的语法就再翻过来，不就乱了吗。

ASCII 是美国国家标准协会 ANSI 就制定的一个标准规定了常用字符集的集合和对应的数字编号

从图可以看到，共 8 位，但是第一位都是 0，实际上就用了 7 位。可以看到完全就是美国标准，中文啥的完全没有。

所以我们中国制定了 GB2312 字符集，后续由发布了 GBK，基于 GB2312 增加了一些繁体字等字符，这里的 K 是扩展的意思。

中国需要中国的字符编码，美国需要美国的，韩国还需要韩国的，所以每个国家都弄一个无法统一。

所以就指定了一个统一码 Unicode，又译作万国码、统一字符码、统一字符编码，是信息技术领域的业界标准，其整理、编码了世界上大部分的文字系统，使得电脑能以通用划一的字符集来处理和显示文字，不但减轻在不同编码系统间切换和转换的困扰，更提供了一种跨平台的乱码问题解决方案！

Unicode 和之前的编码不太一样，它将字符集和编码实现解耦了。

来看下这张图就理解了：