Java语言所使用的字符集是什么？

 我来答

6个回答

#热议# 在购买新能源车时，要注意哪些？

杜爷1号
推荐于2018-11-25 · 知道合伙人软件行家

杜爷1号
知道合伙人软件行家

采纳数：4973 获赞数：9186

毕业于福建农林大学，本科学士学位。从事IT行业3年，曾参与过多个大型项目的需求调研、软件研发。

向TA提问私信TA

关注

展开全部

　　Java语言所使用的字符集是16位Unicode编码。另外再介绍一些常见的字符集：

　　1、最早在dos下写pascal的时候，就遇到ASCII字符集，后来还是dos下写c，也是ascii字符集
　　特点：目前最通用的单字节编码字符集
　　表示：单字节
　　最早ascii用7bit表示，总共能表示2^7=128个字符，后来扩展到8bit，就表示2^8=256个字符
　　2、GB2312又称为GB2312-80字符集，全称为《信息交换用汉字编码字符集·基本集》，由原中国国家标准总局发布，1981年5月1日实施。
　　特点：当然是能表示99%的中国汉字，还包括拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母等
　　表示：双字节
　　3、GBK是汉字编码标准之一，全称《汉字内码扩展规范》，GBK 向下与GB2312编码兼容，向上支持ISO10646.1国际标准。可以认为GBK是在GB2313基础上通过内码扩展出来的一个标准。
　　特点：完全兼容GB2312标准，支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字，并包含了BIG5编码中的所有汉字
　　表示：双字节
　　4、Big5，台湾那边使用比较多。
　　5、GB 18030，全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》，是我国政府于2000年3月17日发布的新的汉字编码国家标准，2001年8月31日后在中国市场上发布的软件必须符合本标准。
　　特点：就是强大。覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容，填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准（GB2312，GB13000.1）兼容。
　　表示：单字节、双字节、四字节三种方式
　　6、Unicode野心更大（当然有一个国际统一标准当然是好事）
　　特点：Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。
　　表示：utf-8,utf-16,utf-32
　　这里可能有点不好理解，举个例子
　　首先，把unicode理解成对所有字符做了一个统一的编号，比如：“字”这个字符，编号是23383，这个是unicode定义的
　　但是，在计算机中，如何存储这个编号呢？方式就有很多，存储unicode的方式，就是utf-8,utf-16,utf-32
　　23383数值的16进制表示：0x5b57
　　utf-8用3个字节来表示汉字，所以utf-8的表示为：0xE5AD97
　　utf-16用2个字节来表示汉字，所以utf-16的表示为：0x5b57 刚好和数值是一样的
　　utf-32用4个字节来表示汉字，所以utf-32的表示为：0x00005b57 和数值是一样的，不过浪费空间
　　7、再来讲讲utf-8，它是一种变长的字符集
　　表示：单字节来表示字母，双字节来表示一些希腊字母，三字节来表示汉字，当然也有四字节的
　　这么做当然会增加表示和识别的难度，不过，可以节省空间。这也是为什么utf-8在网络编码中流行的原因。
　　

已赞过 已踩过<

评论收起

小楼清风
2011-01-06 · TA获得超过199个赞

知道小有建树答主

回答量：193

采纳率：0%

帮助的人：170万

我也去答题访问个人页

关注

展开全部

Unicode字符集

ASCII 字符集

1．名称的由来

ASCII（American Standard Code for Information Interchange，美国信息互换标准代码）是基于罗马字母表的一套电脑编码系统。

2．特点

它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统，并等同于国际标准ISO 646。

3．包含内容

控制字符：回车键、退格、换行键等。

可显示字符：英文大小写字符、阿拉伯数字和西文符号

4．技术特征

7位（bits）表示一个字符，共128字符

5．ASCII扩展字符集

7位编码的字符集只能支持128个字符，为了表示更多的欧洲常用字符对ASCII进行了扩展，ASCII扩展字符集使用8位（bits）表示一个字符，共256字符。

ASCII扩展字符集比ASCII字符集扩充出来的符号包括表格符号、计算符号、希腊字母和特殊的拉丁符号。

GB2312 字符集

1．名称的由来

GB2312又称为GB2312-80字符集，全称为《信息交换用汉字编码字符集·基本集》，由原中国国家标准总局发布，1981年5月1日实施。

2．特点

GB2312是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率，基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。

3．包含内容

GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母，共 7445 个图形字符。其中包括6763个汉字，其中一级汉字3755个，二级汉字3008个；包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

4．技术特征

（1）分区表示：

GB2312中对所收汉字进行了“分区”处理，每区含有94个汉字/符号。这种表示方式也称为区位码。

各区包含的字符如下：01-09区为特殊符号；16-55区为一级汉字，按拼音排序；56-87区为二级汉字，按部首/笔画排序；10-15区及88-94区则未有编码。

（2）双字节表示

两个字节中前面的字节为第一字节，后面的字节为第二字节。习惯上称第一字节为“高字节” ，而称第二字节为“低字节”。

“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0)，“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。

5．编码举例

以GB2312字符集的第一个汉字“啊”字为例，它的区号16，位号01，则区位码是1601，在大多数计算机程序中，高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。计算公式是：0xB0=0xA0+16, 0xA1=0xA0+1。

BIG5 字符集

1．名称的由来

又称大五码或五大码，1984年由台湾财团法人信息工业策进会和五间软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立，故称大五码。

Big5码的产生，是因为当时台湾不同厂商各自推出不同的编码，如倚天码、IBM PS55、王安码等，彼此不能兼容；另一方面，台湾政府当时尚未推出官方的汉字编码，而中国大陆的GB2312编码亦未有收录繁体中文字。

2．特点

Big5字符集共收录13,053个中文字，该字符集在中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字：“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。

3．字符编码方法

Big5码使用了双字节储存方法，以两个字节来编码一个字。第一个字节称为“高位字节”，第二个字节称为“低位字节”。高位字节的编码范围0xA1-0xF9，低位字节的编码范围0x40-0x7E及0xA1-0xFE。

各编码范围对应的字符类型如下：0xA140-0xA3BF为标点符号、希腊字母及特殊符号，另外于0xA259-0xA261，存放了双音节度量衡单位用字：兙兛兞兝兡兣嗧瓩糎；0xA440-0xC67E为常用汉字，先按笔划再按部首排序；0xC940-0xF9D5为次常用汉字，亦是先按笔划再按部首排序。

4．Big5 的局限性

尽管Big5码内包含一万多个字符，但是没有考虑社会上流通的人名、地名用字、方言用字、化学及生物科等用字，没有包含日文平假名及片假名字母。

例如台湾视“着”为“著”的异体字，故没有收录“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“辵”、“癶”等)、常见的人名用字(如“堃”、“煊”、“栢”、“喆”等) 也没有收录到Big5之中。

GB18030 字符集

1．名称的由来

GB 18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》，是我国政府于2000年3月17日发布的新的汉字编码国家标准，2001年8月31日后在中国市场上发布的软件必须符合本标准

2．特点

GB 18030字符集标准的出台经过广泛参与和论证，来自国内外知名信息技术行业的公司，信息产业部和原国家质量技术监督局联合实施。

GB 18030字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。该标准的字符总编码空间超过150万个编码位，收录了27484个汉字，覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容，填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准（GB2312，GB13000.1）兼容。

3．编码方法

GB 18030标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分使用0×00至0×7F码(对应于ASCII码的相应码)。双字节部分，首字节码从0×81至0×FE，尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀，这样扩充的四字节编码，其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE，第二、四个字节编码码位均为0×30至0×39。

4．包含的内容

双字节部分收录内容主要包括GB13000.1全部CJK汉字20902个、有关标点符号、表意文字描述符13个、增补的汉字和部首/构件80个、双字节编码的欧元符号等。四字节部分收录了上述双字节字符之外的，包括CJK统一汉字扩充A在内的GB 13000.1中的全部字符。

Unicode字符集

1．名称的由来

Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多八位编码字符集的简称，是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系统，支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发，1994年正式公布，最新版本是2005年3月31日的Unicode 4.1.0。

2．特征

Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

3．编码方法

Unicode 标准始终使用十六进制数字，而且在书写时在前面加上前缀“U+”，例如字母“A”的编码为 004116 和字符“?”的编码为 20AC16。所以“A”的编码书写为“U+0041”。

4．UTF-8 编码

UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Translation Format，即把Unicode转做某种格式的意思。

UTF-8便于不同的计算机之间使用网络传输不同语言和编码的文字，使得双字节的Unicode能够在现存的处理单字节的系统上正确传输。

UTF-8使用可变长度字节来储存 Unicode字符，例如ASCII字母继续使用1字节储存，重音文字、希腊字母或西里尔字母等使用2字节来储存，而常用的汉字就要使用3字节。辅助平面字符则使用4字节。

5．UTF-16 和 UTF-32 编码

UTF-32、UTF-16 和 UTF-8 是 Unicode 标准的编码字符集的字符编码方案，UTF-16 使用一个或两个未分配的 16 位代码单元的序列对 Unicode 代码点进行编码；UTF-32 即将每一个 Unicode 代码点表示为相同值的 32 位整数

已赞过 已踩过<

评论收起

浪衡
2011-01-06

知道答主

回答量：16

采纳率：0%

帮助的人：18.2万

我也去答题访问个人页

关注

展开全部

java 中用的是Unicode字符集包含$美元符号绝大部分汉字一个字符占两个字节，所以汉字在Java中也可以当做变量，但一般都不这么用，很容易出错

已赞过 已踩过<

评论收起

随性亻
2015-06-08 · TA获得超过4180个赞

知道小有建树答主

回答量：4622

采纳率：84%

帮助的人：633万

我也去答题访问个人页

关注

展开全部

这个看项目需求，一般常用的是 utf-8，gbk，iso-8859-1

已赞过 已踩过<

评论收起

connieangela
2011-01-06

知道答主

回答量：12

采纳率：0%

帮助的人：0

我也去答题访问个人页

关注

展开全部

Java程序都是用Unicode字符集

本回答被提问者和网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

更多回答（4）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

Java语言所使用的字符集是什么？

其他类似问题

为你推荐：