一个字符占几个字节
两个、三个或者四个字节。
1、ASCII码中:一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。
一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数,换算为十进制。最小值0,最大值255。
2、UTF-8编码中:一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。
3、Unicode编码中:一个英文字符等于两个字节,一个中文(含繁体)等于两个字节。
符号:英文标点占一个字节;中文标点占两个字节。
举例:英文句号“.”占1个字节的大小;中文句号“。”占2个字节的大小。
4、UTF-16编码中:一个英文字母字符或一个汉字字符存储都需要2个字节(Unicode扩展区的一些汉字存储需要4个字节)。
扩展资料
作用
针对微软公共语言运行库的应用程序使用编码将字符表示形式从本机字符方案映射至其他方案。应用程序使用解码将字符从非本机方案映射至本机方案。
电脑和通讯设备会使用字符编码的方式来表达字符。意思是会将一个字符指定给某个东西。传统上,是代表整数量的位元序列,如此,则可透过网络来传输,同时亦便于储存。两个常用的例子是ASCII和用于统一码的UTF-8。根据谷歌的统计,UTF-8是目前最常用于网页的编码方式。相较于大部分的字符编码把字符对应到数字或位元串,摩斯密码则是使用不定长度的电子脉冲的序列来表现字符。
参考资料:百度百科-字符
不同编码里,字符和字节的对应关系不同,与编码方式有关。
常见的编码字符与字节的对应关系如下:
1、ASCII码中,一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数,换算为十进制。最小值0,最大值255。
2、UTF-8编码中,一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。
3、Unicode编码中,一个英文等于两个字节,一个中文(含繁体)等于两个字节。
符号:英文标点占一个字节,中文标点占两个字节。举例:英文句号“.”占1个字节的大小,中文句号“。”占2个字节的大小。
4、GBK编码方式是中文占两个字节,英文占1个字节。
UTF-8是一种很常用的编码方式,正是因为UTF-8的字符数和字节数的换算不固定,导致你无法从UNICODE字符数判断出UTF-8文本的字节数。
UTF-8是一种变长编码,它需要用2个字节编码那些用扩展ASCII字符集只需1个字节的字符。
ISO Latin-1 是UNICODE的子集,但不是UTF-8的子集 8位字符的UTF-8编码会被email网关过滤,因为internet信息最初设计为7位ASCII码。因此产生了UTF-7编码。
UTF-8 在它的表示中使用值100xxxxx的几率超过50%, 而现存的实现如ISO 2022, 4873, 6429, 和8859系统,会把它错认为是C1 控制码。因此产生了UTF-7.5编码。
参考资料来源:百度百科-字符
参考资料来源:百度百科-字节
参考资料来源:百度百科-编码
所以只好把基本的单位先说下。
比特(bit)即一个二进制位 例如100011就是6比特
字节(byte)这是计算机中数据类型最基本的单位了,8bit 组成1byte
字(word)两个byte称为一个word,所以字大小应该是16位bit,共两字节
双字(double word 简写为DWORD)见名知意,两个字,四个字节,32bit
在C语言中,每种数据类型都有其存储长度。而且在特定的平台和特定的编译器下是不一样的。
由于WIN32平台用的很多,使用visual studio来做C程序的也有很多(我就是使用visual studio 6.0来学习C语言的),所以我说下这种情况(在Visual C++ 2005 中的)。
char 字符型 占1byte 即8位,一个char型数据(例如:a、#、!之类的)用了1个字节来存储
unsigned char 无符号的字符型 占1byte 即8位 它主要是为了能够兼容扩展ASCII码,由于 char 由8位表示表示范围为 -128 - +127,无法表示带上扩展ASCII码总共256个字符所以如果把 8位中的最高位符号位也用来计数,就可以正好表示256个字符,unsigned char 表示范围为 0 - 255 正好256个数可以对应包含扩展ASCII码在内的共计256个ASCII字符
汉字在计算机中存储是使用机内码(一种数字编号)来存储的,而常用汉字不过是几万个,如果用16位比特(即2的16此方等于65536)就可以表示了,所以汉字字符存储使用了两个字节。每两个字节即16bit对应一个汉字。
int 整型数据 占4byte 即32位,一个int型数据的长度用了4个字节来存储
short 短整型 占2byte 即16位,两个字节。
long 长整型 占4byte 即32为,四个字节
float 单精度浮点型 占4byte 即32位,四个字节
double 双精度浮点型 占8byte 即64位,八个字节
假如你使用的不是 visual studio 编译器 或者不是在win32环境下编程,以上的陈述可能就不对,我建议你查看一下 可以使用int i = sizeof(char)或者
sizeof(int)来看看i的值,如果i == 4,表示一个当前的数据类型占四个字节
但是在使用WORD系统输入汉字时,选择“半角”时,一个汉字占一个字节;选择“全角”时,一个汉字占两个字节。
广告 您可能关注的内容 |