怎样判断一个字符是不是汉字呢?? 5
我要读取一个文本文件,限制到richedit里边,但是我只想显示一部分,怎样判断截取断点部分是不是完整汉字呢?如果不是完整汉字的话,后面的会是乱码的,所以我需要景区的判断...
我要读取一个文本文件,限制到richedit里边,但是我只想显示一部分,怎样判断截取断点部分是不是完整汉字呢?如果不是完整汉字的话,后面的会是乱码的,所以我需要景区的判断。
展开
展开全部
看你用什么编译,c++ 的string 有重写烂档过 是有个接口直接判断中英文 具体原理是:
汉字是占2个字节,字母和数字是1个字节,而且汉字的2个字节的ASCII码都大于128,字母和数字的字节都小于128
都变成Unicode编码,就简单了,编码大于0x00ff的都不饥和乱是ASC码。
简单点的,根据它的ASCII值来进行判断。
找到GB,GBK的编码范围,只要在中间的即是汉字,前提条件,是在中文系统中运行的这个软件,如果在其他双字节字符的系统中运行,肯定要出错:)。
提供一段伪代码
AnsiString s = "棚虚我爱中国,I love china";
WideString ws;
ws=s;
AnsiString temps;
for (int i=1;i<=ws.Length();i++)
{
temps = WideString(ws[i]);
if(temps.Length()>=2)
ShowMessage("["+temps+"]中文");
else
ShowMessage("["+temps+"]英文");
}
汉字是占2个字节,字母和数字是1个字节,而且汉字的2个字节的ASCII码都大于128,字母和数字的字节都小于128
都变成Unicode编码,就简单了,编码大于0x00ff的都不饥和乱是ASC码。
简单点的,根据它的ASCII值来进行判断。
找到GB,GBK的编码范围,只要在中间的即是汉字,前提条件,是在中文系统中运行的这个软件,如果在其他双字节字符的系统中运行,肯定要出错:)。
提供一段伪代码
AnsiString s = "棚虚我爱中国,I love china";
WideString ws;
ws=s;
AnsiString temps;
for (int i=1;i<=ws.Length();i++)
{
temps = WideString(ws[i]);
if(temps.Length()>=2)
ShowMessage("["+temps+"]中文");
else
ShowMessage("["+temps+"]英文");
}
展开全部
是不是汉字,那要看你采用的是啥编码颤芹卖,查一下你所使用的文字编码是啥,然后每个字符都有一个相对应的数值,对这数值进行判断就可以了。 有个规律是,大凡是中文,都是双字节的,在u编码中,是以这样的形茄逗式首颤出现的:\uxxxx,而非汉字呢,都是单字节的,大都是以这样的形式出现的:\u00xx,这个可以给你参考。
本回答被网友采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
汉字在Unicode中称作CJK 统一表意符号 (CJK Unified Ideographs),包括U+3400-U+4DBF/U+4E00-U+9FFF/U+20000-U+3FFFD,参见百歼李度百科【统察陪一码败改蠢】。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
if (preg_match("旁山/^.*[".chr(0xa1)."-"运昌中.chr(0xff)."]+.*$/"迅嫌, $_line)){
continue;
}
continue;
}
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询