C语言读取UTF-8文本

有一个文本文件是以UTF-8编码的，用C语言读入时出现错误，内容如下：1sheer/ʃiә/adj.完全的,十足的;陡峭的,垂直的;极薄的,透明的a... 有一个文本文件是以UTF-8编码的，用C语言读入时出现错误，内容如下：
1 sheer /ʃiә/adj.完全的,十足的;陡峭的,垂直的;极薄的,透明的adv.垂直地,陡峭地vi.(off)急转向,偏离
2 comment /kɔment/n.评论，意见；注释
3 distress /dis'tres/n.忧虑，悲伤；不幸

如果把它保存成ASCII 编码的文本就可以正确读入，但那样音标就不能正确显示了：
1 sheer /?i?/adj.完全的,十足的;陡峭的,垂直的;极薄的,透明的adv.垂直地,陡峭地vi.(off)急转向,偏离
2 comment /k?ment/n.评论，意见；注释
3 distress /dis'tres/n.忧虑，悲伤；不幸

我想这是编码的问题，请请问怎么解决啊？展开

 我来答

2个回答

#热议# 发烧为什么不能用酒精擦身体来退烧？

455878312
2013-03-12 · TA获得超过4331个赞

知道大有可为答主

回答量：1.1万

采纳率：0%

帮助的人：3780万

我也去答题访问个人页

关注

展开全部

UTF-8是一种多字节编码字符集，Unicode字符，也可以是一个字节，符号：
 
 1个字节：0XXXXXXX 
 2个字节：110XXXXX 10XXXXXX /> 3个字节： 1110XXXX 10XXXXXX 10XXXXXX 
 4个字节：11110xxx 10XXXXXX 10XXXXXX 10XXXXXX 
 
本文根据上面的字符串遍历的特点来确定一个字符串是否是UTF-8编码。应当注意的是，每个字节的UTF-8字符串的值具有一定的范围，而不是所有的值？是有效的UTF-8字符，但在一般应用足够长的字符串判断的情况下，更准确，是实现比较简单。具体的字节范围，可以发现在这本书的“Unicode解释”6.4.3。 
布尔IsUTF8（const void *的pbuffer的，长尺寸）
 {
布尔IsUTF8 = TRUE; 
 unsigned char型*开始=（无符号字符*）pbuffer的/无符号的char *结束=（unsigned char型）pbuffer的+大小; 
（起点和终点）
 {
（*开始<0X80）/ /（10000000）：值小于0x80的ASCII的字符
 {
开始+ +; 
} 
否则，如果（*启动<（0XC0））/ /（11000000）：值吗？ 0XC0之间的范围0x80无效的UTF-8字符
 {
 IsUTF8 = FALSE; 
突破; 
} 
否则，如果（*开始（0XE0））/在2个字节的UTF-8字符/（11100000）：
 {
（开始> =结束 - 1）
突破; 
（（开始[1]（0XC0） ）= 80H时）
 {
 IsUTF8 = FALSE; 
突破; 
} 
开始+ = 2; 
} 
否则，如果（*启动<（31:8））/ /（11110000）：结束的3个字节的UTF-8字符
 {
（“开始”> = - 2）
突破;。 .. />（（开始[1]（为0xC0））= 0x80的| |（启动[2]（为0xC0））= 80H时）
 {
 IsUTF8 = FALSE; 
休息
} 
开始+ = 3; 
} 
 
 {
 IsUTF8 = FALSE; 
突破; 
} 
} 
回报IsUTF8; 
} 
 
 UTF-UCS编码的16至16个单位。小于0x10000的UCS码，UTF-16编码是等于相应的UCS代码的16位无符号整数。对于不小于0x10000的UCS码，定义了一个算法。然而，实际使用的UCS2，或者UCS4的BMP必然小于0x10000，所以现在你可以认为UTF -16和UCS-2基本相同。 UCS-2是一种编码方案，UTF-16已被用于实际的传输，所以我们要考虑的字节顺序。


本回答被提问者和网友采纳






已赞过已踩过<

你对这个回答的评价是？
评论收起

outao1511
2013-03-08 · 超过14用户采纳过TA的回答

知道答主

回答量：113

采纳率：0%

帮助的人：51.3万

我也去答题访问个人页

关注

展开全部

不要用char，用w_char处理就可以了

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

C语言读取UTF-8文本

其他类似问题

为你推荐：