C语言读取UTF-8文本

有一个文本文件是以UTF-8编码的,用C语言读入时出现错误,内容如下:1sheer/ʃiә/adj.完全的,十足的;陡峭的,垂直的;极薄的,透明的a... 有一个文本文件是以UTF-8编码的,用C语言读入时出现错误,内容如下:
1 sheer /ʃiә/adj.完全的,十足的;陡峭的,垂直的;极薄的,透明的adv.垂直地,陡峭地vi.(off)急转向,偏离
2 comment /kɔment/n.评论,意见;注释
3 distress /dis'tres/n.忧虑,悲伤;不幸

如果把它保存成ASCII 编码的文本就可以正确读入,但那样音标就不能正确显示了:
1 sheer /?i?/adj.完全的,十足的;陡峭的,垂直的;极薄的,透明的adv.垂直地,陡峭地vi.(off)急转向,偏离
2 comment /k?ment/n.评论,意见;注释
3 distress /dis'tres/n.忧虑,悲伤;不幸

我想这是编码的问题,请请问怎么解决啊?
展开
 我来答
455878312
2013-03-12 · TA获得超过4331个赞
知道大有可为答主
回答量:1.1万
采纳率:0%
帮助的人:3780万
展开全部
UTF-8是一种多字节编码字符集,Unicode字符,也可以是一个字节,符号:

1个字节:0XXXXXXX
2个字节:110XXXXX 10XXXXXX /> 3个字节: 1110XXXX 10XXXXXX 10XXXXXX
4个字节:11110xxx 10XXXXXX 10XXXXXX 10XXXXXX

本文根据上面的字符串遍历的特点来确定一个字符串是否是UTF-8编码。应当注意的是,每个字节的UTF-8字符串的值具有一定的范围,而不是所有的值?是有效的UTF-8字符,但在一般应用足够长的字符串判断的情况下,更准确,是实现比较简单。具体的字节范围,可以发现在这本书的“Unicode解释”6.4.3。
布尔IsUTF8(const void *的pbuffer的,长尺寸)
{
布尔IsUTF8 = TRUE;
unsigned char型*开始=(无符号字符*)pbuffer的/无符号的char *结束=(unsigned char型)pbuffer的+大小;
(起点和终点)
{
(*开始<0X80)/ /(10000000):值小于0x80的ASCII的字符
{
开始+ +;
}
否则,如果(*启动<(0XC0))/ /(11000000):值吗? 0XC0之间的范围0x80无效的UTF-8字符
{
IsUTF8 = FALSE;
突破;
}
否则,如果(*开始(0XE0))/在2个字节的UTF-8字符/(11100000):
{
(开始> =结束 - 1)
突破;
((开始[1](0XC0) )= 80H时)
{
IsUTF8 = FALSE;
突破;
}
开始+ = 2;
}
否则,如果(*启动<(31:8))/ /(11110000):结束的3个字节的UTF-8字符
{
(“开始”> = - 2)
突破;。 .. />((开始[1](为0xC0))= 0x80的| |(启动[2](为0xC0))= 80H时)
{
IsUTF8 = FALSE;
休息
}
开始+ = 3;
}

{
IsUTF8 = FALSE;
突破;
}
}
回报IsUTF8;
}

UTF-UCS编码的16至16个单位。小于0x10000的UCS码,UTF-16编码是等于相应的UCS代码的16位无符号整数。对于不小于0x10000的UCS码,定义了一个算法。然而,实际使用的UCS2,或者UCS4的BMP必然小于0x10000,所以现在你可以认为UTF -16和UCS-2基本相同。 UCS-2是一种编码方案,UTF-16已被用于实际的传输,所以我们要考虑的字节顺序。
本回答被提问者和网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
outao1511
2013-03-08 · 超过14用户采纳过TA的回答
知道答主
回答量:113
采纳率:0%
帮助的人:51.3万
展开全部
不要用char,用w_char处理就可以了
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式