javascript统计汉字字数,区别全角标点,怎么做到?

我主要是想做一个程序统计一篇长的文章里面句子长度的分布,被标点截断就是一句,,然后我在网上找到正则表达式reg=/[\u4e00-\u9fa5]/g;但是统计的数字只有实... 我主要是想做一个程序统计一篇长的文章里面句子长度的分布,被标点截断就是一句,,然后我在网上找到正则表达式reg=/[\u4e00-\u9fa5]/g;但是统计的数字只有实际的一半,然后其他的办法又说明得不够清楚,,请问有什么办法?
我的意图写在这里,,,看来要准一点只能去看编码了,,我的是ubuntu那是utf-8没错的吧?
http://jiyinyiyong.blog.163.com/blog/static/646998762011179405535/
展开
 我来答
dhsatq
2011-02-08 · TA获得超过1151个赞
知道小有建树答主
回答量:1052
采纳率:33%
帮助的人:775万
展开全部
只能为英文或中文和下划线?
那你要先知道中文字符集的ASCII的开始与结束对应数值
英文跟下划线好处理,但中文跟下划线就不好处理了,还得考虑标点与特殊字符的问题,全角与半角,这些你都得知道他们的ASCII对应的数值才行
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
我就知道你信我
2011-02-07 · TA获得超过600个赞
知道小有建树答主
回答量:1091
采纳率:0%
帮助的人:241万
展开全部
中文,utf-8 占用3个字节,gb2312占用2个字节,你写的这个是utf-8的,具体可以百度搜一下gb2312的编码表,再参考下,我对编码也是不太懂,希望能帮到你
本回答被提问者采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
匿名用户
2011-02-08
展开全部
按你的意思“被标点截断就是一句”逗号也算?
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 1条折叠回答
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式