javascript统计汉字字数,区别全角标点,怎么做到?
我主要是想做一个程序统计一篇长的文章里面句子长度的分布,被标点截断就是一句,,然后我在网上找到正则表达式reg=/[\u4e00-\u9fa5]/g;但是统计的数字只有实...
我主要是想做一个程序统计一篇长的文章里面句子长度的分布,被标点截断就是一句,,然后我在网上找到正则表达式reg=/[\u4e00-\u9fa5]/g;但是统计的数字只有实际的一半,然后其他的办法又说明得不够清楚,,请问有什么办法?
我的意图写在这里,,,看来要准一点只能去看编码了,,我的是ubuntu那是utf-8没错的吧?
http://jiyinyiyong.blog.163.com/blog/static/646998762011179405535/ 展开
我的意图写在这里,,,看来要准一点只能去看编码了,,我的是ubuntu那是utf-8没错的吧?
http://jiyinyiyong.blog.163.com/blog/static/646998762011179405535/ 展开
3个回答
展开全部
只能为英文或中文和下划线?
那你要先知道中文字符集的ASCII的开始与结束对应数值
英文跟下划线好处理,但中文跟下划线就不好处理了,还得考虑标点与特殊字符的问题,全角与半角,这些你都得知道他们的ASCII对应的数值才行
那你要先知道中文字符集的ASCII的开始与结束对应数值
英文跟下划线好处理,但中文跟下划线就不好处理了,还得考虑标点与特殊字符的问题,全角与半角,这些你都得知道他们的ASCII对应的数值才行
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
中文,utf-8 占用3个字节,gb2312占用2个字节,你写的这个是utf-8的,具体可以百度搜一下gb2312的编码表,再参考下,我对编码也是不太懂,希望能帮到你
本回答被提问者采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
2011-02-08
展开全部
按你的意思“被标点截断就是一句”逗号也算?
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询