关于用正则表达式提取网页内容,详细如下

我用C#正则表达式写了一个提取“中国国家安全信息漏洞库”网页内容的小程序,但是提取出来的文字是乱码。我拿我的程序去测试了下腾讯和hao123这两个网站,结果腾讯的正常,h... 我用C#正则表达式写了一个提取“中国国家安全信息漏洞库”网页内容的小程序,但是提取出来的文字是乱码。我拿我的程序去测试了下腾讯和hao123这两个网站,结果腾讯的正常,hao123的也是乱码。然后我去看了下这3个网站的编码格式,发现“漏洞库”和“hao123”都是<meta charset="utf-8"/>,而腾讯是charset=gb2312,推测应该是网页编码格式不同导致的,现在不知道该怎么修改才能让我的程序正常运行?各路大神求教啊!分数不多将就点吧。。。 展开
 我来答
againinput4
2012-12-14 · TA获得超过2407个赞
知道大有可为答主
回答量:1446
采纳率:70%
帮助的人:640万
展开全部
那你巧了,我之前就给你们写了教程了,自己去看就可以了:
【整理】关于HTML网页源码的字符编码(charset)格式(GB2312,GBK,UTF-8,ISO8859-1等)的解释

另外,关于网站抓取方面的,这里面,基本上有你想要的所有的内容:
如何用Python,C#等语言去实现抓取静态网页 模拟登陆网站

(此处不给贴地址,请用google搜帖子标题,就可以找到帖子地址的)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式