关于用正则表达式提取网页内容，详细如下

我用C#正则表达式写了一个提取“中国国家安全信息漏洞库”网页内容的小程序，但是提取出来的文字是乱码。我拿我的程序去测试了下腾讯和hao123这两个网站，结果腾讯的正常，h... 我用C#正则表达式写了一个提取“中国国家安全信息漏洞库”网页内容的小程序，但是提取出来的文字是乱码。我拿我的程序去测试了下腾讯和hao123这两个网站，结果腾讯的正常，hao123的也是乱码。然后我去看了下这3个网站的编码格式，发现“漏洞库”和“hao123”都是<meta charset="utf-8"/>，而腾讯是charset=gb2312，推测应该是网页编码格式不同导致的，现在不知道该怎么修改才能让我的程序正常运行？各路大神求教啊！分数不多将就点吧。。。展开

 我来答

1个回答

#热议# 应届生在签三方时要注意什么？

againinput4
2012-12-14 · TA获得超过2407个赞

知道大有可为答主

回答量：1446

采纳率：70%

帮助的人：640万

我也去答题访问个人页

关注

展开全部

那你巧了，我之前就给你们写了教程了，自己去看就可以了：
【整理】关于HTML网页源码的字符编码（charset）格式（GB2312，GBK，UTF-8，ISO8859-1等）的解释

另外，关于网站抓取方面的，这里面，基本上有你想要的所有的内容：
如何用Python，C#等语言去实现抓取静态网页模拟登陆网站

(此处不给贴地址，请用google搜帖子标题，就可以找到帖子地址的)

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

关于用正则表达式提取网页内容，详细如下

其他类似问题

为你推荐：