关于用正则表达式提取网页内容,详细如下
我用C#正则表达式写了一个提取“中国国家安全信息漏洞库”网页内容的小程序,但是提取出来的文字是乱码。我拿我的程序去测试了下腾讯和hao123这两个网站,结果腾讯的正常,h...
我用C#正则表达式写了一个提取“中国国家安全信息漏洞库”网页内容的小程序,但是提取出来的文字是乱码。我拿我的程序去测试了下腾讯和hao123这两个网站,结果腾讯的正常,hao123的也是乱码。然后我去看了下这3个网站的编码格式,发现“漏洞库”和“hao123”都是<meta charset="utf-8"/>,而腾讯是charset=gb2312,推测应该是网页编码格式不同导致的,现在不知道该怎么修改才能让我的程序正常运行?各路大神求教啊!分数不多将就点吧。。。
展开
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询