C#抓取网页
网页的内容抓不到,但是在浏览器可以打开网页,我认为是因为网址的原因,URL中同时有%和+的就是这种情况,%和+不同时有的可以抓取,这是什么情况啊?...
网页的内容抓不到,但是在浏览器可以打开网页,我认为是因为网址的原因,URL中同时有%和+的就是这种情况,%和+不同时有的可以抓取,这是什么情况啊?
展开
展开全部
浏览器可以看到的内容,理论上,抓取程序也可以抓到。但很多新手在写类似代码的时候,会感觉无法抓取或者抓取的结果不一致,主要有以下几种可能:
1:模拟的请求和浏览器发起的请求不一致,这里面主要包括,header里面的内容,重点关注reffer和Cookie.
2:目标网站的内容呈现是通过JS来获得的
3:目标网站使用了框架结果,而程序所填写的URL不是想要的URL
以上情况的可能性会比较大,顺便说一下,类似于%CF的东西是中文翻译成UTF8的汉字部分,而+号,一般是空格。
1:模拟的请求和浏览器发起的请求不一致,这里面主要包括,header里面的内容,重点关注reffer和Cookie.
2:目标网站的内容呈现是通过JS来获得的
3:目标网站使用了框架结果,而程序所填写的URL不是想要的URL
以上情况的可能性会比较大,顺便说一下,类似于%CF的东西是中文翻译成UTF8的汉字部分,而+号,一般是空格。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询