在用Python抓取网站数据时,提取出来的网页信息不是今日的信息,这是怎么回事?
比如今天是6月30日,我抓取出来的网页信息却是26日的。然而我通过电脑浏览器查看网页源代码确实是30日。我的抓取代码如下:importsysreload(sys)sys....
比如今天是6月30日,我抓取出来的网页信息却是26日的。然而我通过电脑浏览器查看网页源代码确实是30日。我的抓取代码如下:
import sys
reload(sys)
sys.setdefaultencoding('utf8')
import urllib2
site="http://aqicn.org/city/beijing/"
html=urllib2.urlopen(site)
text=html.read()
fp=open(r'beijing.txt',"w")
fp.write(text)
fp.close() 展开
import sys
reload(sys)
sys.setdefaultencoding('utf8')
import urllib2
site="http://aqicn.org/city/beijing/"
html=urllib2.urlopen(site)
text=html.read()
fp=open(r'beijing.txt',"w")
fp.write(text)
fp.close() 展开
展开全部
我也看了一下确实是 26号,但是发现网页信息里面隐含了js,估计是放到了js里面了,你去找找吧http://aqicn.org/air-static/jscripts/jqueryui/js/jquery-ui-1.8.18.custom.min.js
追问
能否提示一下该如何从js里提取呢?刚刚接触python半个月,不是很了解这部分。
追答
类似于我给你的这个页面一样,你用浏览器打开后台就可以查找了,我用的是火狐的firebug
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询