如何用python抓取淘宝京东网页所有审查元素,不是源代码
首先我想要的审查元素不是网页源代码。是你在淘宝京东网页上点右键点审查元素后下面弹出来的一个大的html标签,我需要这个。有没有什么第三方库可以做到呢?请教我。我用requ...
首先我想要的审查元素不是网页源代码。是你在淘宝京东网页上点右键点审查元素后下面弹出来的一个大的html标签,我需要这个。有没有什么第三方库可以做到呢?请教我。我用requests好像只会抓源代码,不会抓审查元素。教会我的朋友们必有重谢。
听说有个urllib2的库,能不能做到呀 展开
听说有个urllib2的库,能不能做到呀 展开
1个回答
展开全部
审查元素显示的其实就是格式化之后的源代码,你可以用对比一下。
下面是一个Python3使用urllib库读取源代码的例子,如果要处理成审查元素那样的格式,需要对html标签逐个处理下
import http.cookiejar
import urllib.request
ckjar = http.cookiejar.MozillaCookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(ckjar))
res = opener.open("http://jd.com")
htm = res.read().decode('gbk')
print(htm)
更多追问追答
追问
这两个库 http和urllib都可以在哪里下到呢?这个程序是只对一个标签格式化了吗?要变成审查元素那样需要每个标签都如此处理吗?
追答
http和urllib都是Python3自带的标准库,Python2带的是urllib2。
上面的程序只是读取了源代码,浏览器的审查元素是把每个标签按行显示,然后分别显示标签的各种属性,确实需要根据各种标签分别处理。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询