python爬虫中关于urllib2.Requset和urllib2.build_opener的疑问?
importurlparsedefdownload(url,user_agent='Sniper',proxy=None,num_retries=2):print('Do...
import urlparse
def download(url, user_agent='Sniper', proxy=None, num_retries=2):
print('Downloading:', url)
headers = {'User-agent': user_agent}
request = urllib2.Request(url, headers=headers)
opener = urllib2.build_opener()
if proxy:
proxy_params = {urlparse.urlparse(url).scheme: proxy}
opener.add_handler(urllib2.ProxyHandler(proxy_params))
try:
html = urllib2.urlopen(url).read()
except urllib2.URLError as e:
print('Download error:', e.reason)
html = None
if num_retries > 0:
if hasattr(e, 'code') and 500 <= e.code <600:
return download(url,user_agentm, num_retries-1)
return html
这段程序中,为什么改变user_agent时候要用urllib2.Requset();而添加用户代理proxy要使用opener = urllib2.build_opener()先建立一个新的opener,然后再添加handler。
疑问:两个都是请求数据所需要参数,为什么不能建立一个handler?
使用代理服务器时候,在F12中Network下属哪个里面能看到改变? 展开
def download(url, user_agent='Sniper', proxy=None, num_retries=2):
print('Downloading:', url)
headers = {'User-agent': user_agent}
request = urllib2.Request(url, headers=headers)
opener = urllib2.build_opener()
if proxy:
proxy_params = {urlparse.urlparse(url).scheme: proxy}
opener.add_handler(urllib2.ProxyHandler(proxy_params))
try:
html = urllib2.urlopen(url).read()
except urllib2.URLError as e:
print('Download error:', e.reason)
html = None
if num_retries > 0:
if hasattr(e, 'code') and 500 <= e.code <600:
return download(url,user_agentm, num_retries-1)
return html
这段程序中,为什么改变user_agent时候要用urllib2.Requset();而添加用户代理proxy要使用opener = urllib2.build_opener()先建立一个新的opener,然后再添加handler。
疑问:两个都是请求数据所需要参数,为什么不能建立一个handler?
使用代理服务器时候,在F12中Network下属哪个里面能看到改变? 展开
2个回答
2018-11-13
展开全部
工作原因接触过 .net,node.js,Python,go爬虫 ,Python 的scrapy 框架(618爬虫代理)基本上是无敌的
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询