求助：关于python中urllib.urlopen读取网页源代码的问题

有个很奇怪的问题，我要读取一个网站中符合某种结构的所有链接，因此需要先用urllib.urlopen读取网站的源码，然后用正则去匹配其中符合某种结构的所有链接，奇怪的问题... 有个很奇怪的问题，我要读取一个网站中符合某种结构的所有链接，因此需要先用urllib.urlopen读取网站的源码，然后用正则去匹配其中符合某种结构的所有链接，奇怪的问题是，用urllib.urlopen读取源码时有时可以正常读取其中的源码，有时又不行了，这是网络信号问题吗？还是网站有设置什么？比如这个链接：http://pic.315che.com/brand/0-83.htm，就有时只能读取其中的一部分，这是什么问题呢？非常感谢哈！展开

 我来答

4个回答

#热议# 应届生在签三方时要注意什么？

liuwei905
推荐于2016-11-09 · 超过34用户采纳过TA的回答

知道答主

回答量：127

采纳率：0%

帮助的人：84.3万

我也去答题访问个人页

关注

展开全部

def getUrlRespHtml(url):
    heads = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 
            'Accept-Charset':'GB2312,utf-8;q=0.7,*;q=0.7', 
            'Accept-Language':'zh-cn,zh;q=0.5', 
            'Cache-Control':'max-age=0', 
            'Connection':'keep-alive', 
            'Host':'John', 
            'Keep-Alive':'115', 
            'Referer':url, 
            'User-Agent':'Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.14) Gecko/20110221 Ubuntu/10.10 (maverick) Firefox/3.6.14'}

    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
    urllib2.install_opener(opener) 
    req = urllib2.Request(url)
    opener.addheaders = heads.items()
    respHtml = opener.open(req).read()
    return respHtml.decode('gbk').encode('utf-8')

给你一个返回页面数据的函数试试，这个主要是模拟了火狐浏览器去抓取数据，因为有些网站不希望机器人抓取他的数据，这是可能会出现没有返回值的情况。这个函数加了个头，来模拟浏览器浏览网页的行为。

追问

非常感谢您！我按照您的代码运行了以下，报异常：
HTTPError: HTTP Error 503: Service Unavailable
请问这是什么问题呢？麻烦您了

已赞过 已踩过<

评论收起

匿名用户
2014-02-25

展开全部

request = urllib2.Request(url,headers = header)
加上

header = {'Accept-Charset':'GBK,utf-8;q=0.7,*;q=0.3','User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.151 Safari/534.16'}

这个试试

追问

麻烦写的完整些吧？看的不是很懂

已赞过 已踩过<

评论收起

waketzheng
推荐于2018-03-10 · TA获得超过644个赞

知道小有建树答主

回答量：566

采纳率：63%

帮助的人：147万

我也去答题访问个人页

关注

展开全部

一般都用requests，很少用urllib

本回答被网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

Final_app
2014-02-26 · 超过114用户采纳过TA的回答

知道小有建树答主

回答量：256

采纳率：0%

帮助的人：102万

我也去答题访问个人页

关注

展开全部

除了加上header 没事多try一下有时候就会超时

已赞过 已踩过<

评论收起

2条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

『python』OpenSNN开思通智网:交流学习发文章

www.opensnn.com

商汤科技日日新·CoRaccoon-AI代码辅助生成

基于商汤大模型，让AI帮你写代码，支持100+语言与主流IDE，提升编程效率超50%。涵盖多场景，已助数万用户提升效率。点击立即体验!

www.sensetime.com广告

pytnon 3.11下载-2.5-3.11简体中文新版环境搭建

正版软件，不捆绑安装一次收费，长期使用，绿色通道，无广告，十年安装经验致力用户高效开发，支持远程协助安装，支持重置，使用便捷放心。

www1.msc23.cn广告

求助：关于python中urllib.urlopen读取网页源代码的问题

您可能关注的内容

其他类似问题

为你推荐：