Python抓取网页信息时,读取的是非网页源代码,怎么解决啊 50

读取的网页是:http://acm.nyist.net/我的代码是:importurlliburl="http://acm.nyist.net"printurllib.u... 读取的网页是:http://acm.nyist.net/
我的代码是:
import urllib
url = "http://acm.nyist.net"
print urllib.urlopen(url).read()#.decode('gbk','ignore').encode('utf-8')

Python 2.7.6 (default, Nov 10 2013, 19:24:18) [MSC v.1500 32 bit (Intel)] on win32
Type "copyright", "credits" or "license()" for more information.
>>> ================================ RESTART ================================
>>>
<HTML><HEAD><TITLE>访问禁止</TITLE><STYLE type=text/css>p{color:#666;FONT-SIZE:12pt}A{TEXT-DECORATION:none}</STYLE></HEAD><BODY topMargin=50><TABLE cellSpacing=0 width=600 align=center border=0 cepadding="0"><TR><TD><p><b>访问禁止</b></p><HR noShade SIZE=0><P style="height:9px">☉ 确保浏览器的地址栏中的地址拼写和格式正确无误;</P><P style="height:9px;">☉ 单击<A href="javascript:history.back(1)">后退</A>返回上一页;</P><P style="height:9px;margin:0 0 30px 0">☉ 如有任何疑问,请与管理员联系。</p><HR noShade SIZE=0><p style="height:9px;"><a href="#" onClick="javascript:var od=document.getElementById('d');od.style.display=='none'?od.style.display='': od.style.display='none';">☉ 详细>></a></p><p style="display:none" id="d">检测到可疑访问,事件编号:573</p></TD></TR></TABLE></BODY></HTML>
>>>
展开
 我来答
nonstop525
推荐于2017-08-29 · TA获得超过567个赞
知道小有建树答主
回答量:341
采纳率:66%
帮助的人:205万
展开全部
这个是你爬虫发送请求,被服务端拒绝了;可能有这么几种:1.需要登录,2.需要cookie,3,发送的头不符合服务端的要求,具体要研究服务端;
现手动登陆一次,用fiddler抓包,看一下,如果cookie,就把cookie带上;
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式