帮忙分析一下用python爬取一个网站一直不成功的原因

headers={"Accept":headers={"text/html,application/xhtml+xml,application/xml;q=0.9,ima... headers = {
"Accept":
headers={"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
"Accept-Encoding": "gzip, deflate",
"Accept-Language": "zh-CN,zh;q=0.9",
"Cache-Control": "no-cache",
"Connection": "keep-alive",
"DNT": "1",
"Host": "ha.chinaunicombidding.cn",
"Pragma": "no-cache",
"Upgrade-Insecure-Requests": "1",
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
}
url1='http://ha.chinaunicombidding.cn/jsp/cnceb/web/info1/infoList.jsp?notice=&time1=&time2=&province=&city=&type='
response = requests.get(url1, headers=headers)
text = response.content.decode('utf-8')
html = etree.HTML(text)
biaotis=html.xpath('//*[@id="div1"]/table/tbody/tr/td//text()') #招标公告标题
for biaoti in biaotis:
print(biaoti)
展开
 我来答
风驰电掣happy
2019-08-02 · TA获得超过136个赞
知道小有建树答主
回答量:226
采纳率:63%
帮助的人:81.4万
展开全部
人家内容是通过js生成就这样,而且就算不是js生成的你写的代码也有一堆问题,人家没有对请求头的返爬你加不加毫无意义,text = response.content.decode('utf-8')你这写法是什么鬼,人家网站charset默认utf8没有必要定义,直接text = response.text就可以了,这个网站你应该爬不下来,还是看看基础吧骚年
追问
回答好nb啊!那你给指点一下啊!
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式