用selenium+phantomjs抓取异步加载的网页内容为什么抓不到

 我来答

1个回答

#热议# 什么是淋病？哪些行为会感染淋病？

上海中公优就业
2017-07-21 · TA获得超过504个赞

知道小有建树答主

回答量：312

采纳率：66%

帮助的人：187万

我也去答题访问个人页

关注

展开全部

这仅仅是一个post提交，为什么要搞得这么复杂
import requests, json

url = 'http://www.cninfo.com.cn/cninfo-new/disclosure/szse/fulltext'
data = 'stock=300027&searchkey=&category=&pageNum=1&pageSize=15&column=szse_gem&tabName=latest&sortName=&sortType=&limit=&seDate='

headers = {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36'
}

r = requests.post(url, data=data, headers=headers)
result = json.loads(r.text)

files = [_[0]['adjunctUrl'] for _ in result['classifiedAnnouncements']]

for file in files:
file_url = 'http://www.cninfo.com.cn/{0}'.format(file)
file_name = file.split('/')[2]
with open(file_name, 'w') as f:
f.write(requests.get(file_url).content)

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

用selenium+phantomjs抓取异步加载的网页内容 为什么抓不到

其他类似问题

为你推荐：

用selenium+phantomjs抓取异步加载的网页内容为什么抓不到