python爬虫这样子为什么一直爬的是相同的东西,应该怎么爬取其他td标签下的内容?
2019-03-12
展开全部
import requests
from bs4 import BeautifulSoup
import re
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'}
ALL=[]
def get_url(s):
url='https://hr.tencent.com/position.php?keywirds=测试&tid=0&start=%s#a'%s
req=requests.get(url,headers=headers,timeout=3)
res=req.content
soup=BeautifulSoup(res,'lxml')
s=soup.select('table.tablelist tr')
Text=s[1:-1]
for i in Text:
job={'职位名称':None,
'职位类别':None,
'人数':None,
'地点':None,
'发布时间':None}
L=i.text.strip(' ').split(' ')
job['职位名称']=L[0]
job['职位类别']=L[1]
job['人数']=L[2]
job['地点']=L[3]
job['发布时间']=L[4]
ALL.append(job)
for i in range(0,101,10):
get_url(i)
print(ALL)
你的问题应该是字段key的问题,key是唯一的。多个结果的话会覆盖,加个list来表达就可以规避这个问题
更多追问追答
追问
如果想把打印的内容下载下来,以js文件保存,应该需要怎么做?
追答
with open('路径+文件名字.js','wb') as f:
f.write(ALL)
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询