如何用python抓取这个网页的内容?
http://ipub.exuezhe.com/qkpaper.html?id=680541在这个网页中,将标题作者作者介绍原发信息内容提要关键词标题注释期刊名称复印期号...
http://ipub.exuezhe.com/qkpaper.html?id=680541
在这个网页中,将
标题 作者 作者介绍 原发信息 内容提要 关键词 标题注释 期刊名称 复印期号
这几栏的内容,填充在excel相应区域里 展开
在这个网页中,将
标题 作者 作者介绍 原发信息 内容提要 关键词 标题注释 期刊名称 复印期号
这几栏的内容,填充在excel相应区域里 展开
展开全部
Python实现常规的静态网页抓取时,往往是用urllib2来获取整个HTML页面,然后从HTML文件中逐字查找对应的关键字。如下所示:
复制代码代码如下:
import urllib2
url="网址"
up=urllib2.urlopen(url)#打开目标页面,存入变量up
cont=up.read()#从up中读入该HTML文件
key1='<a href="http'#设置关键字1
key2="target"#设置关键字2
pa=cont.find(key1)#找出关键字1的位置
pt=cont.find(key2,pa)#找出关键字2的位置(从字1后面开始查找)
urlx=cont[pa:pt]#得到关键字1与关键字2之间的内容(即想要的数据)
print urlx
复制代码代码如下:
import urllib2
url="网址"
up=urllib2.urlopen(url)#打开目标页面,存入变量up
cont=up.read()#从up中读入该HTML文件
key1='<a href="http'#设置关键字1
key2="target"#设置关键字2
pa=cont.find(key1)#找出关键字1的位置
pt=cont.find(key2,pa)#找出关键字2的位置(从字1后面开始查找)
urlx=cont[pa:pt]#得到关键字1与关键字2之间的内容(即想要的数据)
print urlx
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询