用python脚本爬取和解析指定页面的数据
能简单实现就行(1)使用python脚本(提示:使用beautifulsoap,urllib库等)(2)样例输入:1http://baby.qq.com/a/201408...
能简单实现就行
(1)使用python脚本(提示:使用beautiful soap,urllib库等)
(2)样例
输入:
1
http://baby.qq.com/a/20140830/013298.htm
输出:
包含字段有:
文章来源:“妈妈网”;
文章发表时间:“2014-08-30 10:07”;
摘要:“[摘要]盛夏已过,金秋将至。****** 是如何度过的” ,注:获取摘要全部内容
正文:“说到幼儿园,****** 就应该从娃娃抓起!”,注:获取正文全部内容(包括递推的下一页,比如样例中是第一页和第二页合在一起的正文内容。不能从“显示全文”连接获取。)
(3)测试
样例url:
输入:
N(如3条url)
http://baby.qq.com/a/20140829/018470.htm
http://baby.qq.com/a/20140828/021773.htm
http://baby.qq.com/a/20140827/061688.htm
同一形式的其他url
预计输出:如同上面样例url:http://baby.qq.com/a/20140830/013298.htm 的输出 展开
(1)使用python脚本(提示:使用beautiful soap,urllib库等)
(2)样例
输入:
1
http://baby.qq.com/a/20140830/013298.htm
输出:
包含字段有:
文章来源:“妈妈网”;
文章发表时间:“2014-08-30 10:07”;
摘要:“[摘要]盛夏已过,金秋将至。****** 是如何度过的” ,注:获取摘要全部内容
正文:“说到幼儿园,****** 就应该从娃娃抓起!”,注:获取正文全部内容(包括递推的下一页,比如样例中是第一页和第二页合在一起的正文内容。不能从“显示全文”连接获取。)
(3)测试
样例url:
输入:
N(如3条url)
http://baby.qq.com/a/20140829/018470.htm
http://baby.qq.com/a/20140828/021773.htm
http://baby.qq.com/a/20140827/061688.htm
同一形式的其他url
预计输出:如同上面样例url:http://baby.qq.com/a/20140830/013298.htm 的输出 展开
- 你的回答被采纳后将获得:
- 系统奖励15(财富值+成长值)+难题奖励10(财富值+成长值)+提问者悬赏10(财富值+成长值)
1个回答
展开全部
给你贴一下我前一段时间回答的类似问题,用的soup,还有一个用的正则就不贴了,手机不太方便,如下。
import beautifulsoup
import urllib2
def main():
userMainUrl = "你要抓取的地址"
req = urllib2.Request(userMainUrl)
resp = urllib2.urlopen(req)
respHtml = resp.read()
foundLabel = respHtml.findAll("label")
finalL =foundLabel.string
print "biaoti=",finalL
if __name__=="__main__":
main();
PS:如果不会改的话追问一下,回头我用电脑给你写一份
import beautifulsoup
import urllib2
def main():
userMainUrl = "你要抓取的地址"
req = urllib2.Request(userMainUrl)
resp = urllib2.urlopen(req)
respHtml = resp.read()
foundLabel = respHtml.findAll("label")
finalL =foundLabel.string
print "biaoti=",finalL
if __name__=="__main__":
main();
PS:如果不会改的话追问一下,回头我用电脑给你写一份
本回答被提问者和网友采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询