用python脚本爬取和解析指定页面的数据

能简单实现就行(1)使用python脚本(提示:使用beautifulsoap,urllib库等)(2)样例输入:1http://baby.qq.com/a/201408... 能简单实现就行

(1)使用python脚本(提示:使用beautiful soap,urllib库等)

(2)样例

输入:

1

http://baby.qq.com/a/20140830/013298.htm

输出:

包含字段有:

文章来源:“妈妈网”;

文章发表时间:“2014-08-30 10:07”;

摘要:“[摘要]盛夏已过,金秋将至。****** 是如何度过的” ,注:获取摘要全部内容

正文:“说到幼儿园,****** 就应该从娃娃抓起!”,注:获取正文全部内容(包括递推的下一页,比如样例中是第一页和第二页合在一起的正文内容。不能从“显示全文”连接获取。)

(3)测试

样例url:

输入:

N(如3条url)

http://baby.qq.com/a/20140829/018470.htm

http://baby.qq.com/a/20140828/021773.htm

http://baby.qq.com/a/20140827/061688.htm

同一形式的其他url

预计输出:如同上面样例url:http://baby.qq.com/a/20140830/013298.htm 的输出
展开
 我来答
  • 你的回答被采纳后将获得:
  • 系统奖励15(财富值+成长值)+难题奖励10(财富值+成长值)+提问者悬赏10(财富值+成长值)
chaoningwang
推荐于2016-03-14 · TA获得超过682个赞
知道小有建树答主
回答量:806
采纳率:83%
帮助的人:892万
展开全部
给你贴一下我前一段时间回答的类似问题,用的soup,还有一个用的正则就不贴了,手机不太方便,如下。
import beautifulsoup
import urllib2

def main():

userMainUrl = "你要抓取的地址"
req = urllib2.Request(userMainUrl)
resp = urllib2.urlopen(req)
respHtml = resp.read()
foundLabel = respHtml.findAll("label")

finalL =foundLabel.string

print "biaoti=",finalL
if __name__=="__main__":

main();

PS:如果不会改的话追问一下,回头我用电脑给你写一份
本回答被提问者和网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式