用python脚本爬取和解析指定页面的数据

能简单实现就行（1）使用python脚本（提示：使用beautifulsoap，urllib库等）（2）样例输入：1http://baby.qq.com/a/201408... 能简单实现就行

（1）使用python脚本（提示：使用beautiful soap，urllib库等）

（2）样例

输入：

1

http://baby.qq.com/a/20140830/013298.htm

输出：

包含字段有：

文章来源：“妈妈网”；

文章发表时间：“2014-08-30 10:07”；

摘要：“[摘要]盛夏已过，金秋将至。****** 是如何度过的” ，注：获取摘要全部内容

正文：“说到幼儿园，****** 就应该从娃娃抓起！”，注：获取正文全部内容（包括递推的下一页，比如样例中是第一页和第二页合在一起的正文内容。不能从“显示全文”连接获取。）

（3）测试

样例url：

输入：

N（如3条url）

http://baby.qq.com/a/20140829/018470.htm

http://baby.qq.com/a/20140828/021773.htm

http://baby.qq.com/a/20140827/061688.htm

同一形式的其他url

预计输出：如同上面样例url：http://baby.qq.com/a/20140830/013298.htm 的输出展开

 我来答

你的回答被采纳后将获得：
系统奖励15（财富值+成长值）+难题奖励10（财富值+成长值）+提问者悬赏10（财富值+成长值）

1个回答

#热议# 应届生在签三方时要注意什么？

chaoningwang
推荐于2016-03-14 · TA获得超过682个赞

知道小有建树答主

回答量：806

采纳率：83%

帮助的人：881万

我也去答题访问个人页

关注

展开全部

给你贴一下我前一段时间回答的类似问题，用的soup，还有一个用的正则就不贴了，手机不太方便，如下。
import beautifulsoup
import urllib2

def main():

userMainUrl = "你要抓取的地址"
req = urllib2.Request(userMainUrl)
resp = urllib2.urlopen(req)
respHtml = resp.read()
foundLabel = respHtml.findAll("label")

finalL =foundLabel.string

print "biaoti=",finalL
if __name__=="__main__":

main();

PS：如果不会改的话追问一下，回头我用电脑给你写一份

本回答被提问者和网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

python游戏脚本来夸克浏览器!输入需求一键生成!

b.quark.cn

用python脚本爬取和解析指定页面的数据

您可能关注的内容

其他类似问题

为你推荐：