如何在 python 中使用 beautifulsoup4 来抓取标签中的内容

 我来答
从空去听8
2017-11-03 · TA获得超过7439个赞
知道大有可为答主
回答量:6907
采纳率:93%
帮助的人:5578万
展开全部

小白入门阶段,主要用requests和beautifulsoup4库来爬取内容。目前遇到的问题是,使用beautifulsoup抓取标签内容出错。所以来咨询下过往前辈的建议。
1、像上图HTML文档中的滴滴出行,应该如何抓取?用select函数可以实现嘛?
2、像抓取战略投资,我使用了下面的语句,内容截取到了,但是还多了个括号。不知道怎么把括号去掉。
investment=soup.select('span[class="t-small c-green"]')[0].text.strip()
3、我光是select函数就用迷糊了。。。更别说添加别的函数了。
问题比较简单,但是已经卡了我很久了。求大神指点一二啊!



from bs4 import BeautifulSoup

html_doc = '''
<div class="line-title">
<span class="title">
<b>
滴滴出行
<span class="t-small c-green">
(战略投资)
</span>
</b>
</span>
<span class="sechovershow jzbtn c-lined small marl10 act-ugc-edit act-ugc-edit-base1" style="margin-top:-5px">
<i class="fa fa-pencil"></i>
编辑
</span>
</div>
'''

soup = BeautifulSoup(html_doc, "html.parser")
# 初级版
didi = soup.b.next_element.strip()
invest = soup.b.span.next_element.strip()

# 进阶版

didi, invest = soup.b.stripped_strings

sun_pxy1
2020-06-08
知道答主
回答量:2
采纳率:0%
帮助的人:1364
展开全部
.lstrip("(").rstrip(")")
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式