如何在 python 中使用 beautifulsoup4 来抓取标签中的内容
小白入门阶段,主要用requests和beautifulsoup4库来爬取内容。目前遇到的问题是,使用beautifulsoup抓取标签内容出错。所以来咨询下过往前辈的建议。
1、像上图HTML文档中的滴滴出行,应该如何抓取?用select函数可以实现嘛?
2、像抓取战略投资,我使用了下面的语句,内容截取到了,但是还多了个括号。不知道怎么把括号去掉。
investment=soup.select('span[class="t-small c-green"]')[0].text.strip()
3、我光是select函数就用迷糊了。。。更别说添加别的函数了。
问题比较简单,但是已经卡了我很久了。求大神指点一二啊!
from bs4 import BeautifulSoup
html_doc = '''
<div class="line-title">
<span class="title">
<b>
滴滴出行
<span class="t-small c-green">
(战略投资)
</span>
</b>
</span>
<span class="sechovershow jzbtn c-lined small marl10 act-ugc-edit act-ugc-edit-base1" style="margin-top:-5px">
<i class="fa fa-pencil"></i>
编辑
</span>
</div>
'''
soup = BeautifulSoup(html_doc, "html.parser")
# 初级版
didi = soup.b.next_element.strip()
invest = soup.b.span.next_element.strip()
# 进阶版
didi, invest = soup.b.stripped_strings