如何用Python爬取出HTML指定标签内的文本?

我想只要其中<tr>下<td>标签所包含的文本信息,或者有什么办法只留下页面显示的内容,把标签符号之类的去掉?最好能给出代码,谢谢啦!... 我想只要其中<tr>下<td>标签所包含的文本信息,或者有什么办法只留下页面显示的内容,把标签符号之类的去掉?最好能给出代码,谢谢啦! 展开
 我来答
阿刚炖蛋
2019-06-10 · TA获得超过3004个赞
知道大有可为答主
回答量:1789
采纳率:92%
帮助的人:980万
展开全部

你好!

可以通过lxml来获取指定标签的内容。

#安装lxml
pip install lxml

import requests
from lxml import html

def getHTMLText(url):
    ....
    
etree = html.etree
root = etree.HTML(getHTMLText(url))
#这里得到一个表格内tr的集合
trArr  = root.xpath("//div[@class='news-text']/table/tbody/tr");

#循环显示tr里面的内容
for tr in trArr:
    rank = tr.xpath("./td[1]/text()")[0]
    name = tr.xpath("./td[2]/div/text()")[0]
    prov = tr.xpath("./td[3]/text()")[0]
    strLen = 22-len(name.encode('GBK'))+len(name)
    print('排名:{:<3},   学校名称:{:<{}}\t,   省份:{}'.format(rank,name,strLen,prov))

希望对你有帮助!

追问
这个可以用!谢谢啦!
t8116189520
2019-06-10 · TA获得超过379个赞
知道小有建树答主
回答量:374
采纳率:73%
帮助的人:78.1万
展开全部

这种情况用xpath啊,什么re和bs4都弱爆了。

import requests
from lxml import etree
def getHTMLtext(url):
    res=requests.get(url,timeout=30)
    # 处理中文编码问题
    res.encoding='gb2312'
    # 转化html
    html=etree.HTML(res.text)
    # xpath提取tr标签下td的内容
    HTMLtext=html.xpath("//tr/td/text()")
    return HTMLtext
追问

会乱码哦!

追答
这是中文编码问题,跟提取没有关系,通过res.apparent_encoding查看真实编码,然后把gb2312改成真实编码
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
armstrong93
2019-06-10 · TA获得超过267个赞
知道小有建树答主
回答量:441
采纳率:34%
帮助的人:84.4万
展开全部
爬取这些主要看规则,如果就你刚才所说,可以用正则。可以试下一次正则是否能提取,如果不行的话,先取包含内容的部分,然后正则再区分。
当然还可以查下类似xml解析的方法将HTML转化为数组,然后取值
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
jjdsjeff
2019-06-09 · TA获得超过2051个赞
知道大有可为答主
回答量:2468
采纳率:72%
帮助的人:598万
展开全部
如果只要tr td中的文本内容,建议还是用正则表达式来提取更为方便。
追问
能给代码吗?我看到网上很多都说用正则表达式,但是那些代码复制来都报错。
本回答被网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
数阔八爪鱼采集器丨RPA机器人
2021-07-27 · 前往八爪鱼RPA应用市场,免费获取机器人
数阔八爪鱼采集器丨RPA机器人
向TA提问
展开全部
举个例子:
想要提取全部标签<h4></h4>内的文本,可使用如下Python代码:

import re
with open("html.html",'rU') as strf:
....str = strf.read()
res = r'(?<=<h4>).*?(?=</h4>)'
li = re.findall(res,str)
with open("new.txt","w") as wstr:
....for s in li:
........wstr.write(s)
........wstr.write(" ")
........print(s,' ')

正则表达式r'(?<=<h4>).*?(?=</h4>)中括号部分属于向后向前查找,相当于字符串作为边界进行查找。

运行后会将标签<h4></h4>内的文本提取到文件new.txt
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 2条折叠回答
收起 更多回答(4)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式