python,提取HTML中左右没有标签的内容,怎么提取?
展开全部
我一般使用BeautifulSoup,还是比较简单的
soup=BeaitifulSoup(html,'html.parser')
要找到某各元素使用find_all方法就行
for div in soup.find_all('div'):
但是经常会遇到网站有反爬的设置,比如子结点中含有换行符,只要写个函数去掉子结点间的换行符就行
soup=BeaitifulSoup(html,'html.parser')
要找到某各元素使用find_all方法就行
for div in soup.find_all('div'):
但是经常会遇到网站有反爬的设置,比如子结点中含有换行符,只要写个函数去掉子结点间的换行符就行
追问
有没有删除标签及其内容的方法
本回答被网友采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
下面的回答都是文不对题,瞎几把回答,误导人!!这一句话根本没有标签,何来用标签方法获取? 这个没标签的,其实有隐藏的r\n\,需要用正则表达式来获取。我也遇到了同样的情况,正在爬取。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
我一般使用BeautifulSoup,还是比较简单的
soup=BeaitifulSoup(html,'html.parser')
要找到某各元素使用find_all方法就行
for div in soup.find_all('div'):
但是经常会遇到网站有反爬的设置,比如子结点中含有换行符,只要写个函数去掉子结点间的换行符就行
soup=BeaitifulSoup(html,'html.parser')
要找到某各元素使用find_all方法就行
for div in soup.find_all('div'):
但是经常会遇到网站有反爬的设置,比如子结点中含有换行符,只要写个函数去掉子结点间的换行符就行
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
直接使用get_text()方法就行了
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询