python 爬虫怎么过滤正文以外的

 我来答

2个回答

#热议# 不吃早饭真的会得胆结石吗？

灰色52056
2017-10-24 · TA获得超过514个赞

知道小有建树答主

回答量：494

采纳率：100%

帮助的人：358万

我也去答题访问个人页

关注

展开全部

利用bs4查找所有的div，用正则筛选出每个div里面的中文，找到中文字数最多的div就是属于正文的div了。定义一个抓取的头部抓取网页内容：

import requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36',
    'Host': 'blog.csdn.net'}
session = requests.session()

def getHtmlByRequests(url):
    headers.update(
        dict(Referer=url, Accept="*/*", Connection="keep-alive"))
    htmlContent = session.get(url=url, headers=headers).content
    return htmlContent.decode("utf-8", "ignore")

统计文字的正则：

import re
# 统计中文字数
def countContent(string):
    pattern = re.compile(u'[\u1100-\uFFFD]+?')
    content = pattern.findall(string)
    return content

查找每一个div，统计每一个div的文字，只保留文字最多的那个div：

# 分析页面信息
def analyzeHtml(html):
    # 初始化网页
    soup = BeautifulSoup(html, "html.parser")
    part = soup.select('div')
    match = ""
    for paragraph in part:
        content = countContent(str(paragraph))
        if len(content) > len(match):
            match = str(paragraph)
    return match

最后的调用几个函数即可：

def main():
    url = "http://blog.csdn.net/"
    html = getHtmlByRequests(url)
    mainContent = analyzeHtml(html)
    soup = BeautifulSoup(mainContent, "html.parser")
    print(soup.select('div')[0].text)

已赞过 已踩过<

评论收起

慕课网

广告2024-11-16

python入门课程零基础起步，多领域实战，手把手带你稳步胜任全能工作python入门课程对标企业岗位技能需求，涵盖5大热门领域，全流程实战，一站式就业

class.imooc.com

数阔八爪鱼采集器丨RPA机器人
2021-07-29 · 前往八爪鱼RPA应用市场，免费获取机器人

数阔八爪鱼采集器丨RPA机器人

向TA提问

关注

展开全部

和评论一样，推荐bs4。
看一下bs4的中文文档其实问题基本可以解决。
1，解析html
2，find所在的class
3，get_text() 这个结果会直接过滤标签提取正文，不需要你用正则去过滤标签。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

python新手教程专为初学者设计，多领域实战

class.imooc.com

python 爬虫怎么过滤正文以外的

您可能关注的内容

其他类似问题

为你推荐：