请问用python爬虫抓取此网站的有关信息正则表达式和beautifulsoup怎么写? 5

网址http://bbs.tiexue.net/post_4337054_1.html抓取此页面上的位置名称,经纬度,别的不要pattern=re.compile(***... 网址http://bbs.tiexue.net/post_4337054_1.html

抓取此页面上的位置名称,经纬度,别的不要

pattern=re.compile(********,reS)
展开
 我来答
yinfengnong
2019-01-03 · TA获得超过5619个赞
知道大有可为答主
回答量:2344
采纳率:89%
帮助的人:2268万
展开全部

代码如下:

#coding=utf-8

import re
import requests
from bs4 import BeautifulSoup

resp = requests.get('http://bbs.tiexue.net/post_4337054_1.html')

if resp.status_code == 200:

    soup = BeautifulSoup(resp.content.decode('GB2312'), 'xml')
    
    content = soup.find('div', id = 'postContent')
    items = content.find_all('p', attrs = {'class': 'bbsp'})
    
    regex = re.compile(r'\d*(.*?)\s*((?:\d+°\s?)?(?:\d+\'\s?)?(?:\d+\.\d+\"\s?)?N)\s*((?:\d+°\s?)?(?:\d+\'\s?)?(?:\d+\.\d+\"\s?)?[WE])')

    for item in items:
        line = item.text.strip()
        if line != '':
            match = regex.match(line)
            if match:
                groups = match.groups()
                print('名称:', groups[0])
                print('北纬:', groups[1])
                print('东经:', groups[2])
                print('----------------------------------------')

运行结果:

Jemdas
2019-01-03 · TA获得超过1273个赞
知道小有建树答主
回答量:1119
采纳率:69%
帮助的人:257万
展开全部
import requests as rs
from bs4 import BeautifulSoup as BS
url = 'http://bbs.tiexue.net/post_4337054_1.html'
res = rs.get(url)
soup = BS(res.content.decode('gb2312'), 'lxml')
for tag in soup.select('.bbsp'):
    text = tag.text
    if not text:
        continue
    else:
        if not text[0].isdigit():
            continue
    print(text)

结果如下

后面太长,没有都截屏,你看着就行。

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
数阔八爪鱼采集器丨RPA机器人
2021-08-02 · 前往八爪鱼RPA应用市场,免费获取机器人
数阔八爪鱼采集器丨RPA机器人
向TA提问
展开全部

可以用这个正则表达工工具测试一下:网页链接

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 更多回答(1)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式