请问用python爬虫抓取此网站的有关信息正则表达式和beautifulsoup怎么写？ 5

网址http://bbs.tiexue.net/post_4337054_1.html抓取此页面上的位置名称，经纬度，别的不要pattern=re.compile(***... 网址http://bbs.tiexue.net/post_4337054_1.html

抓取此页面上的位置名称，经纬度，别的不要

pattern=re.compile(********，reS) 展开

 我来答

3个回答

#热议# 什么是淋病？哪些行为会感染淋病？

yinfengnong
2019-01-03 · TA获得超过5619个赞

知道大有可为答主

回答量：2344

采纳率：89%

帮助的人：2268万

我也去答题访问个人页

关注

展开全部

代码如下：

#coding=utf-8

import re
import requests
from bs4 import BeautifulSoup

resp = requests.get('http://bbs.tiexue.net/post_4337054_1.html')

if resp.status_code == 200:

    soup = BeautifulSoup(resp.content.decode('GB2312'), 'xml')
    
    content = soup.find('div', id = 'postContent')
    items = content.find_all('p', attrs = {'class': 'bbsp'})
    
    regex = re.compile(r'\d*(.*?)\s*((?:\d+°\s?)?(?:\d+\'\s?)?(?:\d+\.\d+\"\s?)?N)\s*((?:\d+°\s?)?(?:\d+\'\s?)?(?:\d+\.\d+\"\s?)?[WE])')

    for item in items:
        line = item.text.strip()
        if line != '':
            match = regex.match(line)
            if match:
                groups = match.groups()
                print('名称:', groups[0])
                print('北纬:', groups[1])
                print('东经:', groups[2])
                print('----------------------------------------')

运行结果：

已赞过 已踩过<

评论收起

Jemdas
2019-01-03 · TA获得超过1273个赞

知道小有建树答主

回答量：1119

采纳率：69%

帮助的人：257万

我也去答题访问个人页

关注

展开全部

import requests as rs
from bs4 import BeautifulSoup as BS
url = 'http://bbs.tiexue.net/post_4337054_1.html'
res = rs.get(url)
soup = BS(res.content.decode('gb2312'), 'lxml')
for tag in soup.select('.bbsp'):
    text = tag.text
    if not text:
        continue
    else:
        if not text[0].isdigit():
            continue
    print(text)

结果如下

后面太长，没有都截屏，你看着就行。

已赞过 已踩过<

评论收起

数阔八爪鱼采集器丨RPA机器人
2021-08-02 · 前往八爪鱼RPA应用市场，免费获取机器人

数阔八爪鱼采集器丨RPA机器人

向TA提问

关注

展开全部

可以用这个正则表达工工具测试一下：网页链接

已赞过 已踩过<

评论收起

更多回答（1）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

请问用python爬虫抓取此网站的有关信息正则表达式和beautifulsoup怎么写？ 5

其他类似问题

为你推荐：