python如何抓取网页源代码中的字符串

我想提取一段字符串，如图中红圈表示... 我想提取一段字符串，如图中红圈表示展开

 我来答

2个回答

#热议# 为什么说不要把裤子提到肚脐眼？

良玉小帝
2018-02-26 · 个人日常精心汇总合集

良玉小帝

采纳数：5925 获赞数：9451

向TA提问私信TA

关注

展开全部

正则提取
找前后关键字
python可以很方便地抓取网页并过滤网页的内容，那么，如何从如下的网页中提取良玉的博客blog.uouo123.com。
<script type="text/ecmascript">
window.quickReplyflag = true;
</script>
<div id="article_details" class="details">
<div class="article_title">
<span class="ico ico_type_Original"></span>
<h1>
<span class="link_title"><a href="/u013074465/article/details/44280335">
良玉的博客blog.uouo123.com
</a></span>
</h1>
</div>
如下是核心代码，使用正则表达式实现：
html2 = opener.open(page).read()
allfinds2 = re.findall(r'<span class="link_title"><a href="/u013074465/article/details/........">\r\n(.+?)</a></span>',html2, re.S)
print allfinds2[0].strip()
第一行：打开链接，page指向的是所要提取的文章标题的链接；
第二行：当读取到了连接的内容后，使用正则表达式进行匹配。这里要匹配的字符串的尾部是</a></span>，要匹配最近的</a></span>需要注意下面黑体字部分：

已赞过 已踩过<

评论收起

小古娱乐实训
2018-02-26 · TA获得超过175个赞

知道小有建树答主

回答量：318

采纳率：54%

帮助的人：77.5万

我也去答题访问个人页

关注

展开全部

使用正则匹配，列：

import requests
import re

req = requests.get(url)
r = re.findall('<script src="(.*?)"></script>', req.text)  # (.*?) 非贪婪匹配
print(r)

自己网上找找python正则方面的知识

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python如何抓取网页源代码中的字符串

其他类似问题

为你推荐：