2个回答
展开全部
正则提取
找前后关键字
python可以很方便地抓取网页并过滤网页的内容,那么,如何从如下的网页中提取良玉的博客blog.uouo123.com。
<script type="text/ecmascript">
window.quickReplyflag = true;
</script>
<div id="article_details" class="details">
<div class="article_title">
<span class="ico ico_type_Original"></span>
<h1>
<span class="link_title"><a href="/u013074465/article/details/44280335">
良玉的博客blog.uouo123.com
</a></span>
</h1>
</div>
如下是核心代码,使用正则表达式实现:
html2 = opener.open(page).read()
allfinds2 = re.findall(r'<span class="link_title"><a href="/u013074465/article/details/........">\r\n(.+?)</a></span>',html2, re.S)
print allfinds2[0].strip()
第一行:打开链接,page指向的是所要提取的文章标题的链接;
第二行:当读取到了连接的内容后,使用正则表达式进行匹配。这里要匹配的字符串的尾部是</a></span>,要匹配最近的</a></span>需要注意下面黑体字部分:
找前后关键字
python可以很方便地抓取网页并过滤网页的内容,那么,如何从如下的网页中提取良玉的博客blog.uouo123.com。
<script type="text/ecmascript">
window.quickReplyflag = true;
</script>
<div id="article_details" class="details">
<div class="article_title">
<span class="ico ico_type_Original"></span>
<h1>
<span class="link_title"><a href="/u013074465/article/details/44280335">
良玉的博客blog.uouo123.com
</a></span>
</h1>
</div>
如下是核心代码,使用正则表达式实现:
html2 = opener.open(page).read()
allfinds2 = re.findall(r'<span class="link_title"><a href="/u013074465/article/details/........">\r\n(.+?)</a></span>',html2, re.S)
print allfinds2[0].strip()
第一行:打开链接,page指向的是所要提取的文章标题的链接;
第二行:当读取到了连接的内容后,使用正则表达式进行匹配。这里要匹配的字符串的尾部是</a></span>,要匹配最近的</a></span>需要注意下面黑体字部分:
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询