正则表达式提取HTML范围内链接地址URL 50

例如在HTML代码中，需要提取<divid="1">.....<from这个范围内所有的链接的地址，简单点就是http://开头，html结尾就行了。因为div1里面可能... 例如在HTML代码中，需要提取
<div id="1">.....<from
这个范围内所有的链接的地址，简单点就是http://开头，html结尾就行了。
因为div1里面可能包含很多div，所以就没用<div>结尾，以最近的其他字符结尾<form，不知道这么想对不对。

求大神赐教！！展开

 我来答

2个回答

#热议# 生活中有哪些实用的心理学知识？

epplera
2013-03-23 · TA获得超过133个赞

知道小有建树答主

回答量：245

采纳率：0%

帮助的人：208万

我也去答题访问个人页

关注

展开全部

首先你要找特征，这是写正则前必须做的。
一般要匹配HTML中的东西，往往这个HTML的来源是抓取别人的网站，那么你要分析对方网站会变动些什么，比如form是否是唯一的，会不会增加另外一个form，DIV的ID是否会变，DIV的层级是否会变，那些是不会变的，比如div的class名称，或者某些关键字。这是找范围特征。
其次是找链接本身的特征，你要找的链接是否都是超链接，也就是<a href=""></a>标签
然后更具特征去写正则。

处理方式：
首先获取范围的全部的HTML
其次再匹配其中的链接

我也不知道你用的什么语言，这里我就用我熟悉的PHP给你写下吧.

if (preg_match_all("/\<\bdiv\b[^>]*id\s*=\"1\"[^>]*\>(?<content>.*?)/ies", $html, $matches) {
$html = $matches['content'];

if (preg_match_all("/http\:\/\/[^<>\"]*?\.html/i", $html, $links) {

print_r($links);

}

}

已赞过 已踩过<

评论收起

novice_pegasus
2013-03-24 · TA获得超过624个赞

知道小有建树答主

回答量：722

采纳率：100%

帮助的人：648万

我也去答题访问个人页

关注

展开全部

如果不是最里层的div的话，事实上是没有办法提取里面内容的。即便你以<from结尾，但是倘若这两者之间还有其他同一层级的div比如：
<div id="1">
......<div>.....</div>.....<div>.........</div>....
</div>
<div id="2">
...................

</div><form>
这种情况你怎么办？所以除非你在十分了解你页面元素分布的情况下，才能按某一项特征值去提取非最内层的div元素，这一点别人帮不到你。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

正则表达式提取HTML范围内链接地址URL 50

其他类似问题

为你推荐：