如何用正则表达式提取网址？

 我来答

1个回答

#热议# 发烧为什么不能用酒精擦身体来退烧？

恋恋土豆丝
2017-05-22 · TA获得超过5231个赞

知道大有可为答主

回答量：4569

采纳率：0%

帮助的人：1015万

我也去答题访问个人页

关注

展开全部

HTML网页是一个文本文档，正则表达式的主要作用是匹配文本文档中的特定字符串，当然，它不仅仅是从文档中找出一个确定的字符串，例如“text”这么简单，而是使用一种很灵活的词法表达一个字符串模式，按照这个模式匹配。

从HTML文档中提取内容，可以将HTML的标签或者文字内容作为匹配的目标和参照，所以首先要了解目标HTML文档结构，另外，正则表达式也比较不容易掌握。实际上，HTML文档是一种半结构化的文档，用HTML标签分成结构块，所以，还有另外一种提取途径：使用XPath或者XQuery，其语法要容易掌握得多。

可以看一下MetaSeeker网站抓取软件的实现原理，采用以XPath为主，以字符串处理函数为辅的方法提取网站内容，在GooSeeker网站上有很多技术资料，软件可以免费下载和使用

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

如何用正则表达式提取网址？

其他类似问题

为你推荐：