如何用正则表达式提取网址?

 我来答
恋恋土豆丝
2017-05-22 · TA获得超过5231个赞
知道大有可为答主
回答量:4569
采纳率:0%
帮助的人:1015万
展开全部
HTML网页是一个文本文档,正则表达式的主要作用是匹配文本文档中的特定字符串,当然,它不仅仅是从文档中找出一个确定的字符串,例如“text”这么简单,而是使用一种很灵活的词法表达一个字符串模式,按照这个模式匹配。

从HTML文档中提取内容,可以将HTML的标签或者文字内容作为匹配的目标和参照,所以首先要了解目标HTML文档结构,另外,正则表达式也比较不容易掌握。实际上,HTML文档是一种半结构化的文档,用HTML标签分成结构块,所以,还有另外一种提取途径:使用XPath或者XQuery,其语法要容易掌握得多。

可以看一下MetaSeeker网站抓取软件的实现原理,采用以XPath为主,以字符串处理函数为辅的方法提取网站内容,在GooSeeker网站上有很多技术资料,软件可以免费下载和使用
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式