如何用正则表达式提取网址?
展开全部
HTML网页是一个文本文档,正则表达式的主要作用是匹配文本文档中的特定字符串,当然,它不仅仅是从文档中找出一个确定的字符串,例如“text”这么简单,而是使用一种很灵活的词法表达一个字符串模式,按照这个模式匹配。
从HTML文档中提取内容,可以将HTML的标签或者文字内容作为匹配的目标和参照,所以首先要了解目标HTML文档结构,另外,正则表达式也比较不容易掌握。实际上,HTML文档是一种半结构化的文档,用HTML标签分成结构块,所以,还有另外一种提取途径:使用XPath或者XQuery,其语法要容易掌握得多。
可以看一下MetaSeeker网站抓取软件的实现原理,采用以XPath为主,以字符串处理函数为辅的方法提取网站内容,在GooSeeker网站上有很多技术资料,软件可以免费下载和使用
从HTML文档中提取内容,可以将HTML的标签或者文字内容作为匹配的目标和参照,所以首先要了解目标HTML文档结构,另外,正则表达式也比较不容易掌握。实际上,HTML文档是一种半结构化的文档,用HTML标签分成结构块,所以,还有另外一种提取途径:使用XPath或者XQuery,其语法要容易掌握得多。
可以看一下MetaSeeker网站抓取软件的实现原理,采用以XPath为主,以字符串处理函数为辅的方法提取网站内容,在GooSeeker网站上有很多技术资料,软件可以免费下载和使用
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询