java相关,正则表达式相关,nutch搜索引擎相关,谢谢!

过滤器中配置的一行^http://([a-z0-9]*/.)*这是一个正则表达式,标识爬取这样的网页。其实这个表达式的意思是所有网页。如何解释呢?^http://的意思是... 过滤器中配置的一行 ^http://([a-z0-9]*/.)*
这是一个正则表达式,标识爬取这样的网页。其实这个表达式的意思是所有网页。

如何解释呢?
^http://的意思是以它为开头?
([a-z0-9]*/.)*中的[a-z0-9]*是任意字母或者数字出现0到多次,然后一个/是代表www.baidu.com/new/a的这个/吗?最后面那个.是什么意思?如果是任意字符,那么想要接收所有网页干嘛还要写那么多,直接一个.和*搭配不就可以吗?

当然,我理解的不对,该表达是确实是对的。求解析,谢谢!
展开
 我来答
yu46612143
2014-07-15 · TA获得超过105个赞
知道小有建树答主
回答量:172
采纳率:100%
帮助的人:112万
展开全部
我觉得这个用于验证url的表达式用:^http://[[a-z0-9\\.]+/?]+$ 也许会更准确些。以http://开头,中间是字母数字或英文句号组成,后面可跟或可不跟斜杠
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式