java相关,正则表达式相关,nutch搜索引擎相关,谢谢!
过滤器中配置的一行^http://([a-z0-9]*/.)*这是一个正则表达式,标识爬取这样的网页。其实这个表达式的意思是所有网页。如何解释呢?^http://的意思是...
过滤器中配置的一行 ^http://([a-z0-9]*/.)*
这是一个正则表达式,标识爬取这样的网页。其实这个表达式的意思是所有网页。
如何解释呢?
^http://的意思是以它为开头?
([a-z0-9]*/.)*中的[a-z0-9]*是任意字母或者数字出现0到多次,然后一个/是代表www.baidu.com/new/a的这个/吗?最后面那个.是什么意思?如果是任意字符,那么想要接收所有网页干嘛还要写那么多,直接一个.和*搭配不就可以吗?
当然,我理解的不对,该表达是确实是对的。求解析,谢谢! 展开
这是一个正则表达式,标识爬取这样的网页。其实这个表达式的意思是所有网页。
如何解释呢?
^http://的意思是以它为开头?
([a-z0-9]*/.)*中的[a-z0-9]*是任意字母或者数字出现0到多次,然后一个/是代表www.baidu.com/new/a的这个/吗?最后面那个.是什么意思?如果是任意字符,那么想要接收所有网页干嘛还要写那么多,直接一个.和*搭配不就可以吗?
当然,我理解的不对,该表达是确实是对的。求解析,谢谢! 展开
1个回答
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询