最近学习python爬虫,想知道爬虫对外链是如何处理的。怎样才能限制只爬去指定网站?
2个回答
展开全部
"限制只爬去指定网站" 很简单:用正则表达式 基本都是 re模块就OK了
追问
您的意思是把爬到的url用re过滤吗?可是我的url是通过命令行参数输入的,如何获得输入url的关键字,比如如何获得”www.baidu.com“中的”baidu“
追答
import re
pattern = re.compile(r'(\w+)\.(\w+)\.(com)')
match = pattern.match('www.baidu.com')
print match.expand(r'\2')
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询