最近学习python爬虫,想知道爬虫对外链是如何处理的。怎样才能限制只爬去指定网站?

 我来答
丽江海月客栈
2013-02-24 · TA获得超过581个赞
知道小有建树答主
回答量:383
采纳率:100%
帮助的人:172万
展开全部
"限制只爬去指定网站" 很简单:用正则表达式 基本都是 re模块就OK了
追问
您的意思是把爬到的url用re过滤吗?可是我的url是通过命令行参数输入的,如何获得输入url的关键字,比如如何获得”www.baidu.com“中的”baidu“
追答
import re
pattern = re.compile(r'(\w+)\.(\w+)\.(com)')
match = pattern.match('www.baidu.com')
print match.expand(r'\2')
derris
2013-02-25 · TA获得超过407个赞
知道小有建树答主
回答量:214
采纳率:0%
帮助的人:259万
展开全部
爬虫有源码吧,用正则表达式去匹配啊。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式