
1个回答
展开全部
建议百度C#爬虫。主要技术点:通过HttpWebRequest请求URL。通过正则表达式提取出所有的URL,并进行甄别,去除那些JS CSS以及无用的广告。然后对获得的url再进行http请求,下载非htm页面的资源文件,请求html页面的url,对该url里的所有url再进行甄别,同时避开已经访问过的url。。。。比较难的就是甄别url是否已经被访问过
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询
类别
我们会通过消息、邮箱等方式尽快将举报结果通知您。
说明
0/200