python写的爬虫爬久了就假死怎么回事?
1个回答
展开全部
你可以根据日志查一下,看看程序再抓哪些页面的时候死了,再分析一下为什么死。有些网站为了防止爬虫会采取一些措施,比如给你设计一个链接,你打开这个链接后跳到另一个页面,这个页面上还有一个链接,又链接到原来的页面,如果处理不好爬虫就在这死了。还有就是有些跳转会对爬虫有些干扰。其他的话有可能有些网站为了防止爬虫,直接返回403也有可能。
具体原因不清楚,但是你可以采取一些措施来避免。
比如你可以设计一个像硬件看门狗电路一样的程序,正常情况下,每隔一段时间就“喂狗”,当程序假死后,狗饿了,就会回来“咬你一口”,其实就是让程序复位啦。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询