怎么写个通用一点的抓取某网页的内容
展开全部
不同站点的通用很难写的,我自写在用的,把过程提取出来作为模块,但也是每站点一堆参数,目前也就几十个站点,把参数写好,只要该网站不改版,下次还能用,改版了就要重写一次参数
当然不少站点的参数都类似,不同仅仅在正则,例如瀑布流ajax可以写成一个模板,不同站点的瀑布流就改改提交获取json路径就可以了,又如有些站点是第1页~第N页,也可以写个递增模板,不同的应用只需填入最后的页数和路径就行
目前遇到最难的是用js计算路径的,暂时不懂也不太想调用外部的js引擎,主要不是难,而是耗资源,算上万网页就是个问题
能用正则就尽量用正则,xpath因为要导入一个dom树,单个页面会比正则多消耗20%的时间,如果页面过万,可能就是倍数而不仅是20%~
当然不少站点的参数都类似,不同仅仅在正则,例如瀑布流ajax可以写成一个模板,不同站点的瀑布流就改改提交获取json路径就可以了,又如有些站点是第1页~第N页,也可以写个递增模板,不同的应用只需填入最后的页数和路径就行
目前遇到最难的是用js计算路径的,暂时不懂也不太想调用外部的js引擎,主要不是难,而是耗资源,算上万网页就是个问题
能用正则就尽量用正则,xpath因为要导入一个dom树,单个页面会比正则多消耗20%的时间,如果页面过万,可能就是倍数而不仅是20%~
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询