如何采集post分页的数据?

 我来答
zxk8
2011-06-15
知道答主
回答量:16
采纳率:0%
帮助的人:8.1万
展开全部
# -*- coding: utf-8 -*-
from pyquery import PyQuery as pq
import urllib
import urllib2
import threading

class Spider(threading.Thread):
"""
A Python Spider
"""
def __init__(self, ad=''):
threading.Thread.__init__(self)
self.__viewstate = ''
self.__Url = '' #要访问的地址
self.__Total =0
def run(self):
self.firstCollect()

def firstCollect(self):
"""

"""
headers = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Referer": "",#有些加入了来路判断,那这个就是必需要加的了
"Accept-Language": "zh-cn",
"Content-Type": "application/x-www-form-urlencoded",
"Accept-Encoding": "gzip, deflate",
"User-Agent": "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)",
"Connection": "Keep-Alive",
"Cache-Control": "no-cache"
}
body = {
'__EVENTTARGET':'SearchResult',#请根据具体参数来设置
'__EVENTARGUMENT':1,#
'__VIEWSTATE':self.__viewstate,
#如果有其它条件请在这里添加,这个用httpfox或者其它工具一下就能看出来了
}
opener = urllib2.build_opener()
urllib2.install_opener(opener)
request = urllib2.Request(
url=self.__Url,
data=urllib.urlencode(body),
headers=headers
)
response = urllib2.urlopen(request)
content = response.read()
dom = pq(content)
self.__viewstate = dom('#__VIEWSTATE').val()
self.__Total = dom('#TotalNum').html()
print self.__Total
for taga in dom('.Result'):
print "WorkThread %s Get Data %s" %( self.getName(),pq(taga)('a:first').attr('id'))
#这里请根据具体要抓取的dom路径来写

一般来讲 asp.net中的postback的分页都要提供 __EVENTTARGET、__EVENTARGUMENT、__VIEWSTATE这三个参数,前两个一般都是有规律的,后面这个就比较麻烦,每次的提交得到的都不同,所以要在每次提交分页前把当前页的__VIEWSTATE取到!
这里以线程的方式实现spider主要是考虑到多线程采集,每个采集任务一个线程!
前段时间写的使用C#实现的POST分页的总不能实现,而已效率也是一大问题。这个效率明显比C#的要好的多,接下来还想学习下python的GUI编程,以便更方便的设置采集计划。
lengque71
2011-06-15 · 超过31用户采纳过TA的回答
知道答主
回答量:302
采纳率:0%
帮助的人:0
展开全部
我最近买了一套数据抓取软件powercap,加密网站数据也能抓,也是别人推荐的,有试用版本的,你可以先试试。 火车头采集器---最好用的采集器,网上
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式