如何入门python爬虫

 我来答
天学小小妄轩7900
2017-07-25 · 超过48用户采纳过TA的回答
知道小有建树答主
回答量:105
采纳率:0%
帮助的人:49.5万
展开全部

# -*- coding: utf-8 -*-
import re
import urllib2
 
from collections import deque
 
queue = deque()
visited = set()
url = '入口页面, 可以换成别的
req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'}
req_timeout = 20 
queue.append(url)
cnt = 0
while queue:
  url = queue.popleft()  # 队首元素出队
  visited |= {url}  # 标记为已访问
  print(u'已经抓取: ' + str(cnt) + u'   正在抓取 <---  ' + url)
  cnt += 1
  req = urllib2.Request(url,None,req_header)
  urlop = urllib2.urlopen(req,None,req_timeout)
  try:
    data = urlop.read().decode('utf-8')
  except:
    continue
  # 正则表达式提取页面中所有队列, 并判断是否已经访问过, 然后加入待爬队列
  linkre = re.compile('href=\"(.+?)\"')
  for x in linkre.findall(data):
    print(x)  
    if 'http' in x and x not in visited:
      queue.append(x)
      print(u'加入队列 --->  ' + x)

本回答被网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
倾城玩45
2017-07-26 · 超过61用户采纳过TA的回答
知道答主
回答量:126
采纳率:0%
帮助的人:125万
展开全部
慕课网实战学的,讲课很细致,一些代码背后的复杂性,底层函数调都有涉及
本回答被提问者采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式