如何入门python爬虫

 我来答

2个回答

#热议# 上班途中天气原因受伤算工伤吗？

天学小小妄轩7900
2017-07-25 · 超过48用户采纳过TA的回答

知道小有建树答主

回答量：105

采纳率：0%

帮助的人：49.5万

我也去答题访问个人页

关注

展开全部

# -*- coding: utf-8 -*-
import re
import urllib2
 
from collections import deque
 
queue = deque()
visited = set()
url = '入口页面, 可以换成别的
req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'}
req_timeout = 20 
queue.append(url)
cnt = 0
while queue:
  url = queue.popleft()  # 队首元素出队
  visited |= {url}  # 标记为已访问
  print(u'已经抓取: ' + str(cnt) + u'   正在抓取 <---  ' + url)
  cnt += 1
  req = urllib2.Request(url,None,req_header)
  urlop = urllib2.urlopen(req,None,req_timeout)
  try:
    data = urlop.read().decode('utf-8')
  except:
    continue
  # 正则表达式提取页面中所有队列, 并判断是否已经访问过, 然后加入待爬队列
  linkre = re.compile('href=\"(.+?)\"')
  for x in linkre.findall(data):
    print(x)  
    if 'http' in x and x not in visited:
      queue.append(x)
      print(u'加入队列 --->  ' + x)

本回答被网友采纳

已赞过 已踩过<

评论收起

倾城玩45
2017-07-26 · 超过61用户采纳过TA的回答

知道答主

回答量：126

采纳率：0%

帮助的人：125万

我也去答题访问个人页

关注

展开全部

慕课网实战学的，讲课很细致，一些代码背后的复杂性，底层函数调都有涉及

本回答被提问者采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

如何入门python爬虫

其他类似问题

为你推荐：