怎样用python爬取网页

 我来答

1个回答

#合辑# 机票是越早买越便宜吗？

你好谜底再见
2018-03-24

知道答主

回答量：1

采纳率：100%

帮助的人：876

我也去答题访问个人页

关注

展开全部

# coding=utf-8
import urllib
import re

# 百度贴吧网址:https://tieba.baidu.com/index.html
# 根据URL获取网页HTML内容
def getHtmlContent(url):
    page = urllib.urlopen(url)
    return page.read()

# 从HTML中解析出所有jpg的图片的URL
# 从HTML中jpg格式为<img ... src = "xxx.jpg" width='''>
def getJPGs(html):
    # 解析jpg图片URL的正则表达式
    jpgReg = re.compile(r'<img.+?src="(.+?\.jpg)"')
    # 解析出jpg的URL列表
    jpgs = re.findall(jpgReg, html)
    return jpgs

# 用图片url下载图片 并保存成制定文件名
def downloadJPG(imgUrl, fileName):
    urllib.urlretrieve(imgUrl, fileName)

# 批量下载图片,默认保存到当前目录下
def batchDownloadJPGs(imgUrls, path='../'):  # path='./'
    # 给图片重命名
    count = 1
    for url in imgUrls:
        downloadJPG(url, ''.join([path, '{0}.jpg'.format(count)]))
        print "下载图片第:", count, "张"
        count += 1

# 封装:从百度贴吧网页下载图片
def download(url):
    html = getHtmlContent(url)
    jpgs = getJPGs(html)
    batchDownloadJPGs(jpgs)

def main():
    url = "http://www.meituba.com/dongman/"
    download(url)

if __name__ == '__main__':
    main()

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

爬虫代码-精选50篇-专业文档资料-下载即用

360文库海量行业资料应有尽有，教育考试、商业文档、办公材料、行业资料、专业范文、工作计划总结等6亿+精品文档，在线下载全文阅读

wenku.so.com广告

怎样用python爬取网页

您可能关注的内容

其他类似问题

为你推荐：