如何用 Python 实现 Web 抓取

 我来答

1个回答

#合辑# 面试问优缺点怎么回答最加分？

EvenHHZ
2016-09-28 · 知道合伙人软件行家

EvenHHZ
知道合伙人软件行家

采纳数：13691 获赞数：18844

个人出版图书：《玩转Python网络爬虫》、《玩转Django2.0》

向TA提问私信TA

关注

展开全部

Web 抓取的定义
Web 抓取是抽取网络数据的过程。只要借助合适的工具，任何你能看到的数据都可以进行抽取。在本文中，我们将重点介绍自动化抽取过程的程序，帮助你在较短时间内收集大量数据。除了笔者前文提到的用例，抓取技术的用途还包括：SEO 追踪、工作追踪、新闻分析以及笔者的最爱——社交媒体的情感分析！
一点提醒
在开启 Web 抓取的探险之前，请确保自己了解相关的法律问题。许多网站在其服务条款中明确禁止对其内容进行抓取。例如，Medium 网站就写道：“遵照网站 robots.txt 文件中的规定进行的爬取操作(Crawling)是可接受的，但是我们禁止抓取(Scraping)操作。”对不允许抓取的网站进行抓取可能会使你进入他们的黑名单！与任何工具一样，Web 抓取也可能用于复制网站内容之类的不良目的。此外，由 Web 抓取引起的法律诉讼也不在少数。
设置代码
在充分了解小心行事的必要之后，让我们开始学习 Web 抓取。其实，Web 抓取可以通过任何编程语言实现，在不久之前，我们使用 Node 实现过。在本文中，考虑到其简洁性与丰富的包支持，我们将使用 Python 实现抓取程序。
Web 抓取的基本过程
当你打开网络中的某个站点时，就会下载其 HTML 代码，由你的 web 浏览器对其进行分析与展示。该 HTML 代码包含了你所看到的所有信息。因此，通过分析 HTML 代码就能得到所需信息（比如价格）。你可以使用正则表达式在数据海洋中搜索你需要的信息，也可以使用函数库来解释 HTML，同样也能得到需要数据。
在 Python 中，我们将使用一个名为靓汤（Beautiful Soup）的模块对 HTML 数据进行分析。你可以借助 pip 之类的安装程序安装之，运行如下代码即可：
pip install beautifulsoup4

或者，你也可以根据源码进行构建。在该模块的文档说明页，可以看到详细的安装步骤。
安装完成之后，我们大致会遵循以下步骤实现 web 抓取：
向 URL 发送请求
接收响应
分析响应以寻找所需数据
作为演示，我们将使用笔者的博客 http://dada.theblogbowl.in/. 作为目标 URL。
前两个步骤相对简单，可以这样完成：
from urllib import urlopen#Sending the http requestwebpage = urlopen('http://my_website.com/').read()

接下来，将响应传给之前安装的模块：
from bs4 import BeautifulSoup#making the soup! yummy ;)soup = BeautifulSoup(webpage, "html5lib")

请注意，此处我们选择了 html5lib 作为解析器。根据 BeautifulSoup 的文档，你也可以为其选择不同的解析器。
解析 HTML
在将 HTML 传给 BeautifulSoup 之后，我们可以尝试一些指令。譬如，检查 HTML 标记代码是否正确，可以验证该页面的标题（在 Python 解释器中）：
>>> soup.title<title>Transcendental Tech Talk</title>>>> soup.title.text
u'Transcendental Tech Talk'
>>>

接下来，开始抽取页面中的特定元素。譬如，我想抽取博客中文章标题的列表。为此，我需要分析 HTML 的结构，这一点可以借助 Chrome 检查器完成。其他浏览器也提供了类似的工具。

使用 Chrome 检查器检查某个页面的 HTML 结构
如你所见，所有文章标题都带有 h3 标签与两个类属性：post-title 与 entry-title 类。因此，用 post-title类搜索所有 h3 元素就能得到该页的文章标题列表。在此例中，我们使用 BeautifulSoup 提供的 find_all 函数，并通过 class_ 参数确定所需的类：
>>> titles = soup.find_all('h3', class_ = 'post-title') #Getting all titles>>> titles[0].textu'\nKolkata #BergerXP IndiBlogger meet, Marketing Insights, and some Blogging Tips\n'>>>

只通过 post-title 类进行条目搜索应该可以得到相同的结果：
>>> titles = soup.find_all(class_ = 'post-title') #Getting all items with class post-title>>> titles[0].textu'\nKolkata #BergerXP
IndiBlogger meet, Marketing Insights, and some Blogging Tips\n'>>>

本回答由网友推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

python语言程序设计报告，超好用的AI报告生成器，10倍效率，立即体验

python语言程序设计报告，AIWork365一站式ALGC内容创作平台，采用先进AI人工智能大模型，快速生成各类报告方案，总结计划书等文稿，支持续写，改写润色等写作工具需求，点击体验更多功能!

www.aiwork365.cn广告

如何用 Python 实现 Web 抓取

您可能关注的内容

其他类似问题

为你推荐：