Python爬网页

目标：获取某官方微博所发布的所有微博。遇到的困难：登录。下一页。我的思路是，先到微博登陆页面模拟登录，并获取cookie。然后带着cookie输入该官方微博的网页获取网页... 目标：
获取某官方微博所发布的所有微博。
遇到的困难：
登录。下一页。
我的思路是，先到微博登陆页面模拟登录，并获取cookie。然后带着cookie输入该官方微博的网页获取网页源码。这样思考对么？
下一页的问题，该如何看呢？
有知道的伙伴可以讲讲思路么？展开

 我来答

2个回答

#热议# 为什么说不要把裤子提到肚脐眼？

大话残剑
2016-01-13 · TA获得超过2217个赞

知道大有可为答主

回答量：1137

采纳率：56%

帮助的人：710万

我也去答题访问个人页

关注

展开全部

1、网络爬虫基本原理
传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定
停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根
据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。
2、设计基本思路
正如你所说，先到微博登陆页面模拟登录，抓取页面，从页面中找出所有URL，选择满足要求的URL文本说明，模拟点击这些URL，重复上面的抓取动作，直到满足要求退出。
3、现有的项目
google project网站有一个项目叫做sinawler，就是专门的新浪微博爬虫，用来抓取微博内容。网站上不去，这个你懂的。不过可以百度一下“python编写的新浪微博爬虫（现在的登陆方法见新的一则微博）“，可以找到一个参考的源码，他是用python2写的。如果用python3写，其实可以使用urllib.request模拟构建一个带cookies的浏览器，省去对cookies的处理，代码可以更加简短。
4、此外
看下网络爬虫的百度百科，里面很多比较深入的内容，比如算法分析、策略体系，会大有帮助，从理论角度提升代码的技术层次。

已赞过 已踩过<

评论收起

数阔八爪鱼采集器丨RPA机器人
2023-08-10 · 前往八爪鱼RPA应用市场，免费获取机器人

数阔八爪鱼采集器丨RPA机器人

向TA提问

关注

展开全部

八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器。如果您需要使用Python来爬取网页数据，可以使用Python的第三方库，如BeautifulSoup、Scrapy等来实现。以下是使用Python爬取网页数据的一般步骤：1. 安装Python和相应的库。首先需要安装Python解释器，并安装所需的第三方库，如requests、BeautifulSoup等。2. 导入所需的库。在Python脚本中，使用import语句导入所需的库。3. 发送HTTP请求。使用requests库发送HTTP请求，获取网页的HTML源代码。4. 解析网页数据。使用BeautifulSoup库解析HTML源代码，提取所需的数据。5. 处理和存储数据。对提取的数据进行处理和存储，可以保存为Excel、CSV等格式，或者存储到数据库中。八爪鱼采集器提供了可视化的操作界面和丰富的功能，使用户无需编程和代码知识就能够轻松进行网页数据采集。如果您对Python爬虫不熟悉，可以考虑使用八爪鱼采集器来实现网页数据采集。八爪鱼为用户准备了一系列简洁易懂的教程，帮助大家快速掌握采集技巧，轻松应对各类网站数据采集，请前往官网教程与帮助了解更多详情。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

Python爬网页

其他类似问题

为你推荐：