如何用python把网页上的文本内容保存下来

这个网页上都是纯文本内容如何用python抓取并保存为txt... 这个网页上都是纯文本内容如何用python抓取并保存为txt 展开

 我来答

6个回答

#合辑# 面试问优缺点怎么回答最加分？

百度网友faadf46

高粉答主

2020-04-29 · 说的都是干货，快来关注

知道答主

回答量：4556

采纳率：0%

帮助的人：73.9万

我也去答题访问个人页

关注

展开全部

1、了解Python如何获取网页内容。

2、导入 urllib.request模块。

3、使用urllib.request.urlopen( )获取对象。

4、urllib.request.urlopen()获取的是一个网页的http.client.HTTPResponse对象。

5、若要打印http.client.HTTPResponse对象的内容，可以继续使用read()()方法。

已赞过 已踩过<

评论收起

新不起浪
推荐于2017-10-12 · 做一名合格的环保卫士

新不起浪

采纳数：502 获赞数：2777

向TA提问私信TA

关注

展开全部

先说下基本原理和过程

原理：就是将可以打开的网页（这里不限制为网站，本地网页文件也可以哦），加载到内存中，然后解析html，读取其中的文本内容或者储存到本地或者数据库中。

过程：

1、加载模块urllib,beautifulsoup。urllib提供网络服务解析，beautifullsoup提供对网页结构进行解析的功能。

2、加载网页

3、用beautifulsoup加载解析

下面给出实例：

import urllib.request   
from bs4 import BeautifulSoup
url="http://google.cn/"  
response=urllib.request.urlopen(url)    #返回文件对象
page=response.read()  
#直接将URL保存为本地文件：
import urllib.request  
url="http://www.xxxx.com/1.jpg"
urllib.request.urlretrieve(url,r"d:\temp\1.jpg")
#当然你可以将返回的对象交给soup处理
soup=BeautifulSoup(response)
#运行soup

已赞过 已踩过<

评论收起

pythonhome
2011-08-23 · TA获得超过233个赞

知道小有建树答主

回答量：288

采纳率：0%

帮助的人：213万

我也去答题访问个人页

关注

展开全部

使用urllib就ok啊！建议搜索beautiful soup。python在抓取网页上可是非常牛逼的

import urllib
a=urllib.urlopen("http://www.baidu.com").read()
print a

看看会有什么结果，一些html标签你就要用工具进行过滤了 beautifulsoup

本回答被提问者采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

百度网友9ea95c305
2011-08-29

知道答主

回答量：4

采纳率：0%

帮助的人：6361

我也去答题访问个人页

关注

展开全部

如果只需要网页内容，用urllib2就行，查询python的api，调用read方法获得网页内容。
如果需要解析的话，就用BeautifulSoup吧。

已赞过 已踩过<

评论收起

wenxu656
2011-08-23 · 贡献了超过356个回答

知道答主

回答量：356

采纳率：0%

帮助的人：151万

我也去答题访问个人页

关注

展开全部

此时用ajax访问这个试图返回的内容就是：上面这种办法不是很好，建议先写一修改了一下就到了楼上的下面了，你也太没水准了。直接复制 =修改＝

已赞过 已踩过<

评论收起

更多回答（4）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

为你推荐：

下载百度知道APP，抢鲜体验

使用百度知道APP，立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。

扫描二维码下载

×

个人、企业类侵权投诉
违法有害信息,请在下方选择后提交

类别

色情低俗
涉嫌违法犯罪
时政信息不实
垃圾广告
低质灌水

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交

取消

辅助

模式