python 爬虫小问题+正则表达式问题

1.爬一个403,如何将爬到的保存为html文件?2.————————————————————defgetImg(html):reg=r'src="(.+?\.jpg)"... 1.爬一个 403 ,如何将爬到的保存为html文件?
2.
————————————————————
def getImg(html): reg = r'src="(.+?\.jpg)" pic_ext' imgre = re.compile(reg) imglist = re.findall(imgre,html) return imglist
————————————————————
代码第二行: r'src="(.+?\.jpg)" pic_ext' 中 (.+?\.jpg) 是什么意思?
展开
 我来答
yycgis
推荐于2016-09-03 · TA获得超过8267个赞
知道大有可为答主
回答量:6831
采纳率:63%
帮助的人:1589万
展开全部

正则表达式的用法:

## 总结
## ^ 匹配字符串的开始。
## $ 匹配字符串的结尾。
## \b 匹配一个单词的边界。
## \d 匹配任意数字。
## \D 匹配任意非数字字符。
## x? 匹配一个可选的 x 字符 (换言之,它匹配 1 次或者 0 次 x 字符)。
## x* 匹配0次或者多次 x 字符。
## x+ 匹配1次或者多次 x 字符。
## x{n,m} 匹配 x 字符,至少 n 次,至多 m 次。
## (a|b|c) 要么匹配 a,要么匹配 b,要么匹配 c。
## (x) 一般情况下表示一个记忆组 (remembered group)。你可以利用 re.search 函数返回对
## 象的 groups() 函数获取它的值。

##正则表达式中的点号通常意味着 “匹配任意单字符”

代码中的表示,匹配任意的jpg文件连接。

追问
第一个问题呢
追答
一般可以新建一个html,
然后写入数据就行了。
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式