python 爬虫小问题+正则表达式问题

1.爬一个403，如何将爬到的保存为html文件？2.————————————————————defgetImg(html):reg=r'src="(.+?\.jpg)"... 1.爬一个 403 ，如何将爬到的保存为html文件？
2.
————————————————————
def getImg(html): reg = r'src="(.+?\.jpg)" pic_ext' imgre = re.compile(reg) imglist = re.findall(imgre,html) return imglist
————————————————————
代码第二行： r'src="(.+?\.jpg)" pic_ext' 中 (.+?\.jpg) 是什么意思？展开

 我来答

1个回答

#热议# 不吃早饭真的会得胆结石吗？

yycgis
推荐于2016-09-03 · TA获得超过8267个赞

知道大有可为答主

回答量：6831

采纳率：63%

帮助的人：1589万

我也去答题访问个人页

关注

展开全部

正则表达式的用法：

## 总结
## ^ 匹配字符串的开始。
## $ 匹配字符串的结尾。
## \b 匹配一个单词的边界。
## \d 匹配任意数字。
## \D 匹配任意非数字字符。
## x? 匹配一个可选的 x 字符 (换言之，它匹配 1 次或者 0 次 x 字符)。
## x* 匹配0次或者多次 x 字符。
## x+ 匹配1次或者多次 x 字符。
## x{n,m} 匹配 x 字符，至少 n 次，至多 m 次。
## (a|b|c) 要么匹配 a，要么匹配 b，要么匹配 c。
## (x) 一般情况下表示一个记忆组 (remembered group)。你可以利用 re.search 函数返回对
## 象的 groups() 函数获取它的值。

##正则表达式中的点号通常意味着 “匹配任意单字符”

代码中的表示，匹配任意的jpg文件连接。

追问

第一个问题呢

追答

一般可以新建一个html，
然后写入数据就行了。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python 爬虫小问题+正则表达式问题

其他类似问题

为你推荐：