python 爬虫小问题+正则表达式问题
1.爬一个403,如何将爬到的保存为html文件?2.————————————————————defgetImg(html):reg=r'src="(.+?\.jpg)"...
1.爬一个 403 ,如何将爬到的保存为html文件?
2.
————————————————————
def getImg(html): reg = r'src="(.+?\.jpg)" pic_ext' imgre = re.compile(reg) imglist = re.findall(imgre,html) return imglist
————————————————————
代码第二行: r'src="(.+?\.jpg)" pic_ext' 中 (.+?\.jpg) 是什么意思? 展开
2.
————————————————————
def getImg(html): reg = r'src="(.+?\.jpg)" pic_ext' imgre = re.compile(reg) imglist = re.findall(imgre,html) return imglist
————————————————————
代码第二行: r'src="(.+?\.jpg)" pic_ext' 中 (.+?\.jpg) 是什么意思? 展开
1个回答
展开全部
正则表达式的用法:
## 总结
## ^ 匹配字符串的开始。
## $ 匹配字符串的结尾。
## \b 匹配一个单词的边界。
## \d 匹配任意数字。
## \D 匹配任意非数字字符。
## x? 匹配一个可选的 x 字符 (换言之,它匹配 1 次或者 0 次 x 字符)。
## x* 匹配0次或者多次 x 字符。
## x+ 匹配1次或者多次 x 字符。
## x{n,m} 匹配 x 字符,至少 n 次,至多 m 次。
## (a|b|c) 要么匹配 a,要么匹配 b,要么匹配 c。
## (x) 一般情况下表示一个记忆组 (remembered group)。你可以利用 re.search 函数返回对
## 象的 groups() 函数获取它的值。
##正则表达式中的点号通常意味着 “匹配任意单字符”
代码中的表示,匹配任意的jpg文件连接。
追问
第一个问题呢
追答
一般可以新建一个html,
然后写入数据就行了。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询