Python爬虫怎么抓取html网页的代码块

比如在这段代码中,我想抓取tablealign="center"border=7class="base_index">到<tdwidth="25%"class="head... 比如在这段代码中,我想抓取table align="center" border=7 class="base_index">到<td width="25%" class="head_td top_bottom"><a href="MinGe/Index.htm">民歌民乐</a></td>的内容,先不考虑编码的问题,为什么我用body = re.findall('<table align="center" border=7 class="base_index">(.*?)<td width="25%" class="head_td top_bottom"><a href="MinGe/Index.htm">',code,re.S)抓取之后输出的是一个list元组呢? 展开
 我来答
超人影视娱乐
高粉答主

推荐于2018-02-06 · 闲来无事的影评人-关注我把
超人影视娱乐
采纳数:7757 获赞数:60596

向TA提问 私信TA
展开全部
mport urllib.request
import re

def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
html = html.decode('GBK')
return html

def getMeg(html):
reg = re.compile(r'******')
meglist = re.findall(reg,html)
for meg in meglist:
with open('out.txt',mode='a',encoding='utf-8') as file:
file.write('%s\n' % meg)

if __name__ == "__main__":
html = getHtml(url)
getMeg(html)
大雪花jjtd
2016-09-20 · TA获得超过437个赞
知道小有建树答主
回答量:318
采纳率:0%
帮助的人:121万
展开全部

范围匹配大点,像这种

re.findall('(<div class="moco-course-wrap".*?</div>)',source,re.S)

可以看下这个

http://blog.csdn.net/tangdou5682/article/details/52596863

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式