请问python爬取的数据如何将其格式化

以下是部分代码f=open('wechat.txt','r')html=f.read()f.close()user_names=re.finditer('<usernam... 以下是部分代码
f = open('wechat.txt','r')html = f.read()f.close()user_names = re.finditer('<username><!\[CDATA\[(.*?)]]><\\\/username>',html,re.S)user_contentDescs = re.finditer('<contentDesc><!\[CDATA\[(.*?)]><\\\/contentDesc>',html,re.S)titles = re.finditer('<title><!\[CDATA\[(.*?)]]><\\\/title>',html,re.S)
descriptions = re.finditer('<description><!\[CDATA\[(.*?)]]><\\\/description>',html,re.S)
上面四个变量中有每个变量都包含了好多个数据，那么下面我要怎么做才能将它结构化成下面这样：

还请指教展开

 我来答

1个回答

#热议# 为什么有人显老，有人显年轻？

匿名用户
2016-05-16

展开全部

给你贴一下我前一段时间回答的类似问题，用的soup，还有一个用的正则就不贴了，手机不太方便，如下。
import beautifulsoup
import urllib2

def main():

userMainUrl = "你要抓取的地址"
req = urllib2.Request(userMainUrl)
resp = urllib2.urlopen(req)
respHtml = resp.read()
foundLabel = respHtml.findAll("label")

finalL =foundLabel.string

print "biaoti=",finalL
if __name__=="__main__":

main();

PS：如果不会改的话追问一下，回头我用电脑给你写一份

追问

这个label是只要写要抓取内容前面的标签名就行了？

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

自动数据采集和处理软件-数据采集就用后羿数据采集和处理器-小白必备

后羿采集器是新一代智能网页数据采集和处理工具，不需要配置采集规则，为技术小白设计量身打造。导出数量无限制，可导出多种文件格式/网站/数据库，支持Win/Mac/Linux系统。

www.houyicaiji.com广告

请问python爬取的数据如何将其格式化

您可能关注的内容

其他类似问题

为你推荐：