请问python爬取的数据如何将其格式化
以下是部分代码f=open('wechat.txt','r')html=f.read()f.close()user_names=re.finditer('<usernam...
以下是部分代码
f = open('wechat.txt','r')html = f.read()f.close()user_names = re.finditer('<username><!\[CDATA\[(.*?)]]><\\\/username>',html,re.S)user_contentDescs = re.finditer('<contentDesc><!\[CDATA\[(.*?)]><\\\/contentDesc>',html,re.S)titles = re.finditer('<title><!\[CDATA\[(.*?)]]><\\\/title>',html,re.S)
descriptions = re.finditer('<description><!\[CDATA\[(.*?)]]><\\\/description>',html,re.S)
上面四个变量中有每个变量都包含了好多个数据,那么下面我要怎么做才能将它结构化成下面这样:
还请指教 展开
f = open('wechat.txt','r')html = f.read()f.close()user_names = re.finditer('<username><!\[CDATA\[(.*?)]]><\\\/username>',html,re.S)user_contentDescs = re.finditer('<contentDesc><!\[CDATA\[(.*?)]><\\\/contentDesc>',html,re.S)titles = re.finditer('<title><!\[CDATA\[(.*?)]]><\\\/title>',html,re.S)
descriptions = re.finditer('<description><!\[CDATA\[(.*?)]]><\\\/description>',html,re.S)
上面四个变量中有每个变量都包含了好多个数据,那么下面我要怎么做才能将它结构化成下面这样:
还请指教 展开
2016-05-16
展开全部
给你贴一下我前一段时间回答的类似问题,用的soup,还有一个用的正则就不贴了,手机不太方便,如下。
import beautifulsoup
import urllib2
def main():
userMainUrl = "你要抓取的地址"
req = urllib2.Request(userMainUrl)
resp = urllib2.urlopen(req)
respHtml = resp.read()
foundLabel = respHtml.findAll("label")
finalL =foundLabel.string
print "biaoti=",finalL
if __name__=="__main__":
main();
PS:如果不会改的话追问一下,回头我用电脑给你写一份
import beautifulsoup
import urllib2
def main():
userMainUrl = "你要抓取的地址"
req = urllib2.Request(userMainUrl)
resp = urllib2.urlopen(req)
respHtml = resp.read()
foundLabel = respHtml.findAll("label")
finalL =foundLabel.string
print "biaoti=",finalL
if __name__=="__main__":
main();
PS:如果不会改的话追问一下,回头我用电脑给你写一份
追问
这个label是只要写要抓取内容前面的标签名就行了?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询