怎样用python抓取淘宝评论

 我来答
咸阵rj
2015-05-15 · TA获得超过926个赞
知道小有建树答主
回答量:198
采纳率:0%
帮助的人:160万
展开全部
#coding=utf-8

import urllib2
import sys
import json
import re

#设置系统默认编码为utf-8
reload(sys)
sys.setdefaultencoding("utf-8")

#Only for python2
'''
只是简单的示例,没有检查无评论的情况,其它异常也可能没有检查,
你可以根据自己的需要再对代码修改
'''

#解析网页数据
def parseData(html_data, reg_str):
    pattern = re.compile(reg_str)
    result = re.search(pattern, html_data)
    if result:
        return result.groups()


#commodity_url 为商品详情页面
commodity_url = "http://item.taobao.com/item.htm?spm=a1z10.1-c.w4004-9140345655.2.y3LCj0&id=44454286657"

html_data = urllib2.urlopen(commodity_url).read()
#获取用户ID和商品ID
auction_msg = parseData(html_data, r'userNumId=(.*?)&auctionNumId=(.*?)&')
if not auction_msg:
    print "Get reviews failed!"#获取失败,退出
    sys.exit()

reviews_url = "http://rate.taobao.com/feedRateList.htm?callback=jsonp_reviews_list&currentPageNum=1&rateType=&orderType=sort_weight&userNumId=%s&auctionNumId=%s"%auction_msg

response = urllib2.urlopen(reviews_url)
reviews_data = response.read().decode("gbk")

#获取评论数据
json_str = parseData(reviews_data, r'\((.*)\)')[0]
if not json_str:
    print "Get reviews failed!"#获取失败,退出
    sys.exit()

jdata = json.loads(json_str)

#下面只打印了第一条评论,如需要打印所有,则遍历jdata["comments"]即可
print jdata["comments"][0]["content"]
柚鸥ASO
2024-03-16 广告
微信小程序ASO优化可以通过以下几种方式实现:1. 小程序关键词优化:将关键词合理地分配在小程序页面的标题、描述、标签、内容等位置,能够提高小程序在搜索引擎中的排名和曝光率。2. 小程序内部链接优化:合理设置小程序内部链接和导航栏,使用户可... 点击进入详情页
本回答由柚鸥ASO提供
LJW879808
2018-06-26
知道答主
回答量:17
采纳率:100%
帮助的人:5万
展开全部
  1. 抓包工具获取评论的url

  2. Python抓取url上面的信息

  3. 解析json或者清洗信息

  4. 入库

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
城南明月羿当年
推荐于2018-06-26 · 知道合伙人生活技巧行家
城南明月羿当年
知道合伙人生活技巧行家
采纳数:24666 获赞数:123230
计算机爱好者

向TA提问 私信TA
展开全部
这个和用不用python没啥关系,是数据来源的问题。

调用淘宝API,使用 api相关接口获得你想要的内容,我 记得api中有相关的接口,你可以看一下接口的说明。
用python做爬虫来进行页面数据的获取。
搜索
希望能帮到你。
本回答被提问者和网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 1条折叠回答
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式