python爬虫抓取哪儿网页上的一些字段

 我来答

1个回答

#热议# 为什么说不要把裤子提到肚脐眼？

从空去听8
2017-09-15 · TA获得超过7439个赞

知道大有可为答主

回答量：6907

采纳率：93%

帮助的人：5564万

我也去答题访问个人页

关注

展开全部

1. 获取html页面
其实，最基本的抓站，两句话就可以了

[python] view plaincopy
import urllib2
content = urllib2.urlopen('').read()
这样可以得到整个html文档，关键的问题是我们可能需要从这个文档中获取我们需要的有用信息，而不是整个文档。这就需要解析充满了各种标签的html。
2. 解析html
SGMLParser
Python默认自带HTMLParser以及SGMLParser等等解析器，前者实在是太难用了，我就用SGMLParser写了一个示例程序：

[python] view plaincopy
import urllib2
from sgmllib import SGMLParser

class ListName(SGMLParser):
def __init__(self):
SGMLParser.__init__(self)
self.is_h4 = ""
self.name = []
def start_h4(self, attrs):
self.is_h4 = 1
def end_h4(self):
self.is_h4 = ""
def handle_data(self, text):
if self.is_h4 == 1:
self.name.append(text)

content = urllib2.urlopen('').read()
listname = ListName()
listname.feed(content)
for item in listname.name:
print item.decode('gbk').encode('utf8')

注意：我的电脑是win7中文系统，为了避免出现乱码，最后一行使用
[python] view plaincopy
for item in listname.name:
print item
很简单，这里定义了一个叫做ListName的类，继承SGMLParser里面的方法。使用一个变量is_h4做标记判定html文件中的h4标签，如果遇到h4标签，则将标签内的内容加入到List变量name中。解释一下start_h4()和end_h4()函数，他们原型是SGMLParser中的
start_tagname(self, attrs)
end_tagname(self)
tagname就是标签名称，比如当遇到<pre>，就会调用start_pre，遇到</pre>，就会调用 end_pre。attrs为标签的参数，以[(attribute, value), (attribute, value), ...]的形式传回。

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python爬虫抓取哪儿网页上的一些字段

其他类似问题

为你推荐：