展开全部
用Beautiful Soup这类解析模块:
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree);
它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作;
用urllib或者urllib2(推荐)将页面的html代码下载后,用beautifulsoup解析该html;
然后用beautifulsoup的查找模块或者正则匹配将你想获得的内容找出来,就可以进行相关处理了,例如:
from BeautifulSoup import BeautifulSoup
html = '<html><head><title>test</title></head><body><p>test body</p></body></html>'
soup = BeautifulSoup(html)
soup.contents[0].name
# u'html'
soup.comtents[0].contents[0].name
# u'head'
head = soup.comtents[0].contents[0]
head.parent.name
# u'html'
head.next
# u'<title>test</title>
展开全部
不知道你说的网页是指的什么,如果你说的是我保存了一网页在你的电脑上,那就直接用open函数打开,read函数读就行了。
如果你说的是某个URL指向的网页内容,那就要用urllib2模块来抓取网页咯。
如果你说的是某个URL指向的网页内容,那就要用urllib2模块来抓取网页咯。
本回答被网友采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
就是属于网页抓取,可参考:
如何用Python,C#等语言去实现抓取静态网页 模拟登陆网站
里面有逻辑解释和代码。
(此处不能贴地址,可以通过google搜标题,即可找到帖子地址)
如何用Python,C#等语言去实现抓取静态网页 模拟登陆网站
里面有逻辑解释和代码。
(此处不能贴地址,可以通过google搜标题,即可找到帖子地址)
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
用Beautiful Soup这类解析模块
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。
用urllib或者urllib2(推荐)将页面的html代码下载后,用beautifulsoup解析该html
然后用beautifulsoup的查找模块或者正则匹配将你想获得的内容找出来,就可以进行相关处理了
例子:
from BeautifulSoup import BeautifulSoup
html = '<html><head><title>test</title></head><body><p>test body</p></body></html>'
soup = BeautifulSoup(html)
soup.contents[0].name
# u'html'
soup.comtents[0].contents[0].name
# u'head'
head = soup.comtents[0].contents[0]
head.parent.name
# u'html'
head.next
# u'<title>test</title>
剩下的自己看文档吧
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。
用urllib或者urllib2(推荐)将页面的html代码下载后,用beautifulsoup解析该html
然后用beautifulsoup的查找模块或者正则匹配将你想获得的内容找出来,就可以进行相关处理了
例子:
from BeautifulSoup import BeautifulSoup
html = '<html><head><title>test</title></head><body><p>test body</p></body></html>'
soup = BeautifulSoup(html)
soup.contents[0].name
# u'html'
soup.comtents[0].contents[0].name
# u'head'
head = soup.comtents[0].contents[0]
head.parent.name
# u'html'
head.next
# u'<title>test</title>
剩下的自己看文档吧
参考资料: http://wenku.baidu.com/view/c4ad3afa770bf78a6529548f.html
本回答被提问者采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询