如何用python解析网页并获得网页真实的源码
展开全部
Python 2.7版本的话 代码如下:
#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib
import urllib2
import string
import re
addr1 = 某个网址的地址(string format)
response1 = urllib.urlopen(addr1)
text1 = response1.read()
response1.close()
text1就是网页的源代码,可以print出来看。UTF8的代码是为了确保能正确抓取中文。
#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib
import urllib2
import string
import re
addr1 = 某个网址的地址(string format)
response1 = urllib.urlopen(addr1)
text1 = response1.read()
response1.close()
text1就是网页的源代码,可以print出来看。UTF8的代码是为了确保能正确抓取中文。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询