python正则表达式提取字符串中的中文 字符串如下 而且是大量

RT:字符串为:<p><spanstyle="font-family:宋体;">零售连锁</span><span></span></p></td><tdwidth="21... RT : 字符串为 :

<p>

<span style="font-family:宋体;">零售连锁</span><span></span>

</p>

</td>

<td width="218">

<p>

<span style="font-family:宋体;">处方药、非处方药:中药饮片、中成药、化学药制剂、抗生素制剂、生化药品、生物制品(除疫苗)</span><span></span>

</p>

</td>

<td width="131">

<p>

<span style="font-family:宋体;">桓台县果里镇后鲁村</span><span></span>

</p>

</td>

<td valign="top" width="109">

<p>

<span style="font-family:宋体;">鲁</span><span>CB5332757</span>

</p>

</td>

</tr>

<tr>

<td valign="bottom" width="239">

<p>

<span style="font-family:宋体;">桓台县泰兴医药连锁有限公司仁福堂大药房</span><span></span>
展开
 我来答
历昆颉9q
2015-08-22 · 超过14用户采纳过TA的回答
知道答主
回答量:45
采纳率:100%
帮助的人:30.9万
展开全部

如果你只是想提取标签里面的内容的话

我建议你使用beautifulsoup4

首先安装

pip install beautifulsoup4

如果是Linux或者Mac OS请在命令前加sudo

然后把字符串放到BeautifulSoup里

最后用get_text输出里面的内容就好

from bs4 import BeautifulSoup
soup = BeautifulSoup(string)
print soup.get_text()

结果就像这样

如果你不想要其中的空格

可以用split分割然后用''.join连接

print ''.join(soup.get_text().split())

结果就像这样

如果还想实现其他更多的功能可以参考文档

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

草名字真心难起
2015-08-21 · TA获得超过4893个赞
知道小有建树答主
回答量:3057
采纳率:0%
帮助的人:1276万
展开全部
<[^>]*>
替换成空就行了、
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式