python正则表达式提取字符串中的中文 字符串如下 而且是大量
RT:字符串为:<p><spanstyle="font-family:宋体;">零售连锁</span><span></span></p></td><tdwidth="21...
RT : 字符串为 :
<p>
<span style="font-family:宋体;">零售连锁</span><span></span>
</p>
</td>
<td width="218">
<p>
<span style="font-family:宋体;">处方药、非处方药:中药饮片、中成药、化学药制剂、抗生素制剂、生化药品、生物制品(除疫苗)</span><span></span>
</p>
</td>
<td width="131">
<p>
<span style="font-family:宋体;">桓台县果里镇后鲁村</span><span></span>
</p>
</td>
<td valign="top" width="109">
<p>
<span style="font-family:宋体;">鲁</span><span>CB5332757</span>
</p>
</td>
</tr>
<tr>
<td valign="bottom" width="239">
<p>
<span style="font-family:宋体;">桓台县泰兴医药连锁有限公司仁福堂大药房</span><span></span> 展开
<p>
<span style="font-family:宋体;">零售连锁</span><span></span>
</p>
</td>
<td width="218">
<p>
<span style="font-family:宋体;">处方药、非处方药:中药饮片、中成药、化学药制剂、抗生素制剂、生化药品、生物制品(除疫苗)</span><span></span>
</p>
</td>
<td width="131">
<p>
<span style="font-family:宋体;">桓台县果里镇后鲁村</span><span></span>
</p>
</td>
<td valign="top" width="109">
<p>
<span style="font-family:宋体;">鲁</span><span>CB5332757</span>
</p>
</td>
</tr>
<tr>
<td valign="bottom" width="239">
<p>
<span style="font-family:宋体;">桓台县泰兴医药连锁有限公司仁福堂大药房</span><span></span> 展开
展开全部
如果你只是想提取标签里面的内容的话
我建议你使用beautifulsoup4
首先安装
pip install beautifulsoup4
如果是Linux或者Mac OS请在命令前加sudo
然后把字符串放到BeautifulSoup里
最后用get_text输出里面的内容就好
from bs4 import BeautifulSoup
soup = BeautifulSoup(string)
print soup.get_text()
结果就像这样
如果你不想要其中的空格
可以用split分割然后用''.join连接
print ''.join(soup.get_text().split())
结果就像这样
如果还想实现其他更多的功能可以参考文档
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询