java(从html文件中提取标签之外的文本) 20

例:"<<<<imgsrc="abc.gif">beijing<ahref="abc.jsp">abc</a>3500"提取为:<<<beijingabc3500高手们,... 例:"<<<<img src="abc.gif">beijing<a href="abc.jsp">abc</a>3500"
提取为:<<<beijingabc3500
高手们,大侠们,你们都去哪了!!!!
展开
 我来答
tianyan5263
2012-07-27
知道答主
回答量:11
采纳率:0%
帮助的人:4.1万
展开全部
public string GetHttpData(string Url)
{
string sException=null;
string sRslt=null;
WebResponse oWebRps=null;
WebRequest oWebRqst=WebRequest.Create(Url);
oWebRqst.Timeout=50000;
try
{
oWebRps=oWebRqst.GetResponse();
}
catch(WebException e)
{
sException=e.Message.ToString();
EYResponse.Write(sException);
}
catch(Exception e)
{
sException=e.ToString();
EYResponse.Write(sException);
}
finally
{
if(oWebRps!=null)
{
StreamReader oStreamRd=new StreamReader(oWebRps.GetResponseStream(),Encoding.GetEncoding("GB2312"));
sRslt=oStreamRd.ReadToEnd();
oStreamRd.Close();
oWebRps.Close();
}
}
return sRslt;
}
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
valibo
2009-02-21 · TA获得超过377个赞
知道小有建树答主
回答量:595
采纳率:0%
帮助的人:504万
展开全部
如果内容是这样有并缺规律的话

你可以用 substring 来绝洞辩做截取 截取 ">"到"<"的内容颤迅就可以了
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
慎重还可靠灬宝贝f
推荐于2016-03-27 · TA获得超过12.9万个赞
知道大有可为答主
回答量:1.9万
采纳率:52%
帮助的人:2607万
展开全部
实现代码如下:

public static String Html2Text(String inputString){
String htmlStr = inputString; //含html标签的凳拆尺字符串
String textStr ="";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
try{
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\枣高\/[\\s]*?script[\\s]*?>"; //定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script> }
String regEx_style = "<[\\御伍s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; //定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style> }
String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式
p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); //过滤script标签
p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); //过滤style标签
p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); //过滤html标签
textStr = htmlStr;
}catch(Exception e){
Manager.log.debug("neiNewsAction","Html2Text: " + e.getMessage());
}
return textStr;//返回文本字符串
}
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
jiest1986
2009-02-21 · TA获得超过3432个赞
知道小有建树答主
回答量:1013
采纳率:0%
帮助的人:1120万
展开全部
HTML文件说到底还是个XML文件,直接用XML解析把里面的文本提取出来撒。
本回答被网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
sunyuan321
2009-02-21 · 超过44用户采纳过TA的回答
知道答主
回答量:215
采纳率:0%
帮助的人:125万
展开全部
用结果集
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 5条折叠回答
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式