java(从html文件中提取标签之外的文本) 20

例:"<<<<imgsrc="abc.gif">beijing<ahref="abc.jsp">abc</a>3500"提取为:<<<beijingabc3500高手们,... 例:"<<<<img src="abc.gif">beijing<a href="abc.jsp">abc</a>3500"
提取为:<<<beijingabc3500
高手们,大侠们,你们都去哪了!!!! 展开

 我来答

7个回答

#合辑# 机票是越早买越便宜吗？

tianyan5263
2012-07-27

知道答主

回答量：11

采纳率：0%

帮助的人：4.1万

我也去答题访问个人页

关注

展开全部

public string GetHttpData(string Url)
{
string sException=null;
string sRslt=null;
WebResponse oWebRps=null;
WebRequest oWebRqst=WebRequest.Create(Url);
oWebRqst.Timeout=50000;
try
{
oWebRps=oWebRqst.GetResponse();
}
catch(WebException e)
{
sException=e.Message.ToString();
EYResponse.Write(sException);
}
catch(Exception e)
{
sException=e.ToString();
EYResponse.Write(sException);
}
finally
{
if(oWebRps!=null)
{
StreamReader oStreamRd=new StreamReader(oWebRps.GetResponseStream(),Encoding.GetEncoding("GB2312"));
sRslt=oStreamRd.ReadToEnd();
oStreamRd.Close();
oWebRps.Close();
}
}
return sRslt;
}

已赞过 已踩过<

评论收起

valibo
2009-02-21 · TA获得超过377个赞

知道小有建树答主

回答量：595

采纳率：0%

帮助的人：504万

我也去答题访问个人页

关注

展开全部

如果内容是这样有并缺规律的话

你可以用 substring 来绝洞辩做截取截取 ">"到"<"的内容颤迅就可以了

已赞过 已踩过<

评论收起

慎重还可靠灬宝贝f
推荐于2016-03-27 · TA获得超过12.9万个赞

知道大有可为答主

回答量：1.9万

采纳率：52%

帮助的人：2607万

我也去答题访问个人页

关注

展开全部

实现代码如下：

public static String Html2Text(String inputString){
String htmlStr = inputString; //含html标签的凳拆尺字符串
String textStr ="";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
try{
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\枣高\/[\\s]*?script[\\s]*?>"; //定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script> }
String regEx_style = "<[\\御伍s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; //定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style> }
String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式
p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); //过滤script标签
p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); //过滤style标签
p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); //过滤html标签
textStr = htmlStr;
}catch(Exception e){
Manager.log.debug("neiNewsAction","Html2Text: " + e.getMessage());
}
return textStr;//返回文本字符串
}

已赞过 已踩过<

评论收起

jiest1986
2009-02-21 · TA获得超过3432个赞

知道小有建树答主

回答量：1013

采纳率：0%

帮助的人：1120万

我也去答题访问个人页

关注

展开全部

HTML文件说到底还是个XML文件，直接用XML解析把里面的文本提取出来撒。

本回答被网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

sunyuan321
2009-02-21 · 超过44用户采纳过TA的回答

知道答主

回答量：215

采纳率：0%

帮助的人：125万

我也去答题访问个人页

关注

展开全部

用结果集

已赞过 已踩过<

评论收起

5条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

java(从html文件中提取标签之外的文本) 20

其他类似问题

为你推荐：