java 爬虫读取一个网页时，我按照网页指定的字符集进行解析，为什么解析的html源代码是乱码？。。。

源文件如下：待解析的网址是：http://jingfengjiayuan2.soufun.com/publicclassParseUrl_Soufun{publicsta... 源文件如下：

待解析的网址是：http://jingfengjiayuan2.soufun.com/
public class ParseUrl_Soufun {
public static String getPriceElement(String content) {

StringBuilder houseInfo = new StringBuilder();

String averagePriceRegex = "二手房.*?</a> 套";
String SecondHandRegex = "二手房.*?";
String hireRegex = "租房.*?";
String PropertyCostsRegex = "费：.*?</li>";

houseInfo.append(furtherProcessing(matchPattern(averagePriceRegex,
content)) + "-");
houseInfo.append(furtherProcessing(matchPattern(SecondHandRegex,
content)) + "-");
houseInfo.append(furtherProcessing(matchPattern(hireRegex, content))
+ "-");
houseInfo.append(furtherProcessing(matchPattern(PropertyCostsRegex,
content)) + "-");
houseInfo.append(CurrentCalendar.getCurrentCalendar());

return houseInfo.toString();
}

public static String matchPattern(String regex, String sourceString) {
final Pattern pa = Pattern.compile(regex, Pattern.CANON_EQ);
final Matcher ma = pa.matcher(sourceString);
String target = "";
while (ma.find()) {
target = (ma.group());
}

return target;
}

public static String furtherProcessing(String patternString) {

if (patternString.contains("租"))
return outTag(patternString).replace("租房", "").replaceAll("[(|)]",
"");
else if (patternString.contains("均价"))
return patternString.replaceAll("<.*?>", "").replace("均价", "")
.replace("元/平米", "").trim();
else if (patternString.contains("费："))
return outTag(patternString).replace("费：", "");
else
return patternString.replaceAll("<.*?>", "").replace("(", "")
.replace(")", "").replace("二手房", "");
}

public String getOneHtml(final String htmlurl) throws IOException {
URL url;
String temp;
final StringBuffer sb = new StringBuffer();
try {
url = new URL(htmlurl);
BufferedReader in = new BufferedReader(new InputStreamReader(
url.openStream(), "GB18030"));// 读取网页全部内容
while ((temp = in.readLine()) != null) {
System.out.println(temp);
//
}
in.close();
} catch (final MalformedURLException me) {
System.out.println("你输入的URL格式有问题！请仔细输入");
me.getMessage();
throw me;
} catch (final IOException e) {
e.printStackTrace();
throw e;
}
return sb.toString();
}

public static String outTag(String s) {
String regex = "<.*?>";
return s.replaceAll(regex, "");
}

public static void main(String[] args) throws IOException {
String url = "http://jingfengjiayuan2.soufun.com/";
// System.out.println(getWebContent(url));
// getPriceElement(getWebContent(url));
new ParseUrl_Soufun().getOneHtml(url);
}
} 展开

 我来答

若以下回答无法解决问题，邀请你更新回答

2个回答

#热议# 应届生在签三方时要注意什么？

Vxider
2013-06-25 · TA获得超过108个赞

知道小有建树答主

回答量：126

采纳率：0%

帮助的人：127万

我也去答题访问个人页

关注

展开全部

可以试试用HTMLUnit做，很方便的。

本回答被提问者采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

匿名用户
2013-06-25

展开全部

我先看下。。可是放到我本地代码会错

已赞过 已踩过<

评论收起

2条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

爬虫和大数据-数据采集就用后羿采集器-小白神器，一键采集

基于人工智能算法的新一代智能爬虫和大数据，不需要配置采集规则，一键采集!导出采集结果无数量限制~不要积分~~

www.houyicaiji.com广告

爬虫数据-选择数说聚合-提供全网优质数据资源

数说故事旗下大数据平台，数据源覆盖全网新闻/社媒/短视频/电商/问答等90%站点，提供多种数据采集方式，支持实时导出数据，在线完成可视化数据分析

hermes.datastory.com.cn广告

爬虫什么意思_Kimi-AI写作-5分钟生成高质量文章

爬虫什么意思_选Kimi_智能AI精准生成写作、文案、翻译、编程等等_无广告无会员不限次数，你想要的全都有!

kimi.moonshot.cn广告

java 爬虫读取一个网页时，我按照网页指定的字符集进行解析，为什么解析的html源代码是乱码？。。。

您可能关注的内容

其他类似问题

为你推荐：