如何在java代码中获取页面内容

 我来答

1个回答

匿名用户
2015-02-05

展开全部

import java.io.BufferedReader;
import java.io.DataInputStream;
import java.io.DataOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.HttpURLConnection;
import java.net.URL;public class Test
{
public static void main(String[] args) throws Exception
{
PrintWriter pw = new PrintWriter("d:\\test.xml");//d:\\test.xml是你的xml文件路径
pw.println(getHtmlConentByUrl(" http://www.baidu.com"));// http://www.baidu.com是你要访问的页面
pw.flush();
pw.close();
}

public static String getHtmlConentByUrl(
String ssourl) {
try {
URL url = new URL(ssourl);
HttpURLConnection con = (HttpURLConnection) url.openConnection();

con.setInstanceFollowRedirects(false);
con.setUseCaches(false);
con.setAllowUserInteraction(false);
con.connect(); StringBuffer sb = new StringBuffer();
String line = "";
BufferedReader URLinput = new BufferedReader(new InputStreamReader(con.getInputStream()));
while ((line = URLinput.readLine()) != null) {
sb.append(line);
}
con.disconnect();

return sb.toString().toLowerCase();
} catch (Exception e) {

return null;
}
}}
在获取到的页面内容是字符串，这里解析有两个办法，一是通过dom4j把字符串转化为dom进行解析，这样最好，但是对方的页面未必规范，符合dom结构。二是通过解析字符串过滤你想要的内容，该方法比较繁琐，需要一些技巧。我有的就是二；

已赞过 已踩过<

评论收起

广州市魔书科技有限公司

广告2024-12-22

ppt生成、文本润色、翻译、文档阅读、写文案、写代码、写论文等API直连，集成12家知名企业大语言模型

chat.moshuai.co

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

2025版Java面试题-Java面试题&笔试超5000道~超级码客

涵盖java面试高级海量Java面试题#Java语言，多线程，JVM，SpringBoot，SpringCloud，Dubbo，Java微服务，Java数据结构算法，MyBatis，Hibernate等Java面试题超5000题java面试高级

www.chaojimake.cn广告

java代码-4.0Turbo-国内入口

ppt生成、文本润色、翻译、文档阅读、写文案、写代码、写论文等API直连，集成12家知名企业大语言模型

chat.moshuai.co广告

如何在java代码中获取页面内容

您可能关注的内容

其他类似问题

为你推荐：