java Url 读取网页数据 10
我现在想读取网页上的一些数据,假设为百度的数据,那么可写这样的代码publicstaticvoidmain(String[]args){byte[]bytes=newDo...
我现在想读取网页上的一些数据,假设为百度的数据,那么可写这样的代码
public static void main(String[] args) {
byte[] bytes = new Download().getUrlFileData("http://www.baidu.com");
System.out.println(new String(bytes));
}
URL url = new URL(fileUrl);
HttpURLConnection httpConn = (HttpURLConnection) url.openConnection();
httpConn.connect();
InputStream cin = httpConn.getInputStream();
ByteArrayOutputStream outStream = new ByteArrayOutputStream();
byte[] buffer = new byte[1024];
int len = 0;
while ((len = cin.read(buffer)) != -1) {
outStream.write(buffer, 0, len);
}
cin.close();
byte[] fileData = outStream.toByteArray();
outStream.close();
return fileData;
这样可读取到百度网页的文字内容。。
现在我又这么一个网站https://1XX.XX.XXX.XX.........txt;这个网站没有可信的证书,所以在httpConn.connect();这里,会应为证书不可信报这么一个错
javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target。。大概就是说证书不可信不能连接。。
有人提示我说可以重写 HttpURLConnection的方法,我这样做:
HttpURLConnection httpConn = new HttpURLConnection(url) { }
但这样就必须重写三个抽象方法 disconnect() ,, usingProxy();connect();;
其中 usingProxy();方法用来判断证书,把它改为return true 就可以,但是connect();;是个连接方法,重写它就代表我必须自己写连接网页的代码,而我完全不懂这其中的知识。。
求助:怎么重写或者给别的读取网页文字的方法也行。。 展开
public static void main(String[] args) {
byte[] bytes = new Download().getUrlFileData("http://www.baidu.com");
System.out.println(new String(bytes));
}
URL url = new URL(fileUrl);
HttpURLConnection httpConn = (HttpURLConnection) url.openConnection();
httpConn.connect();
InputStream cin = httpConn.getInputStream();
ByteArrayOutputStream outStream = new ByteArrayOutputStream();
byte[] buffer = new byte[1024];
int len = 0;
while ((len = cin.read(buffer)) != -1) {
outStream.write(buffer, 0, len);
}
cin.close();
byte[] fileData = outStream.toByteArray();
outStream.close();
return fileData;
这样可读取到百度网页的文字内容。。
现在我又这么一个网站https://1XX.XX.XXX.XX.........txt;这个网站没有可信的证书,所以在httpConn.connect();这里,会应为证书不可信报这么一个错
javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target。。大概就是说证书不可信不能连接。。
有人提示我说可以重写 HttpURLConnection的方法,我这样做:
HttpURLConnection httpConn = new HttpURLConnection(url) { }
但这样就必须重写三个抽象方法 disconnect() ,, usingProxy();connect();;
其中 usingProxy();方法用来判断证书,把它改为return true 就可以,但是connect();;是个连接方法,重写它就代表我必须自己写连接网页的代码,而我完全不懂这其中的知识。。
求助:怎么重写或者给别的读取网页文字的方法也行。。 展开
2个回答
展开全部
重写TrustManager 或者 SSLSocketFactory 这两个类都行的 把这两个类getAcceptedIssuers() 方法中任意一个返回强制返回null就行了。
还有一个简单点的办法,就是先把需要访问的网站证书下载回来,然后用keytool 转成keystore 然后再在实例SSLSocketFactory时候 通过构造方法SSLSocketFactory socketFactory= new SSLSocketFactory(trustStore);加载该keystore 。这样网站就会用你提供的证书解密访问https了。
还有一个简单点的办法,就是先把需要访问的网站证书下载回来,然后用keytool 转成keystore 然后再在实例SSLSocketFactory时候 通过构造方法SSLSocketFactory socketFactory= new SSLSocketFactory(trustStore);加载该keystore 。这样网站就会用你提供的证书解密访问https了。
追问
上面的重写TrustManager 或者 SSLSocketFactory 是指什么意思?要我写一个类继承或实现他们俩?但我代码中并没有使用到这两个类啊,重写有用么?我的代码在上边(伪代码,为了省字数异常部分和方法定义部分舍去了),如果可以能请您把正确的代码或代码大概形式写给我么?
下面的不太适用于我,我这代码写好了可能会放到不同的机器或者服务器上,下载证书到自己电脑上 不能管一辈子吧。。。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询