java爬虫读取某一张指定图片的url,求解答

http://link.springer.com/book/10.1057%2F9780230290617这个页面中的https://static-content.spr... http://link.springer.com/book/10.1057%2F9780230290617这个页面中的
https://static-content.springer.com/cover/book/978-0-230-29061-7.jpg图片地址
展开
 我来答
易建议
2016-06-30 · 喜欢分享的人都容易获得幸福感~
易建议
采纳数:344 获赞数:1342

向TA提问 私信TA
展开全部

使用jsoup解析到这个url就行,dom结构如下:

look-inside-cover类只有一个,所以直接找到这个img元素,获取src属性,就可以获取到图片路径。


代码实现如下:

Document doc = Jsoup.connect("http://link.springer.com/book/10.1057%2F9780230290617").get();
Elements imgs = doc.select(".look-inside-cover");
String imgUrl = imgs.get(0).attr("src");

jsoup的jar包分享给你:


追问

怎么报错了呢,有哪里差什么东西吗

追答
没处理异常吧?
抛出或者捕获
数阔八爪鱼采集器丨RPA机器人
2021-07-20 · 前往八爪鱼RPA应用市场,免费获取机器人
数阔八爪鱼采集器丨RPA机器人
向TA提问
展开全部
package pers.baijiaming.download.main;import java.io.*; //io包import java.util.regex.*; //正则包import java.net.*; //网络包/** 下载图片类* */public final class DownloadPictures implements Runnable{
private URL url = null; //URL private URLConnection urlConn = null; //url连接 private BufferedReader bufIn = null; //缓冲读取器,读取网页信息
private static final String IMG_REG = "<img.*src\\s*=\\s*(.*?)[^>]*?>"; //img标签正则 private static final String IMG_SRC_REG = "src\\s*=\\s*\"?(.*?)(\"|>|\\s+)"; //img src属性正则
private String downloadPath = null; //保存路径
//构造,参数:想要下载图片的网址、下载到的图片存放的文件路径 public DownloadPictures(String urlStr, String downloadPath)
{
createFolder(downloadPath); //创建文件夹
try {
url = new URL(urlStr);
urlConn = url.openConnection();
//设置请求属性,有部分网站不加这句话会抛出IOException: Server returned HTTP response code: 403 for URL异常 //如:b站 urlConn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
bufIn = new BufferedReader(new InputStreamReader(urlConn.getInputStream()));
}
catch (Exception e) {
e.printStackTrace();
}

this.downloadPath = downloadPath;
}

//检测路径是否存在,不存在则创建 private void createFolder(String path)
{
File myPath = new File(path);

if (!myPath.exists()) //不存在则创建文件夹 myPath.mkdirs();
}

//下载函数 public void Download()
{
final int N = 20; //每一次处理的文本行数,这个数越小越容易遗漏图片链接,越大效率越低 (理论上)
String line = "";
String text = "";

while (line != null) //网页内容被读完时结束循环 {
for(int i = 0; i < N; i++) //读取N行网页信息存入到text当中,因为src内容可能分为多行,所以使用这种方法 try {
line = bufIn.readLine(); //从网页信息中获取一行文本
if(line != null) //判断防止把null也累加到text中 text += line;
}
catch (IOException e) {
e.printStackTrace();
}

//将img标签正则封装对象再调用matcher方法获取一个Matcher对象 final Matcher imgM = Pattern.compile(IMG_REG).matcher(text);

if(!imgM.find()) //如果在当前text中没有找到img标签则结束本次循环 continue;

//将img src正则封装对象再调用matcher方法获取一个Matcher对象 //用于匹配的文本为找到的整个img标签 final Matcher imgSrcM = Pattern.compile(IMG_SRC_REG).matcher(imgM.group());

while (imgSrcM.find()) //从img标签中查找src内容 {
String imageLink = imgSrcM.group(1); //从正则中的第一个组中得到图片链接
print(imageLink); //打印一遍链接
//如果得到的src内容没有写协议,则添加上// if(!imageLink.matches("https://[\\s\\S]*")) //这里有问题// imageLink = "https://" + imageLink;
print(imageLink); //打印一遍链接
try
{
//缓冲输入流对象,用于读取图片链接的图片数据 //在链接的图片不存在时会抛出未找到文件异常 final BufferedInputStream in = new BufferedInputStream(new URL(imageLink).openStream());

//文件输出流对象用于将从url中读取到的图片数据写入到本地 //保存的路径为downloadPath,保存的图片名为时间戳+".png" final FileOutputStream file = new FileOutputStream(new File(downloadPath + System.currentTimeMillis() + ".png"));

int temp; //用于保存in从图片连接中获取到的数据 while ((temp = in.read()) != -1)
file.write(temp); //将数据写入到本地路径中
//关闭流 file.close();
in.close();

//下载完一张图片后休息一会 try {
Thread.sleep(800);
}
catch (InterruptedException e) {
e.printStackTrace();
}
}
catch (Exception e)
{
e.printStackTrace();
}
}

//将text中的文本清空 text = "";
}
}

//run @Override
public void run()
{
Download(); //下载函数 }

//打印语句 public void print(Object obj)
{
System.out.println(obj);
}}
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式