java制作一个网络内容爬虫
刚学java,目前,已经会提取一个页面链接,还有几个不太明白的地方,请教1.如何提取一个频道的内容。就是说某个频道下,所有链接页面的内容如何提取,现在只能提取到频道页下面...
刚学java,目前,已经会提取一个页面链接,还有几个不太明白的地方,请教
1.如何提取一个频道的内容。就是说某个频道下,所有链接页面的内容如何提取,现在只能提取到频道页下面的链接;
2.如何提取附件
3如何根据日期来提取,比如某个频道下,5月1号到31号的内容。 展开
1.如何提取一个频道的内容。就是说某个频道下,所有链接页面的内容如何提取,现在只能提取到频道页下面的链接;
2.如何提取附件
3如何根据日期来提取,比如某个频道下,5月1号到31号的内容。 展开
展开全部
1.你需要的不是 网络爬虫。 而只是网站抓取而已。
2 . 用 JDK 的 HttpURLConnection或者apache 的 HttpClient 组件就好了。
附件也是 资源, 只要有地址, 就可以通过
HttpURLConnection con = new HttpURLConnection (url);
conn.connect();
InputStream is = conn.getInputStream();
//这样就好了。
所有链接页面的内容如何提取 . 你需要抓取到网页之后, 对网页内的连接进行分析, 然后分别请求这些页面, 抓取这些连接内容。
如何根据日期来提取,比如某个频道下,5月1号到31号的内容。
网页抓取, 只能对页面进行抓取。 如果他有这个查询条件 并且有这个显示 1号 到31 号内容的页面,你才可以抓取到。
2 . 用 JDK 的 HttpURLConnection或者apache 的 HttpClient 组件就好了。
附件也是 资源, 只要有地址, 就可以通过
HttpURLConnection con = new HttpURLConnection (url);
conn.connect();
InputStream is = conn.getInputStream();
//这样就好了。
所有链接页面的内容如何提取 . 你需要抓取到网页之后, 对网页内的连接进行分析, 然后分别请求这些页面, 抓取这些连接内容。
如何根据日期来提取,比如某个频道下,5月1号到31号的内容。
网页抓取, 只能对页面进行抓取。 如果他有这个查询条件 并且有这个显示 1号 到31 号内容的页面,你才可以抓取到。
展开全部
不太明白,你要做什么用呢?
单独的嵌入html,是很简单的。
你说的某个频道,我理解的意思是这样的,当你用asp,jsp,php或者是其他语言编写网站的时候,很多功能都是单独写成一个文件,然后是互相调用的。
你所指的可以就是这个了。说到底还是链接的问题。
单独的嵌入html,是很简单的。
你说的某个频道,我理解的意思是这样的,当你用asp,jsp,php或者是其他语言编写网站的时候,很多功能都是单独写成一个文件,然后是互相调用的。
你所指的可以就是这个了。说到底还是链接的问题。
更多追问追答
追问
我现在只能提取某个页面里的内容,我想知道,如果我提取整个频道里的内容怎么提取。在频道页面下,都是链接,如果要跳转到内容页,才能提取具体内容。有没有办法做个爬虫,能从频道下找到内容链接,然后全部提取呢/
追答
一个网页的不同功能,都是分开来写的,不会所有功能都集中在一个主页里面。你要是学过jsp,你就会知道的,网站上的某一个频道,可能就是一个网页,然后被主页调用罢了。你只要直接链接到这个模块就可以了。
功能就相当于主页调用一样。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询