用java实现提取指定网页中的表格数据?
想用java编程来实现抽取指定网站上的一些表格数据内容,比如买书的网站上,有新书发布,我想把所有的新书的信息提取出来,比如书名,作者,出版社等,并导入数据库,请问如何实现...
想用java编程来实现抽取指定网站上的一些表格数据内容,比如买书的网站上,有新书发布,我想把所有的新书的信息提取出来,比如书名,作者,出版社等,并导入数据库,请问如何实现,要相关的源代码。谢谢!
2楼的不错,但不是我想要的,仍很感谢,
我想得到的是纯用java,连接网页,并从中下其中表格中的数据,然后用于更新数据库,----不是java script用网页部分来实现---我想得到的是给一个网页,用java连接并分析下载到其中表格的数据到本地,
知道的发给我,谢谢了 展开
2楼的不错,但不是我想要的,仍很感谢,
我想得到的是纯用java,连接网页,并从中下其中表格中的数据,然后用于更新数据库,----不是java script用网页部分来实现---我想得到的是给一个网页,用java连接并分析下载到其中表格的数据到本地,
知道的发给我,谢谢了 展开
5个回答
展开全部
把下面代码复制到文本文档中,然后将文本文档改成".html"形式
这个是提取表格中的数据的方法,看看是你想要的不
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML>
<HEAD>
<TITLE> New Document </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
</HEAD>
<SCRIPT LANGUAGE="JavaScript">
<!--
//获得table的tr td等属性
function getTableAtt(){
alert('该table有'+document.all.oTabless.rows.length+'个tr')
for (i=0; i < document.all.oTabless.rows.length; i++) {
//循环每个tr里的td
for (j=0; j < document.all.oTabless.rows(i).cells.length; j++) {
alert('第'+(i+1)+'个tr中的第'+(j+1)+'个td的值为:'+document.all.oTabless.rows(i).cells(j).innerText)
}
}
}
//-->
</SCRIPT>
<BODY>
<FORM METHOD=POST ACTION="" name="myform">
<hr>
<TABLE ID=oTabless border = "1">
<TR><TD>1</TD><TD>2</TD><TD>3</TD><TD>4</TD></TR>
<TR><TD>5</TD><TD>6</TD><TD>7</TD><TD>8</TD></TR>
</TABLE>
<INPUT TYPE="button" VALUE="Table" onclick="getTableAtt()">
<hr>
</FORM>
</BODY>
</HTML>
这个是提取表格中的数据的方法,看看是你想要的不
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML>
<HEAD>
<TITLE> New Document </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
</HEAD>
<SCRIPT LANGUAGE="JavaScript">
<!--
//获得table的tr td等属性
function getTableAtt(){
alert('该table有'+document.all.oTabless.rows.length+'个tr')
for (i=0; i < document.all.oTabless.rows.length; i++) {
//循环每个tr里的td
for (j=0; j < document.all.oTabless.rows(i).cells.length; j++) {
alert('第'+(i+1)+'个tr中的第'+(j+1)+'个td的值为:'+document.all.oTabless.rows(i).cells(j).innerText)
}
}
}
//-->
</SCRIPT>
<BODY>
<FORM METHOD=POST ACTION="" name="myform">
<hr>
<TABLE ID=oTabless border = "1">
<TR><TD>1</TD><TD>2</TD><TD>3</TD><TD>4</TD></TR>
<TR><TD>5</TD><TD>6</TD><TD>7</TD><TD>8</TD></TR>
</TABLE>
<INPUT TYPE="button" VALUE="Table" onclick="getTableAtt()">
<hr>
</FORM>
</BODY>
</HTML>
展开全部
在网页数据采集的时候,我们往往要经过这几个大的步骤:
①通过URL地址读取目标网页
②获得网页源码
③通过网页源码抽取我们要提取的目的数据
④对数据进行格式转换,获得我们需要的数据。
①通过URL地址读取目标网页
②获得网页源码
③通过网页源码抽取我们要提取的目的数据
④对数据进行格式转换,获得我们需要的数据。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
你这种想法如果侦查自己开发的网站还可以,但是如果你监察别人的网站,除非你能拿到源代码,否则你根本实现不了,因为你连table的id都拿不到你怎么去获取数据啊,
LZ如果真想实现这功能,就随便找个有源代码的商城的自己先跑着,然后你再做程序就完全可以实现你像要的功能了。
LZ如果真想实现这功能,就随便找个有源代码的商城的自己先跑着,然后你再做程序就完全可以实现你像要的功能了。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
搞网站入侵啊 !
你的想法很好
但是你的数据库结构怎么设计?你怎么侦测别人网站更新?你如何知道别人网页的div标签名?
你的想法很好
但是你的数据库结构怎么设计?你怎么侦测别人网站更新?你如何知道别人网页的div标签名?
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
想法是好的,只是这个实现过程。。。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询