求帮忙制作一个JAVA HTMLParser Extractor解析器类 从HTML中提取所需要的信息

要提取的信息通用格式如下,一共需要提取六个信息(标题中的)书名、作者、出版社、出版时间、书号ISBN还有价格。<title>《口译二阶段备考训练(附光盘)》陶伟主编_简介... 要提取的信息通用格式如下,一共需要提取六个信息(标题中的)书名、作者、出版社、出版时间、书号ISBN还有价格。
<title>《口译二阶段备考训练(附光盘)》陶伟 主编_简介_书评_在线阅读-当当图书</title>
<div class="show_info_left">作 者</div>
<div class="show_info_right"><a href="http://search.dangdang.com/?key2=%CC%D5%CE%B0&medium=01&category_path=01.00.00.00.00.00"; name="__infodetail_pub" target="_blank" class="c_green">陶伟</a> 主编</div>
</div>
<div class="clearfix m_t6">
<div class="show_info_left">出 版 社</div>
<div class="show_info_right"><a href="http://search.dangdang.com/?key=&key3=%CD%AC%BC%C3%B4%F3%D1%A7%B3%F6%B0%E6%C9%E7&medium=01&category_path=01.00.00.00.00.00"; name="__infodetail_pub" target="_blank" class="c_green">同济大学出版社</a></div>
</div>
<div class="clearfix m_t6">
<div class="show_info_left">出版时间</div>
<div class="show_info_right"></div>
</div>
<div class="clearfix m_t6">
<div class="show_info_left">ISBN</div>
<div class="show_info_right">9787560836096</div>
</div>

<div class="show_info_left">定 价</div>
<div class="show_info_right">
<i class="m_price"><em class="td_lh">¥ <span id="originalPriceTag">40.00</span></em></i></div>
如果有困难的话告诉我怎么做也行,任务紧,我来不及仔细学习正则表达式还有HTMLParser了,所以求助各位大大,真的谢谢你们了!
展开
 我来答
百度网友9d1f6cf623
2014-05-08
知道答主
回答量:6
采纳率:0%
帮助的人:3万
展开全部
正则表达式:<title>《(?<bookName>[\w\W]+?)》[\w\W]+?作 者[\w\W]+?name="__infodetail_pub" target="_blank" class="c_green">(?<作者>[\w\W]+?)</a> 主编</div>[\w\W]+?出 版 社[\w\W]+?name="__infodetail_pub" target="_blank" class="c_green">
(?<出版社>[\w\W]+?)</a></div>[\w\W]+?出版时间[\w\W]+?<div class="show_info_right">(?<出版时间>[\w\W]*?)</div>[\w\W]+?ISBN<div class="show_info_right">(?<ISBN>[\w\W]*?)</div>
jianke530
2014-05-05 · 超过15用户采纳过TA的回答
知道答主
回答量:89
采纳率:0%
帮助的人:45.5万
展开全部
试试jsoup,可以像jquery那样去获取你要的数据
追问
嗯,我试试,不过,谢谢你啊!
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式