求帮忙制作一个JAVA HTMLParser Extractor解析器类 从HTML中提取所需要的信息
要提取的信息通用格式如下,一共需要提取六个信息(标题中的)书名、作者、出版社、出版时间、书号ISBN还有价格。<title>《口译二阶段备考训练(附光盘)》陶伟主编_简介...
要提取的信息通用格式如下,一共需要提取六个信息(标题中的)书名、作者、出版社、出版时间、书号ISBN还有价格。
<title>《口译二阶段备考训练(附光盘)》陶伟 主编_简介_书评_在线阅读-当当图书</title>
<div class="show_info_left">作 者</div>
<div class="show_info_right"><a href="http://search.dangdang.com/?key2=%CC%D5%CE%B0&medium=01&category_path=01.00.00.00.00.00"; name="__infodetail_pub" target="_blank" class="c_green">陶伟</a> 主编</div>
</div>
<div class="clearfix m_t6">
<div class="show_info_left">出 版 社</div>
<div class="show_info_right"><a href="http://search.dangdang.com/?key=&key3=%CD%AC%BC%C3%B4%F3%D1%A7%B3%F6%B0%E6%C9%E7&medium=01&category_path=01.00.00.00.00.00"; name="__infodetail_pub" target="_blank" class="c_green">同济大学出版社</a></div>
</div>
<div class="clearfix m_t6">
<div class="show_info_left">出版时间</div>
<div class="show_info_right"></div>
</div>
<div class="clearfix m_t6">
<div class="show_info_left">ISBN</div>
<div class="show_info_right">9787560836096</div>
</div>
<div class="show_info_left">定 价</div>
<div class="show_info_right">
<i class="m_price"><em class="td_lh">¥ <span id="originalPriceTag">40.00</span></em></i></div>
如果有困难的话告诉我怎么做也行,任务紧,我来不及仔细学习正则表达式还有HTMLParser了,所以求助各位大大,真的谢谢你们了! 展开
<title>《口译二阶段备考训练(附光盘)》陶伟 主编_简介_书评_在线阅读-当当图书</title>
<div class="show_info_left">作 者</div>
<div class="show_info_right"><a href="http://search.dangdang.com/?key2=%CC%D5%CE%B0&medium=01&category_path=01.00.00.00.00.00"; name="__infodetail_pub" target="_blank" class="c_green">陶伟</a> 主编</div>
</div>
<div class="clearfix m_t6">
<div class="show_info_left">出 版 社</div>
<div class="show_info_right"><a href="http://search.dangdang.com/?key=&key3=%CD%AC%BC%C3%B4%F3%D1%A7%B3%F6%B0%E6%C9%E7&medium=01&category_path=01.00.00.00.00.00"; name="__infodetail_pub" target="_blank" class="c_green">同济大学出版社</a></div>
</div>
<div class="clearfix m_t6">
<div class="show_info_left">出版时间</div>
<div class="show_info_right"></div>
</div>
<div class="clearfix m_t6">
<div class="show_info_left">ISBN</div>
<div class="show_info_right">9787560836096</div>
</div>
<div class="show_info_left">定 价</div>
<div class="show_info_right">
<i class="m_price"><em class="td_lh">¥ <span id="originalPriceTag">40.00</span></em></i></div>
如果有困难的话告诉我怎么做也行,任务紧,我来不及仔细学习正则表达式还有HTMLParser了,所以求助各位大大,真的谢谢你们了! 展开
2个回答
展开全部
正则表达式:<title>《(?<bookName>[\w\W]+?)》[\w\W]+?作 者[\w\W]+?name="__infodetail_pub" target="_blank" class="c_green">(?<作者>[\w\W]+?)</a> 主编</div>[\w\W]+?出 版 社[\w\W]+?name="__infodetail_pub" target="_blank" class="c_green">
(?<出版社>[\w\W]+?)</a></div>[\w\W]+?出版时间[\w\W]+?<div class="show_info_right">(?<出版时间>[\w\W]*?)</div>[\w\W]+?ISBN<div class="show_info_right">(?<ISBN>[\w\W]*?)</div>
(?<出版社>[\w\W]+?)</a></div>[\w\W]+?出版时间[\w\W]+?<div class="show_info_right">(?<出版时间>[\w\W]*?)</div>[\w\W]+?ISBN<div class="show_info_right">(?<ISBN>[\w\W]*?)</div>
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询