从html文件中批量提取信息（已有相关正则表达式），然后输出为标准格式的txt文件，求指导 80

一共要提取书名、作者、类别、出版社、图书号ISBN、图片URL、定价、出版时间共八个信息。现有正则表达式如下：description"[^"]*"([^\s]*)[^:]... 一共要提取书名、作者、类别、出版社、图书号ISBN、图片URL、定价、出版时间共八个信息。现有正则表达式如下：
description"[^"]*"([^\s]*)[^:]*:([^\s]*)[^:]*:([^\s]*)[^:]*:([^\s]*)[^:]*:([^，]*)
wsrc="([^"]*)[\s\S]*?
d_price[^<]*<[^>]*>([^<]*)</span>
出版时间[\s\S]*?"show_info_right">([^<]*)</div>
第一行可提取出书名、作者、类别、出版社、图书号ISBN五个信息，第二三四行分别可以提取出图片URL、定价、出版时间三个信息。
HTML源文件地址为H:\mirror\DangDangBook，共计7000余个文件。目标TXT输出地址H:\product
要求txt名称为书名_作者_原始html文件名,例如口译二阶段备考训练（附光盘）_陶伟_20000081
内容格式如下：
书名：口译二阶段备考训练（附光盘）作者：陶伟类别：英语口译资格考试出版社：同济大学出版社图书号ISBN：9787560836096 图片URL：http://img31.ddimg.cn/2/27/20000081-1_w.jpg定价：31.70出版时间：2012-4-8
要提取的HTML源文件为 http://product.dangdang.com/20000081.html
像这样的源文件还有N千个，最好有JAVA的批处理程序，我这边已经有了JAVA正则还有HTMLparser的基类展开

 我来答

2个回答

#热议# 发烧为什么不能用酒精擦身体来退烧？

touchfell9ef13ab
2014-05-06 · TA获得超过163个赞

知道小有建树答主

回答量：298

采纳率：0%

帮助的人：100万

我也去答题访问个人页

关注

展开全部

正则匹配得到想要的导入system.io空间就可以使用输入输出的文件或者流什么的类与方法

已赞过 已踩过<

评论收起

梦里寻你我他
2014-05-06 · TA获得超过2199个赞

知道大有可为答主

回答量：2171

采纳率：42%

帮助的人：1210万

我也去答题访问个人页

关注

展开全部

追问

你能帮我设计下代码么？不是要提取这个，这是这是要提取成的目标样板，上面我追问了源文件，你可以看下源文件。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

从html文件中批量提取信息（已有相关正则表达式），然后输出为标准格式的txt文件，求指导 80

其他类似问题

为你推荐：