从html文件中批量提取信息(已有相关正则表达式),然后输出为标准格式的txt文件,求指导 80
一共要提取书名、作者、类别、出版社、图书号ISBN、图片URL、定价、出版时间共八个信息。现有正则表达式如下:description"[^"]*"([^\s]*)[^:]...
一共要提取书名、作者、类别、出版社、图书号ISBN、图片URL、定价、出版时间共八个信息。现有正则表达式如下:
description"[^"]*"([^\s]*)[^:]*:([^\s]*)[^:]*:([^\s]*)[^:]*:([^\s]*)[^:]*:([^,]*)
wsrc="([^"]*)[\s\S]*?
d_price[^<]*<[^>]*>([^<]*)</span>
出版时间[\s\S]*?"show_info_right">([^<]*)</div>
第一行可提取出书名、作者、类别、出版社、图书号ISBN五个信息,第二三四行分别可以提取出图片URL、定价、出版时间三个信息。
HTML源文件地址为H:\mirror\DangDangBook,共计7000余个文件。目标TXT输出地址H:\product
要求txt名称为书名_作者_原始html文件名,例如 口译二阶段备考训练(附光盘)_陶伟_20000081
内容格式如下:
书名:口译二阶段备考训练(附光盘)作者:陶伟类别:英语口译资格考试出版社:同济大学出版社图书号ISBN:9787560836096 图片URL:http://img31.ddimg.cn/2/27/20000081-1_w.jpg定价:31.70出版时间:2012-4-8
要提取的HTML源文件为 http://product.dangdang.com/20000081.html
像这样的源文件还有N千个,最好有JAVA的批处理程序,我这边已经有了JAVA正则还有HTMLparser的基类 展开
description"[^"]*"([^\s]*)[^:]*:([^\s]*)[^:]*:([^\s]*)[^:]*:([^\s]*)[^:]*:([^,]*)
wsrc="([^"]*)[\s\S]*?
d_price[^<]*<[^>]*>([^<]*)</span>
出版时间[\s\S]*?"show_info_right">([^<]*)</div>
第一行可提取出书名、作者、类别、出版社、图书号ISBN五个信息,第二三四行分别可以提取出图片URL、定价、出版时间三个信息。
HTML源文件地址为H:\mirror\DangDangBook,共计7000余个文件。目标TXT输出地址H:\product
要求txt名称为书名_作者_原始html文件名,例如 口译二阶段备考训练(附光盘)_陶伟_20000081
内容格式如下:
书名:口译二阶段备考训练(附光盘)作者:陶伟类别:英语口译资格考试出版社:同济大学出版社图书号ISBN:9787560836096 图片URL:http://img31.ddimg.cn/2/27/20000081-1_w.jpg定价:31.70出版时间:2012-4-8
要提取的HTML源文件为 http://product.dangdang.com/20000081.html
像这样的源文件还有N千个,最好有JAVA的批处理程序,我这边已经有了JAVA正则还有HTMLparser的基类 展开
2个回答
展开全部
正则匹配 得到想要的 导入system.io空间 就可以使用输入输出的文件或者流什么的类与方法
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询