java如何用正则表达式来提取一个TXT文档中的字段？我想要提取一个我下载下来的网页源代码里面的字段

比如我要提取<style="display:none">赞同</div>中的赞同2个字，而且是所有的<style="display:none">标签和</div>中的汉字... 比如我要提取<style="display:none">赞同</div>中的赞同2个字，而且是所有的<style="display:none">标签和</div>中的汉字，应该怎么写呢？展开

 我来答

4个回答

#热议# 海关有哪些禁运商品？查到后怎么办？

百度网友845f74e61
2011-12-27 · TA获得超过6929个赞

知道大有可为答主

回答量：4050

采纳率：50%

帮助的人：1626万

我也去答题访问个人页

关注

展开全部

试了一下正则，不是很好写。暂时还没有思路。
现在用截取字符串的方法，实现的了想要的效果。你看一下吧。

import java.util.ArrayList;
import java.util.List;

public class Test {

public static void main(String[] args) {

String value = "asdfasdkai8<style=\"display:none\"1>赞同1</div><style=\"display:none\">赞同2</div><style=\"display:none\">asdkfj2399</div>";
String startStr = "<style=\"display:none\">";

List list = new ArrayList();

while (true) {
int start = value.indexOf(startStr);
if (start == -1) {
break;
}
int end = value.indexOf("</div>");
if (end < start) {
value = value.substring(start);
continue;
}
;
list.add(value.substring(start + startStr.length(), end));
value = value.substring(end + "</div>".length());
}

for (int i = 0; i < list.size(); i++) {
System.out.println(list.get(i));
}
}
}

更多追问追答

追问

但是我是想提取TXT文档里面的不是自己输入的，例如我提取d:/qg.txt里面所有和之间的内容

追答

FileReader fr = new FileReader("d:\\qg.txt");
		BufferedReader br = new BufferedReader(fr);
		while(br.ready()){
			// 读取出一行字符串
			String line = br.readLine();
		}
		fr.close();
		br.close();

用这部分代码来读取文件的内容。
全部代码如下。startStr = "";是因为读出时会有转义字符所在加了\\\
这个也会因系统不同而不同，如果得不到结果，看一下这块。
--------------------------------------------------------------
import java.io.BufferedReader;
import java.io.FileReader;
import java.util.ArrayList;
import java.util.List;

public class Test {

	public static void main(String[] args) throws Exception {

		FileReader fr = new FileReader("d:\\qg.txt");
		BufferedReader br = new BufferedReader(fr);
		List list = new ArrayList();

		while (br.ready()) {
			// 读取出一行字符串
			String value = br.readLine();
			String startStr = "";
			while (true) {
				int start = value.indexOf(startStr);
				if (start == -1) {
					break;
				}
				int end = value.indexOf("");
				if (end ".length());
			}
		}

		for (int i = 0; i < list.size(); i++) {
			System.out.println(list.get(i));
		}

		fr.close();
		br.close();
	}
}

本回答由提问者推荐

已赞过 已踩过<

评论收起

make_big_money
2011-12-27 · TA获得超过233个赞

知道小有建树答主

回答量：272

采纳率：100%

帮助的人：291万

我也去答题访问个人页

关注

展开全部

我猜你应该是在style前少了一个div
如果是的话正则表达式这个么写
<div.+style="display:none">([^<]+)</div>
你取分组1，就是你要的内容，例如赞同

如果你确认style前面没有div，那用
<style="display:none">([^<]+)</div>

已赞过 已踩过<

评论收起

在峨石宝塔跳伦巴的皮皮猪
2011-12-27 · TA获得超过300个赞

知道小有建树答主

回答量：452

采纳率：0%

帮助的人：202万

我也去答题访问个人页

关注

展开全部

value.matches("^[\u4e00-\u9fa5]+$")

已赞过 已踩过<

评论收起

wang530279
2011-12-27

知道答主

回答量：12

采纳率：0%

帮助的人：12.3万

我也去答题访问个人页

关注

展开全部

可以直接用string截取>结束和<开始的中间的字符，这样效率更高

已赞过 已踩过<

评论收起

更多回答（2）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

java如何用正则表达式来提取一个TXT文档中的字段？我想要提取一个我下载下来的网页源代码里面的字段

其他类似问题

为你推荐：