
求截取网页中的charset编码的正则表达式
1种情况:<metahttp-equiv=Content-Typecontent="text/html;charset=gb2312">2种情况:<metahttp-eq...
1种情况:<meta http-equiv=Content-Type content="text/html;charset=gb2312">
2种情况:<meta http-equiv=Content-Type content=text/html;charset=gb2312>
3种情况:<meta http-equiv=Content-Type content="text/html;charset=gb2312"/>
……
这里有要一个通用的正则表达式,截取charset中的值
String regx = ""; //这里正则怎么写?
Pattern p = Pattern.compile(regx);
Matcher m = p.matcher(body);
System.out.println(m.replaceAll("")); 展开
2种情况:<meta http-equiv=Content-Type content=text/html;charset=gb2312>
3种情况:<meta http-equiv=Content-Type content="text/html;charset=gb2312"/>
……
这里有要一个通用的正则表达式,截取charset中的值
String regx = ""; //这里正则怎么写?
Pattern p = Pattern.compile(regx);
Matcher m = p.matcher(body);
System.out.println(m.replaceAll("")); 展开
展开全部
太好了,你用的是java
分析这个情况,但凡是在<meta标签内的只会有一个charset=,然后在gb2312后面肯定是一个非单词的字母,那么这个正则表达式基本就确定了。
String webPage="<meta http-equiv=Content-Type content=\"text/html;charset=gb2312\"><meta http-equiv=Content-Type content=text/html;charset=gb2312><meta http-equiv=Content-Type content=\"text/html;charset=gb2312\"/>";
regex="<meta[^>]*?charset=(\\w+)[\\W]*?>";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(webPage);
if(m.find()){
String charSet=m.group(1);
}
System.out.println(m.replaceAll(""));
看到这个replace,我觉得很郁闷,你要替换这些字符么?那直接用"gb2312",或者"gbk"来作为正则表达式来替换就好了啊。
分析这个情况,但凡是在<meta标签内的只会有一个charset=,然后在gb2312后面肯定是一个非单词的字母,那么这个正则表达式基本就确定了。
String webPage="<meta http-equiv=Content-Type content=\"text/html;charset=gb2312\"><meta http-equiv=Content-Type content=text/html;charset=gb2312><meta http-equiv=Content-Type content=\"text/html;charset=gb2312\"/>";
regex="<meta[^>]*?charset=(\\w+)[\\W]*?>";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(webPage);
if(m.find()){
String charSet=m.group(1);
}
System.out.println(m.replaceAll(""));
看到这个replace,我觉得很郁闷,你要替换这些字符么?那直接用"gb2312",或者"gbk"来作为正则表达式来替换就好了啊。
本回答被提问者采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
Pattern p = Pattern.compile(
"<meta\\s+http-equiv\\s*=\\s*\"content-type\"\\s+content\\s*=\\s*[\"](.+?)\"?\\s*/?>",
Pattern.CASE_INSENSITIVE);
// Pattern p = Pattern.compile("<meta[^>]*?charset=(\\w+)[\\W]*?>");
Matcher m = p.matcher(html);
System.out.println(m.find();
"<meta\\s+http-equiv\\s*=\\s*\"content-type\"\\s+content\\s*=\\s*[\"](.+?)\"?\\s*/?>",
Pattern.CASE_INSENSITIVE);
// Pattern p = Pattern.compile("<meta[^>]*?charset=(\\w+)[\\W]*?>");
Matcher m = p.matcher(html);
System.out.println(m.find();
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
charset=([^\"|^\>|^/]+)
这个表达式就可以
这个表达式就可以
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
String regx = "^charset=*\\">";
仅供参考
仅供参考
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
var pattern=/charset=\w*/i;
var value=""+msg.match(pattern);
alert(value.substr(8,value.length));
value=value.substr(8,value.length);
这样也可以得到charset编码的值
var value=""+msg.match(pattern);
alert(value.substr(8,value.length));
value=value.substr(8,value.length);
这样也可以得到charset编码的值
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询