我想用java的正则表达式提取网页正文,但不知道哪里错了,请帮忙看一下这个表达式
<divclass="content-body"id="shareBody">(.*?)</div>,输出group(1),不知道为什么输出的是空白...
<div class="content-body" id="shareBody">(.*?)</div>,输出group(1),不知道为什么输出的是空白
展开
4个回答
展开全部
<div\sclass\="content\-body"\sid\="shareBody">(?<value>(\w*))<\/div>
import java.util.regex.*;
// 表达式对象
Pattern p = Pattern.compile("<div\\sclass\\=\"content\\-body\"\\sid\\=\"shareBody\">(?<value>(\\w*))<\\/div>");
// 创建 Matcher 对象
Matcher m = p.matcher("");
// 是否找到匹配
boolean found = m.find();
if( found )
{
String foundstring = m.group();
int beginPos = m.start();
int endPos = m.end();
}
展开全部
工具选择有问题。
规则式主要用于纯粹情况。
建议直接使用xpath。
还有更强的dt-xml,不过API似乎有点。。。
规则式主要用于纯粹情况。
建议直接使用xpath。
还有更强的dt-xml,不过API似乎有点。。。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
正则不是写在内容里,而是写在js里面
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
给一个你的测试用的字符串
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询