用htmlParser怎么获取下面dd标签里面的内容

 我来答

3个回答

#热议# 应届生在签三方时要注意什么？

好程序员
2016-03-10 · HTML5前端培训/大数据培训/Java

好程序员

好程序员是IT高端课程培训基地，从平凡到卓越,为梦想而拼搏。

向TA提问

关注

展开全部

htmlparser获取循环节点内容和单个标签内容的方法
htmlparser接口可用于提取分析html页面的内容。
本文只简单说明下如何利用htmlparser获取某个节点标签的内容，和获取循环节点的列表内容的个人总结。其它操作方法，因网上已经有很多相关的帮助文档，在此不再重复说明。

大致思路：
1：定义org.htmlparser.filters的类型，确定需要获取的标签或内容范围。常用的HMLT filter类型有：AndFilter、HasAttributeFilter、HasChildFilter、HasParentFilter、LinkStringFilter、NotFilter、OrFilter、TagNameFilter等类型。
为了更好定位所需要查找的页面内容，可以用多个Filter进行组合定位，如：AndFilter andFilter = new AndFilter(tagFilter,hasChildFilter);

2：通过NodeList list = parser.extractAllNodesThatMatch(andFilter);获取满足条件的节点列表。

3：对列表list进行循环遍历，在各个遍历里面，可以获取分析多个不同节点的内容，如获取某循环节点的内容和链接：
for(int i=0;i html = list.elementAt(i).toHtml();
// 获取内容
TagNameFilter pFilter = new TagNameFilter(\"p\");
HasAttributeFilter pAttributeFilter = new HasAttributeFilter(\"class\",\"sms\");
AndFilter pAndFilter = new AndFilter(pFilter,pAttributeFilter);
pParser = Parser.createParser(html, charset);
pList = pParser.extractAllNodesThatMatch(pAndFilter);
System.out.println(\"content:\"+pList.elements().nextNode().toPlainTextString());

// 获取连接
TagNameFilter aFilter = new TagNameFilter(\"a\");
HasChildFilter aChildFilter = new HasChildFilter(new TagNameFilter(\"strong\"));
AndFilter aAndFilter = new AndFilter(aFilter,aChildFilter);
pParser.reset();
pList = pParser.extractAllNodesThatMatch(aAndFilter);
// System.out.println(\"url:\"+pList.elements().nextNode().toHtml());
LinkTag linkTag = (LinkTag)pList.elements().nextNode();
System.out.println(\"url's link:\"+linkTag.getLink());
System.out.println(\"url's content:\"+linkTag.getLinkText());
}
至此，循环列表的内容，已经能全部获取到。
4：针对各种HMLT标签，htmlparser提供了各类标签的接口，为各类标签提供了各自个性化的方法，以便开发者更好更方便的调用。
举例如下：
如果想对某链接标签\" class=\"xxx\">进行内容的提取，可以通过正则表达式或字符串处理来获取到自己想要的内容。但更方便的，可以通过各种相应的xxxTag接口进行处理。如：LinkTag linkTag = (LinkTag)pList.elements().nextNode();
System.out.println(\"url's link:\"+linkTag.getLink());
System.out.println(\"url's content:\"+linkTag.getLinkText();

本回答由电脑网络分类达人孟男男推荐

已赞过 已踩过<

评论收起

出家人词悲

高赞答主

2015-06-12 · 大脑停止不了思考

知道大有可为答主

回答量：1.4万

采纳率：12%

帮助的人：3977万

我也去答题访问个人页

关注

展开全部

HTMLParser具有小巧，快速的优点，缺点是相关文档比较少（英文的也少），很多功能需要自己摸索。对于初学者还是要费一些功夫的，而一旦上手以后，会发现HTMLParser的结构设计很巧妙，非常实用，基本你的各种需求都可以满足。
    这里我根据自己这几个月来的经验，写了一点入门的东西，希望能对新学习HTMLParser的朋友们有所帮助。（不过当年高考本人语文只比及格高一分，所以文法方面的问题还希望大家多多担待）
    
    HTMLParser的核心模块是org.htmlparser.Parser类，这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数：
    public Parser ();
    public Parser (Lexer lexer, ParserFeedback fb);
   public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
    public Parser (String resource, ParserFeedback feedback) throws ParserException;
   public Parser (String resource) throws ParserException;
    public Parser (Lexer lexer);
    public Parser (URLConnection connection) throws ParserException;
    和一个静态类 public static Parser createParser (String html, String charset);

    对于大多数使用者来说，使用最多的是通过一个URLConnection或者一个保存有网页内容的字符串来初始化Parser，或者使用静态函数来生成一个Parser对象。ParserFeedback的代码很简单，是针对调试和跟踪分析过程的，一般不需要改变。而使用Lexer则是一个相对比较高级的话题，放到以后再讨论吧。
    这里比较有趣的一点是，如果需要设置页面的编码方式的话，不使用Lexer就只有静态函数一个方法了。对于大多数中文页面来说，好像这是应该用得比较多的一个方法。

   下面是初始化Parser的例子。

[java] view plaincopy在CODE上查看代码片派生到我的代码片
package com.baizeju.htmlparsertester;  
import java.io.BufferedReader;  
import java.io.InputStreamReader;  
import java.io.FileInputStream;  
import java.io.File;  
import java.net.HttpURLConnection;  
import java.net.URL;  
  
import org.htmlparser.visitors.TextExtractingVisitor;  
  
import org.htmlparser.Parser;  
  
/** 
* @author www.baizeju.com 
*/  
public class Main {  
    private static String ENCODE = "GBK";  
    private static void message( String szMsg ) {  
        try{System.out.println(new String(szMsg.getBytes(ENCODE), System.getProperty("file.encoding"))); } catch(Exception e ){}  
    }  
    public static String openFile( String szFileName ) {  
        try {  
            BufferedReader bis = new BufferedReader(new InputStreamReader(new FileInputStream( new File(szFileName)), ENCODE) );  
            String szContent="";  
            String szTemp;  
              
            while ( (szTemp = bis.readLine()) != null) {  
                szContent+=szTemp+"\n";  
            }  
            bis.close();  
            return szContent;  
        }  
        catch( Exception e ) {  
            return "";  
        }  
    }  
      
   public static void main(String[] args) {  
          
        String szContent = openFile( "E:/My Sites/HTMLParserTester.html");  
          
        try{  
            //Parser parser = Parser.createParser(szContent, ENCODE);  
            //Parser parser = new Parser( szContent );  
           Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() );  
          
            TextExtractingVisitor visitor = new TextExtractingVisitor();  
            parser.visitAllNodesWith(visitor);  
            String textInPage = visitor.getExtractedText();  
  
            message(textInPage);  
        }  
        catch( Exception e ) {              
        }  
    }  
}


本回答被提问者和网友采纳






已赞过已踩过<

你对这个回答的评价是？
评论收起

千锋教育
2016-01-19 · 做真实的自己用良心做教育

千锋教育

千锋教育专注HTML5大前端、JavaEE、Python、人工智能、UI＆UE、云计算、全栈软件测试、大数据、物联网+嵌入式、Unity游戏开发、网络安全、互联网营销、Go语言等培训教育。

向TA提问

关注

展开全部

html中<dd>< /dd>用来创建列表中最下层项目，
< dt>< /dt>和< dd>< /dd>都必须放在< dl>< /dl>标志对之间。所以获取标签内容需要一层一层来，先获取父节点的name，再依次获取dl中的dt和dd的值。
例如：
<html>
<body>
<h2>一个定义列表：</h2>
<dl>
<dt>计算机</dt>
<dd>用来计算的仪器 ... ...</dd>
<dt>显示器</dt>
<dd>以视觉方式显示信息的装置 ... ...</dd>
</dl>
</body>
</html>
运行结果：

一个定义列表：
计算机
用来计算的仪器 ... ...
显示器
以视觉方式显示信息的装置 ... ...

已赞过 已踩过<

评论收起

更多回答（1）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

用htmlParser怎么获取下面dd标签里面的内容

其他类似问题

为你推荐：