当前位置:  软件>java软件

HTML文档解析器 NekoHTML

    来源:    发布时间:2015-02-20

    本文导语:  NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档 过程中常犯的错误。 NekoHTML...

NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档 过程中常犯的错误。

NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML的开发使用了 Xerces Native Interface (XNI),后者是Xerces2的实现基础。

示例代码:

package sample;

import org.cyberneko.html.parsers.DOMParser;
import org.w3c.dom.Document;
import org.w3c.dom.Node;

public class TestHTMLDOM {
public static void main(String[] argv) throws Exception {
DOMParser parser = new DOMParser();
for (int i = 0; i

    
 
 

您可能感兴趣的文章:

  • 基于Python的Html/xml解析库Beautiful Soup 4.2.1发布
  • 如何用libxml2 默认解析器解析HTML文件
  • html中<radio>单选按钮控件标签用法解析及如何设置默认选中
  • linux中html解析,需要哪些知识
  • 基于Python的html解析库:pyquery最新版主页及pyquery下载
  • Java的HTML解析器 Jerry
  • Python下Html/xml解析库Beautiful Soup快速入门教程
  • HTML解析器 JoyHTML
  • html中<checkbox>标签用法解析及如何设置checkbox复选框的默认选中状态
  • HTML 解析类库 MozillaParser
  • html中<select>标签用法解析及如何设置select的默认选中状态
  • Html文档解析器 JTidy
  • HTML解析器 CyberNeko
  • Java的HTML解析包 jScraper
  • Html文档解析器 HtmlCleaner
  • 有什么java包可以支持解析html的。
  • HTML解析器 VietSpider
  • HTML文档解析器 HTMLParser
  • C语言的HTML解析库 libhtml
  • Java的HTML解析库 gohtml
  • HTML解析器 TagSoup
  •  
    本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
    本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • HTML 5 <!DOCTYPE> HTML文档规范声明标签
  • HTML文档格式化工具 HTML Tidy
  • HTML 5 <body> 标签-定义文档的主体
  • 请教!Ubuntu下怎样在命令行下打开html文档啊?
  • HTML 文档各种元素用法介绍
  • HTML到PDF的文档转换 wkhtmltopdf
  • HTML 文档属性介绍
  • HTML文档生成工具 QuHelp
  • HTML 文档中的段落<p>标签介绍
  • Word文档转化成html后,再转化成CHM格式后,图片总不能显示,用很多转化工具试过!
  • HTML 文档各种标题的定义及参考手册
  • 我把mozilla包卸载了,现在html文档不能直接打开,怎么装上新版本的呢?
  • 用warp整合的apache和tomcat的默认文档(原来是index.html)该怎么设置,解决了还可以多加
  • 在linux下用gcc编程序,请问那一位高人有各种库文件的html或者chm文档
  • 如何在html中显示doc或excel文档
  • 急!急!急!谁知道关于用java解析html文档?
  • 如何用jsp或javabean在tomcat中生成xml文档,而不是产生html文档?
  • Jsoup解析HTML实例及文档方法详解
  • java命名空间javax.swing.text.html类html.tag的类成员方法: html定义及介绍
  • 基于HTML5的幻灯片 html5slides
  • java命名空间javax.swing.text.html类html.tag的类成员方法: html.tag定义及介绍
  • 基于 KBEngine 的 HTML5 插件 kbengine_html5
  • java命名空间javax.swing.text.html类html.unknowntag的类成员方法: html.unknowntag定义及介绍
  • 让 IE 支持 HTML5 html5shim
  • java命名空间javax.swing.text.html类htmleditorkit.inserthtmltextaction的类成员方法: html定义及介绍
  • HTML5 在线工具 html5demos
  • java命名空间javax.swing.text.html类html的类成员方法: getallattributekeys定义及介绍
  • 框架网页中如何使用sendredirect(a.html),使得a.html不显示在框架中,是整页显示!
  • java命名空间javax.swing.text.html.parser类dtd的类成员方法: html定义及介绍
  • Sar数据转HTML Sar2html
  • java命名空间javax.swing.text.html类html.tag的类成员方法: comment定义及介绍


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3