当前位置:  编程技术>.net/c#/asp.net

c#使用nsoup解析html乱码解决方法分享 nsoup教程

    来源: 互联网  发布时间:2014-10-26

    本文导语:  下载地址:http://nsoup.codeplex.com/ 简单用法如下: 代码如下:NSoup.Nodes.Document doc = NSoup.NSoupClient.Parse(HtmlString); 处理网络上的页面: 代码如下:NSoup.Nodes.Document doc = NSoup.NSoupClient.Connect("http://www./").Get(); 但是遗憾的是NSoup默认的编码...

下载地址:http://nsoup.codeplex.com/

简单用法如下:

代码如下:

NSoup.Nodes.Document doc = NSoup.NSoupClient.Parse(HtmlString);

处理网络上的页面:

代码如下:

NSoup.Nodes.Document doc = NSoup.NSoupClient.Connect("http://www./").Get();

但是遗憾的是NSoup默认的编码是UTF-8,处理中文有乱码(对于编码是UTF-8的自然不会有乱码,但是有些GB2312的就可能有乱码,谢谢 forhells的提醒)。

目前我找到两种解决办法:

1.下载网页源代码再处理

代码如下:

WebClient webClient = new WebClient();
String HtmlString=Encoding.GetEncoding("utf-8").GetString(webClient.DownloadData("http://www."));
NSoup.Nodes.Document doc = NSoup.NSoupClient.Parse(HtmlString);

2.获得网页的流

代码如下:

WebRequest webRequest=WebRequest.Create("http://www.");
NSoup.Nodes.Document doc = NSoup.NSoupClient.Parse(webRequest.GetResponse().GetResponseStream(),"utf-8");

第二种用着比较方便,但是我觉得第一种比较合适,毕竟NSoup是个Html解析类,下载网页代码这种事情本来不应该交给它。


    
 
 

您可能感兴趣的文章:

  • c#中SAPI使用总结——SpVoice的使用方法
  • c#友好显示日期 c#日期datetime使用方法
  • 请问在工作岗位的朋友!使用java开发的公司对c#的态度如何?
  • c#自带缓存使用方法 c#移除清理缓存
  • C#中的switch case使用介绍
  • c# 空合并运算符“??”的使用详解
  • 使用C#实现在屏幕上画图效果的代码实例
  • 深入C#中使用SqlDbType.Xml类型参数的使用详解
  • c#闭包使用方法示例
  • c# split分隔字符串使用方法
  • c#的params参数使用示例
  • c#使用资源文件的示例
  • 使用C# Winform应用程序获取网页源文件的解决方法
  • C#将时间转成文件名使用方法
  • C# 使用匿名函数解决EventHandler参数传递的难题
  • 使用C#获取系统特殊文件夹路径的解决方法
  • C#使用带like的sql语句时防sql注入的方法
  • C#可选参数的相关使用
  • C# 静态构造函数使用总结
  • C# WndProc的使用方法示例
  •  
    本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
    本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • c#使用资源文件的示例 iis7站长之家
  • linux 中使用man命令出现乱码
  • 解决jsp页面使用网络路径访问图片的乱码问题
  • 使用配置命令的时候,显示乱码???
  • 使用jsp中url跳转时,怎样让它变成乱码使客户端看不到?
  • 使用SecureCRT连接到Linxu后,中断的汉字乱码,怎么解决?
  • 为什么使用cat输出的文本文件是中文的,使用java从文件读取出来时显示的是乱码?
  • mysql使用source 命令乱码问题解决方法
  • 使用EntityBean将中文存入数据库时出现乱码,如何解决?
  • 在ubanto中使用ftp命令访问ftp站点,但是文件列表显示乱码
  • 使用sendmail发信时,subject出现乱码的问题。(使用了标准的base64编码,outlook的时候看是正常编码,别的服务器还是有乱码例如mozilla收
  • java中使用URL类,读取服务器上的文件返回的中文为什么是乱码?
  • 请教使用putty以telnet方式登录并运行程序出现的乱码问题
  • 我使用jbuilder6.0来开发jsp,出现乱码怎么办????急急急!
  • Linux下使用MyEclipse6.0打开window下创建的文本时中文部分出现乱码
  • jsp中使用jstl导入html乱码问题解决方法
  • 使用vi编辑文件,输错了,使用backspace删除,结果出现乱码,求解决办法。。。
  • 使用java从乱码文本中解析出正确的文本
  • 一个使用udp协议发送数据报时中文为何会成为乱码的问题
  • 基于jsp:included的使用与jsp:param乱码的解决方法
  • C++ I/O 成员 tellg():使用输入流读取流指针
  • 在测试memset函数的执行效率时,分为使用Cash和不使用Cash辆种方式,该如何控制是否使用缓存?
  • C++ I/O 成员 tellp():使用输出流读取流指针
  • 求ibm6000的中文使用手册 !从来没用过服务器,现在急需使用它,不知如何使用! 急!!!!!
  • Python不使用print而直接输出二进制字符串
  • 请问:在使用oracle数据库作开发时,是使用pro*c作开发好些,还是使用库函数如oci等好一些啊?或者它们有什么区别或者优缺点啊?
  • Office 2010 Module模式下使用VBA Addressof
  • 急求结果!!假设一个有两个元素的信号量集S,表示了一个磁带驱动器系统,其中进程1使用磁带机A,进程2同时使用磁带机A和B,进程3使用磁带机B。
  • windows下tinyxml.dll下载安装使用(c++解析XML库)
  • 使用了QWidget的程序,如何使用后台程序启动它?
  • tcmalloc内存泄露优化c++开源库下载,安装及使用介绍


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3