当前位置:  编程技术>c/c++/嵌入式

三种获取网页源码的方法(使用MFC/Socket实现)

    来源: 互联网  发布时间:2014-10-23

    本文导语:  第一个方法是使用MFC里面的 代码如下:CString GetHttpFileData(CString strUrl){     CInternetSession Session("Internet Explorer", 0);     CHttpFile *pHttpFile = NULL;     CString strData;     CString strClip;     pHttpFile = (CHttpFile*)Session.OpenURL(/tech-cpp/strUrl/index.html);  ...

第一个方法是使用MFC里面的

代码如下:

CString GetHttpFileData(CString strUrl)
{
     CInternetSession Session("Internet Explorer", 0);
     CHttpFile *pHttpFile = NULL;
     CString strData;
     CString strClip;
     pHttpFile = (CHttpFile*)Session.OpenURL(/tech-cpp/strUrl/index.html);
    while ( pHttpFile->ReadString(strClip) )
     {
      strData += strClip;
      }
     return strData;
}

要讲一下,pHttpFile->ReadString() 每次可能只读一个数据片断,读多少次取决于网络状况,所以要把每次读到的数据加到总数据的尾部,用了CString 省去了缓冲区处理:)
别忘了包含头文件#include 在工程设置,里面要选择 using MFC 要不然编译不了

第二种是使用WinNet的纯API实现的

代码如下:

#define MAXBLOCKSIZE 1024
#include
#include

#pragma comment(lib, "wininet.lib")

void GetWebSrcCode(const char *Url);

int _tmain(int argc, _TCHAR* argv[])
{
    GetWebSrcCode("http://www./");

    return 0;
}

void GetWebSrcCode(const char *Url)
{
    HINTERNET hSession = InternetOpen("zwt", INTERNET_OPEN_TYPE_PRECONFIG, NULL, NULL, 0);
    if (hSession != NULL)
    {
        HINTERNET hURL = InternetOpenUrl(/tech-cpp/hSession, Url, NULL, 0, INTERNET_FLAG_DONT_CACHE, 0/index.html);
        if (hURL != NULL)
        {
            char Temp[MAXBLOCKSIZE] = {0};
            ULONG Number = 1;

            FILE *stream;
            if( (stream = fopen( "E:\test.html", "wb" )) != NULL )
            {
                while (Number > 0)
                {
                    InternetReadFile(hURL, Temp, MAXBLOCKSIZE - 1, &Number);
                    fwrite(Temp, sizeof (char), Number , stream);
                }
                fclose( stream );
            }

            InternetCloseHandle(hURL);
            hURL = NULL;
        }

        InternetCloseHandle(hSession);
        hSession = NULL;
    }
}

第三种就是使用非封装过的Socket实现了

代码如下:

int main(int argc, char* argv[])
{
    SOCKET hsocket;
    SOCKADDR_IN saServer;
    WSADATA wsadata;
    LPHOSTENT lphostent;
    int nRet;
    char Dest[3000]; 
    char* host_name="blog.sina.com.cn";
    char* req="GET /s/blog_44acab2f01016gz3.html HTTP/1.1rn"
        "User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET4.0C; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)rn"
        "Host:blog.sina.com.cnrnrn";


    // 初始化套接字 
    if(WSAStartup(MAKEWORD(2,2),&wsadata))
        printf("初始化SOCKET出错!");
    lphostent=gethostbyname(host_name);  
    if(lphostent==NULL)  
        printf("lphostent为空!");  
    hsocket = socket(AF_INET,SOCK_STREAM,IPPROTO_TCP);  
    saServer.sin_family = AF_INET;  
    saServer.sin_port = htons(80);  
    saServer.sin_addr =*((LPIN_ADDR)*lphostent->h_addr_list);  
    // 利用SOCKET连接  
    nRet = connect(hsocket,(LPSOCKADDR)&saServer,sizeof(SOCKADDR_IN));  
    if(nRet == SOCKET_ERROR)  
    {
        printf("建立连接时出错!");  
        closesocket(hsocket);
        return 0;
    }
    // 利用SOCKET发送  

    nRet = send(hsocket,req,strlen(req),0);  
    if(nRet==SOCKET_ERROR)  
    {  
        printf("发送数据包时出错!");  
        closesocket(hsocket);  
    }  
    nRet=1;  
    while(nRet>0)  
    {  
        // 接收返回数据包  
        nRet=recv(hsocket,(LPSTR)Dest,sizeof(Dest),0);  
        if(nRet>0)
            Dest[nRet]=0;
        else  
            Dest[0]=0; 
        char sDest[3000] = {0};
        UTF8_2_GB2312(sDest,nRet,Dest,nRet);
        // 显示返回数据包的大小、内容 
        //printf("nReceived bytes:%dn",nRet);  
        printf("Result:n%s",sDest);  
    }
}

另外,以上我们获取网页的时候,获取到的可能是UTF8,似乎目前大多数网站都用的这种编码吧!下面是编码转换。

代码如下:

void UTF_8ToUnicode(wchar_t* pOut,char *pText)
{  
    char* uchar = (char *)pOut;
    uchar[1] = ((pText[0] & 0x0F) > 2) & 0x0F);
    uchar[0] = ((pText[1] & 0x03) = 0) 
        { 
            pOut[j++] = pText[i++];
        }
        else
        { 
            WCHAR Wtemp;
            UTF_8ToUnicode(&Wtemp,pText + i);
            UnicodeToGB2312(Ctemp,Wtemp);
            pOut[j] = Ctemp[0];
            pOut[j + 1] = Ctemp[1]; 
            i += 3;  
            j += 2; 
        }  
    }
    pOut[j] ='n';
    return;
}

这是是转换成GB2312的代码


    
 
 

您可能感兴趣的文章:

  • 如何发布自己的源码包,以及从别人的源码包中获取编译参数
  • C#获取网页源码的简单示例
  • 用C#获取硬盘序列号,CPU序列号,网卡MAC地址的源码
  • C#实现下载网页源码及获取http状态码的代码
  • Windows下获取Android 源码方法的详解
  • jsp源码实例2(获取表单参数)
  • 使用C#获取网页HTML源码的例子
  • jsp源码实例3(获取jsp各种参数)
  • C#实现获取枚举中元素个数的方法
  • 怎样在JAVA里实现获取指定服务器上所有可用数据库的列表??
  • PHP实现获取图片颜色值的方法
  • C#实现获取一年中是第几个星期的方法
  • 在linux系统上,如何用C++实现获取和设置系统时间?
  • 哪位编程高手知道如何编程实现获取进程的内存使用量信息(linux)
  • DevExpress实现根据行,列索引来获取RepositoryItem的方法
  • java 获取项目文件路径实现方法
  • 如何编程实现获取当前系统中占用的内存总数,空闲百分比
  • 想编写程序实现aix下prtonf的功能,即获取系统硬件配置,需要用到哪些函数?
  • Android手机获取root权限并实现关机重启功能的方法
  • 解决C#获取鼠标相对当前窗口坐标的实现方法
  • 从textarea中获取数据之后按原样显示实现代码
  • DevExpress实现TreeList向上递归获取符合条件的父节点
  • 在SQL中获取一个长字符串中某个字符串出现次数的实现方法
  • 实现在同一方法中获取当前方法中新赋值的session值解决方法
  • 如何通过C++编程实现获取Linux系统下的一些系统信息?
  • DevExpress GridControl实现根据RowIndex和VisibleColumnsIndex来获取单元格值
  • Jquery获取单选按钮中文本值的实现代码
  • DevExpress获取TreeList可视区域节点集合的实现方法
  •  
    本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
    本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • Python获取网页编码的方法及示例代码
  • linux不用命令方式读文件获取网络流量,如何使用C函数调用获取网络流量信息?
  • java Servlet获取和设置cookie实例代码
  • 关于获取在jsp上获取客户端时间的问题
  • Python通过正则表达式获取,去除(过滤)或者替换HTML标签的几种方法
  • 关于Ganglia中的gmond组件收集到的资源信息如何获取(如何获取telnet后返回的信息)
  • php获取访客ip地址原理及提供七段代码供参考
  • java获取系统路径字体、得到某个目录下的所有文件名、获取当前路径
  • 利用sender的Parent获取GridView中的当前行(获取gridview的值)
  • php获取本机ip地址 php获取远程IP地址
  • linux获取主机名后用gethostbyname() 不能获取主机ip
  • javascript 获取url参数的正则表达式(用来获取某个参数值)
  • 在gtk下,怎样获取系统时间??怎样获取当前的目录路径???
  • C++获取文件哈希值(hash)和获取torrent(bt种子)磁力链接哈希值
  • linux根据pid获取进程名和获取进程pid(c语言获取pid)
  • Shell获取系统时间问题
  • android 如何获取MCC/MNC控制小区广播的开启
  • 新手问题:Linux下如何获取进程占用的系统资源
  • c++如何获取当前进程名
  • 怎么通过snmp获取远程主机指定进程信息?
  • C#获取路径的多种方法


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3