• 用C#编写一个抓网页的应用程序


    C#.NET提供的类来轻松创建一个抓取网页内容源代码的程序 。HTTPWWW进行数据访问最基本的协议之一,在.NET的基本类型库类中提供了两个对象类:HTTPWebRequestHTTPWebResponse,分别用来向某资源发送请求和获得响应。为了得到一个资源的内容,我们先指定一个想要抓取的URL地址,用HTTPWebRequest对象进行请求,用HTTPWebResponse对象接收响应的结果,最后用TextStream对象来提取我们想要的信息,并在控制台打印出来。 
    下面就是看看如何实现这样的功能:

    第一步:打开VS.NET,点文件”-“新建”-“项目,项目类型选择“Visual C#项目,模板选“Windows应用程序
    第二步:在Form1里加入Label1Button1,TextBox1,TextBox2四个控件,TextBox2Multiline属性改为True,
    第三步:在Form1窗体上点击右键,选查看代码,然后在最顶端输入: 

    using System.IO; 
    using System.Net; 
    using System.Text; 
    在 
    private void button1_Click(object sender, 
    System.EventArgs e) 



    的括号之间输入下面的代码: 

    byte[] buf = new byte[38192]; 
    HttpWebRequest request = (HttpWebRequest)
    WebRequest.Create(textBox1.Text); 
    HttpWebResponse response = (HttpWebResponse)
    request.GetResponse(); 
    Stream resStream = response.GetResponseStream(); 
    int count = resStream.Read(buf, 0, buf.Length); 
    textBox2.Text = Encoding.Default.GetString(buf, 0, 
    count); 
    resStream.Close(); 

    第四步:点“Save all”按钮,按“F5”运行应用程序,在请输入URL地址:后面的单行文本框里输入http://www.cnblogs.com/atun/archive/2011/05/22/2053847.htmlhttp://lucky.myrice.com/down.htm,点击得到 HTML 代码按钮,就可以看到该地址的代码了!

    下面,我们就对上面的程序做一个分析:

    上面的这个程序的功能是抓取网页http://lucky.myrice.com/down.htm的内容,并在多行文本框里显示出HTML代码,由于返回的数据是字节类型的,因此,我们创建一个名为buf的字节类型的数组变量来存储请求返回来的结果,其中数组的大小与我们要请求返回的数据大小有关系。首先,我们实例化HttpWebRequest对象,使用WebRequest类的静态方法Create(),该方法的字符串参数就是我们要请求页面的URL地址,由于Create()方法返回的是WebRequest类型的,我们必须对它进行造型(即类型转换)成HttpWebRequest类型,再赋给request变量。一旦我们建立了HttpWebRequest对象,就可以使用它的GetResponse()方法来返回一个WebResponse对象,然后再造型成HttpWebResponse对象赋给response变量。现在,就可以使用response对象的
    GetResponseStream()方法来得到响应的文本流了,最后用Stream对象的Read()方法把返回的响应信息放到我们最初创建的字节数组buf中,Read()3个参数,分别是:要放入的字节数组,字节数组的开始位置,字节数组的长度。最后把字节转换成字符串,注意:这里采用的采用的是Default编码,它使用默认的编码方式,我们就不用再进行字符编码之间的转换了。也可以利用WebRequestWebResponse实现以上的功能,代码如下: 

    WebRequest request = WebRequest.Create(textBox1.Text); 
    WebResponse response =request.GetResponse(); 

    输入其它的URL看看是不是很方便! 

  • 相关阅读:
    第四次作业——个人作业——软件案例分析
    作业五——团队项目——需求规格说明书
    团队项目——团队展示
    作业三——结对编程
    作业二——结对项目之需求分析与原型模型设计
    leetcode 212 单词搜索II
    leetcode 130. 被围绕的区域
    leetcode 695 Max Area of Island 岛的最大面积
    【《算法》学习笔记】一:
    leetcode 191 位1的个数
  • 原文地址:https://www.cnblogs.com/atun/p/2053847.html
Copyright © 2020-2023  润新知