• 用golang写爬虫


    我是在windows系统上安装的go,使用goland编辑。

    Hello world:

    package main
    
    import "fmt"
    
    func main() {
    	fmt.Println("Hello, world")
    }

    ctrl+alt+f10运行


    下载网页

    这里先从Golang原生http库开始,直接使用 net/http 包内的函数请求

    import "net/http"
    ...
    resp, err := http.Get("http://wwww.baidu.com")
    

    所以代码可以这样写

    package main
    
    import (
    	"fmt"
    	"io/ioutil"
    	"net/http"
    )
    
    func main() {
    	fmt.Println("Hello, world")
    	resp, err := http.Get("http://www.baidu.com/")
    	if err != nil {
    		fmt.Println("http get error", err)
    		return
    	}
    	body, err := ioutil.ReadAll(resp.Body)
    	if err != nil {
    		fmt.Println("read error", err)
    		return
    	}
    	fmt.Println(string(body))
    }

    Golang的错误处理就是这样的,习惯就好。

    这里更好的做法是把下载方法封装为函数。

    package main
    
    import (
    	"fmt"
    	"io/ioutil"
    	"net/http"
    )
    
    func main() {
    	fmt.Println("Hello, world")
    	url := "http://www.baidu.com/"
    	download(url)
    }
    
    func download(urlstring) {
    	client := &http.Client{}
    	req, _ := http.NewRequest("GET", url, nil)
    	// 自定义Header
    	req.Header.Set("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)")
    
    	resp, err := client.Do(req)
    	if err != nil {
    		fmt.Println("http get error", err)
    		return
    	}
    	//函数结束后关闭相关链接
    	defer resp.Body.Close()
    
    	body, err := ioutil.ReadAll(resp.Body)
    	if err != nil {
    		fmt.Println("read error", err)
    		return
    	}
    	fmt.Println(string(body))
    }


    解析网页

    go常见的解析器xpath、 jquery 、正则都有,直接搜索即可,我这里偷懒,直接用别人写好的轮子 collectlinks ,可以提取网页中所有的链接,下载方法 go get -u github.com/jackdanger/collectlinks

    package main
    
    import (
    	"fmt"
    	"github.com/jackdanger/collectlinks"
    	"net/http"
    )
    
    func main() {
    	fmt.Println("Hello, world")
    	url := "http://www.baidu.com/"
    	download(url)
    }
    
    func download(urlstring) {
    	client := &http.Client{}
    	req, _ := http.NewRequest("GET", url, nil)
    	// 自定义Header
    	req.Header.Set("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)")
    
    	resp, err := client.Do(req)
    	if err != nil {
    		fmt.Println("http get error", err)
    		return
    	}
    	//函数结束后关闭相关链接
    	defer resp.Body.Close()
    
    	links := collectlinks.All(resp.Body)
    	for _, link := range links {
    		fmt.Println("parse url", link)
    	}
    }



    并发

    Golang使用关键字 go 即可开启一个新的 go 程,也叫 goroutine ,使用 go 语句开启一个新的 goroutine 之后,go 语句之后的函数调用将在新的 goroutine 中执行,而不会阻塞当前的程序执行。所以使用Golang可以很容易写成异步IO。

    package main
    
    import (
    	"fmt"
    	"github.com/jackdanger/collectlinks"
    	"net/http"
    )
    
    func main() {
    	fmt.Println("Hello, world")
    	url := "http://www.baidu.com/"
    
    	queue := make(chan string)
    	go func() {
    		queue <- url
    	}()
    	for uri := range queue {
    		download(uri, queue)
    	}
    }
    
    func download(urlstring, queuechan string) {
    	client := &http.Client{}
    	req, _ := http.NewRequest("GET", url, nil)
    	// 自定义Header
    	req.Header.Set("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)")
    
    	resp, err := client.Do(req)
    	if err != nil {
    		fmt.Println("http get error", err)
    		return
    	}
    	//函数结束后关闭相关链接
    	defer resp.Body.Close()
    
    	links := collectlinks.All(resp.Body)
    	for _, link := range links {
    		fmt.Println("parse url", link)
    		go func() {
    			queue <- link
    		}()
    	}
    }
     

    现在的流程是main有一个for循环读取来自名为queue的通道,download下载网页和链接解析,将发现的链接放入main使用的同一队列中,并再开启一个新的goroutine去抓取形成无限循环。

    这里对于新手来说真的不好理解,涉及到Golang的两个比较重要的东西:goroutine和channels,这个我也不大懂,这里也不多讲了,以后有机会细说。

    官方:A goroutine is a lightweight thread managed by the Go runtime.翻译过来就是:Goroutine是由Go运行时管理的轻量级线程。channels是连接并发goroutine的管道,可以理解为goroutine通信的管道。 可以将值从一个goroutine发送到通道,并将这些值接收到另一个goroutine中。对这部分有兴趣的可以去看文档。

    好了,到这里爬虫基本上已经完成了,但是还有两个问题:去重、链接是否有效。

     

    链接转为绝对路径

     
    package main
    
    import (
    	"fmt"
    	"github.com/jackdanger/collectlinks"
    	"net/http"
    	"net/url"
    )
    
    func main() {
    	fmt.Println("Hello, world")
    	url := "http://www.baidu.com/"
    
    	queue := make(chan string)
    	go func() {
    		queue <- url
    	}()
    	for uri := range queue {
    		download(uri, queue)
    	}
    }
    
    func download(urlstring, queuechan string) {
    	client := &http.Client{}
    	req, _ := http.NewRequest("GET", url, nil)
    	// 自定义Header
    	req.Header.Set("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)")
    
    	resp, err := client.Do(req)
    	if err != nil {
    		fmt.Println("http get error", err)
    		return
    	}
    	//函数结束后关闭相关链接
    	defer resp.Body.Close()
    
    	links := collectlinks.All(resp.Body)
    	for _, link := range links {
    		absolute := urlJoin(link, url)
    		if url != " " {
    			fmt.Println("parse url", absolute)
    			go func() {
    				queue <- absolute
    			}()
    		}
    	}
    }
    
    func urlJoin(href, basestring)string {
    	uri, err := url.Parse(href)
    	if err != nil {
    		return " "
    	}
    	baseUrl, err := url.Parse(base)
    	if err != nil {
    		return " "
    	}
    	return baseUrl.ResolveReference(uri).String()
    }

    这里新写了一个 urlJoin 函数,功能和 Python 中的 urllib.parse.urljoin 一样。

     

    去重

     

    我们维护一个map用来记录,那些是已经访问过的。

    package main
    
    import (
    	"fmt"
    	"github.com/jackdanger/collectlinks"
    	"net/http"
    	"net/url"
    )
    
    var visited = make(map[string]bool)
    
    func main() {
    	fmt.Println("Hello, world")
    	url := "http://www.baidu.com/"
    
    	queue := make(chan string)
    	go func() {
    		queue <- url
    	}()
    	for uri := range queue {
    		download(uri, queue)
    	}
    }
    
    func download(urlstring, queuechan string) {
    	visited[url] = true
    	client := &http.Client{}
    	req, _ := http.NewRequest("GET", url, nil)
    	// 自定义Header
    	req.Header.Set("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)")
    
    	resp, err := client.Do(req)
    	if err != nil {
    		fmt.Println("http get error", err)
    		return
    	}
    	//函数结束后关闭相关链接
    	defer resp.Body.Close()
    
    	links := collectlinks.All(resp.Body)
    	for _, link := range links {
    		absolute := urlJoin(link, url)
    		if url != " " {
    			if !visited[absolute] {
    				fmt.Println("parse url", absolute)
    				go func() {
    					queue <- absolute
    				}()
    			}
    		}
    	}
    }
    
    func urlJoin(href, basestring)string {
    	uri, err := url.Parse(href)
    	if err != nil {
    		return " "
    	}
    	baseUrl, err := url.Parse(base)
    	if err != nil {
    		return " "
    	}
    	return baseUrl.ResolveReference(uri).String()
    }

    好了大功告成,运行程序,会像一张网铺开一直不停的抓下去。

     
  • 相关阅读:
    从头带你撸一个Springboot Starter
    Spring Cache 带你飞(二)
    2021年终总结
    数据中台(介绍篇)
    NetCore实现全局模型绑定异常信息统一处理
    [源码解析] PyTorch 分布式之弹性训练(2)启动&单节点流程
    [源码解析] PyTorch 分布式(18) 使用 RPC 的分布式管道并行
    [源码解析] PyTorch 分布式之弹性训练(1) 总体思路
    [源码解析] PyTorch 分布式之弹性训练(3)代理
    [源码解析] PyTorch 分布式之弹性训练(5)Rendezvous 引擎
  • 原文地址:https://www.cnblogs.com/peteremperor/p/12120422.html
Copyright © 2020-2023  润新知