上一篇博客写了怎么发请求和获取到数据,接下来就是该怎么处理数据了,打开一个网站之后,它会返回很多数据,数据很多,有很多都是咱们不需要的,咱们写爬虫的话只获取到对咱们自己有用的数据,就要从返回的数据里面找到咱们需要的数据,然后保存起来。那怎么筛选到咱们需要的数据呢,就得用正则表达式了,正则表达就是写各种规则来匹配咱们想要的数据。
正则表达式的基本用法可以看我这个博客,http://www.nnzhp.cn/archives/411,咱们这篇博客就写一些正则的实例,从一个网站里面匹配到咱们想要的数据。
http://music.163.com/#/discover/toplist?id=3779629 这个网站是网易云音乐的新歌榜,咱们就写个正则来匹配,把新歌排行榜里面的这100首歌曲的名字和歌手的名字匹配到。
待续。。