一个简单的python网页解析+本地文件名修改的小程序

一个简单的python网页解析+本地文件名修改的小程序
昨天在码农周刊上看到有整理的机器学习相关的经典论文集合，链接在这里http://suanfazu.com/discussion/68/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%BB%8F%E5%85%B8%E8%AE%BA%E6%96%87survey%E5%90%88%E9%9B%86?utm_campaign=Manong_Weekly_Issue_11&utm_medium=EDM&utm_source=Manong_Weekly。页面上每篇论文点进去就是下载的链接。作为一个松鼠显然想把它们都下载了收藏起来，但是手动下载还分类整理太麻烦了，于是就写了个python的小程序，自动下载这些pdf并按类别保存在不同的文件夹里。

主要用了beautifulsoup，因为页面元素非常规律因此写起来很省事，大体如下：

因为网页里的类别（比如Active Learning，Biology，Classification)这种大黑标题都用了标签，之后与并列的下一个标签是一个空白 ,再之后就是罗列了论文标题的列表<ul>了，<ul>里包含若干论文<li>，<li>里有<a href>下载链接，以及text论文名称。
```
Application
 
<ul>
 <li>
 <a href .....>paer title</a>
 </li>
</ul>
```
大概就是上面这样的结构，所以只要找到所有的标签（也就是类别名），利用类别名建立文件夹，然后用next_sibling找到这个类别的文章列表，用<a>标签的href属性找到每篇文章的下载链接，text找到标题名，再用urllib.urlretrieve下载就好，代码如下：
```
#!-*-coding:utf-8-*

import urllib
import urllib2
import bs4
import os

saveurl = "/home/yujing/dev/papers/";

def downloadFunc( b,alist):
 os.chdir(saveurl)
 folder = b.text
 if not os.path.exists(folder):
 os.mkdir(folder)
 os.chdir(folder)

 for a in alist:
 pdfurl = a['href']
 pdfname = a.text
 if not os.path.exists(pdfname):
 urllib.urlretrieve(pdfurl,pdfname)

def process():
 headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

 siteurl = "http://suanfazu.com/discussion/68/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%BB%8F%E5%85%B8%E8%AE%BA%E6%96%87survey%E5%90%88%E9%9B%86?utm_campaign=Manong_Weekly_Issue_11&utm_medium=EDM&utm_source=Manong_Weekly"

 req=urllib2.Request(siteurl,headers=headers)
 response = urllib2.urlopen(req)
 pages = response.read()
 page = bs4.BeautifulSoup(pages)

 blist = page.find_all('b')

 for b in blist:
 print(b.text)
 ul = b.next_sibling.next_sibling;
 alist = ul.find_all('a')
 downloadFunc(b,alist)
```
这样有个问题，因为论文的标题里有些：、<>这种符号，在linux下可以，但是windows的文件名是不可以包括这些字符的，于是又需要批量改下文件名。。。然后正好又学习了下相关的os模块的函数，把用到的简单列在下面：
```
#切换工作目录
os.chdir(url)

#列出指定路径下的目录和文件
os.listdir(url)

#获取当前目录
os.getcwd()

#回上一级目录
os.chdir(os.pardir)

#修改文件名
shutil.move(路径+原文件名,路径+新文件名)

#判断目录或文件是否存在
os.path.exists(folder)

#建立新目录
os.mkdir(folder)
```
再收藏下其他一些方法 From: http://hi.baidu.com/wubotao/item/e7b68f952f326dbdcc80e54d

os.listdir(dirname)：列出dirname下的目录和文件
os.getcwd()：获得当前工作目录
os.curdir:返回当前目录（'.')
os.chdir(dirname):改变工作目录到dirname

os.path.isdir(name):判断name是不是一个目录，name不是目录就返回false
os.path.isfile(name):判断name是不是一个文件，不存在name也返回false
os.path.exists(name):判断是否存在文件或目录name
os.path.getsize(name):获得文件大小，如果name是目录返回0L

os.path.abspath(name):获得绝对路径
os.path.normpath(path):规范path字符串形式
os.path.split(name):分割文件名与目录（事实上，如果你完全使用目录，它也会将最后一个目录作为文件名而分离，同时它不会判断文件或目录是否存在）
os.path.splitext():分离文件名与扩展名
os.path.join(path,name):连接目录与文件名或目录
os.path.basename(path):返回文件名
os.path.dirname(path):返回文件路径
os.remove(dir) #dir为要删除的文件夹或者文件路径
os.rmdir(path) #path要删除的目录的路径。需要说明的是，使用os.rmdir删除的目录必须为空目录，否则函数出错。
相关阅读:
Firefox OS 开发者预览版手机上线数小时即售罄
 7 款风格新颖的 jQuery/CSS3 导航
 大数据时代的 9 大KeyValue存储数据库
 jQuery 2.0发布，不支持IE 6/7/8
全面理解面向对象的 JavaScript
Hdoop入门
 Java Web 高性能开发，第 2 部分: 前端的高性能
 MySQL数据库存储引擎和分支现状
 11 个超棒的 jQuery 分步指引插件
 [扩展/新建swap]将文件或分区加载为swap
原文地址：https://www.cnblogs.com/parapax/p/3459481.html