python src批量爬取

import requests, time
from lxml import etree

def src_tiqu(yeshu):
    for i in range(1,int(yeshu)+1):
        try:
            url = 'https://src.sjtu.edu.cn/list/?i=' + str(i)
            print('提取->',str(i)+'页数')
            data = requests.get(url).content
            # print(data)
            soup = etree.HTML(data.decode('utf-8'))
            result = soup.xpath('//td[@class=""]/a/text()')
            # print(result)

            results = '
'.join(result)
            resultss = results.split()  #去空
            print(resultss)
            for edu in resultss:
                with open(r'src.txt', 'a+', encoding='utf-8') as f:
                    f.write(edu + '
')
                    f.close()
        except Exception as e:
            time.sleep(0.5)
            pass


if __name__ == '__main__':
    yeshu = input("提取多少页:")
    src_tiqu(yeshu)

相关阅读:
在emacs上使用博客园的代码功能
Programming Pearls笔记之一
Virtualbox中Archlinux联网问题
微信公众平台消息接口开发集成解决方案
发送短信
基于JMS的数据交换既数据互操作平台的解决方案
Spring MVC基于注解的Junit测试
获取设置一个字节某一个位的数值
NotificationManager
调用系统联系人列表

原文地址：https://www.cnblogs.com/bingtang123/p/15136862.html