python + Jquery，抓取西东网上的Java教程资源网址

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Date    : 2018-06-15 14:01:45
# @Author  : Chenjun (320316430@qq.com;)
# @Link    : http://example.org
# @Version : $Id$

from pyquery import PyQuery as pq

URL = 'http://xidong.net/File001/File_25266.html'def get_resource_lis(URL):
    doc = pq(url=URL, encoding='utf-8')  #响应头部没有声明编码类型，需要手动说明，否则抓到的数据会中文乱码
    datas = doc('tr')   #通过网页检查发现资源放在表格的tr中
    resource_lis = datas.items() 
    return resource_lis


def main():
    resource_lis = get_resource_lis(URL)
    for source in resource_lis:
        print(source.find('a').attr('href'))  #取到每个tr中的a标签的href属性值，也就是我需要的地址


if __name__ == '__main__':
    main()

#后续可以存储到非关系型数据库中

相关阅读:
Wannafly挑战赛13 C:zzf的好矩阵(思维)
Wannafly挑战赛13 B:Jxc军训(逆元)
TZOJ 1221 Tempter of the Bone(回溯+剪枝)
AtCoder Regular Contest 092 C
TZOJ 3030 Courses(二分图匹配)
TOJ 2778 数据结构练习题――分油问题(广搜和哈希)
PAT L3-001 凑零钱(01背包dp记录路径)
[HNOI2009]通往城堡之路
[HNOI2006]潘多拉的宝盒
[bzoj4361]isn

原文地址：https://www.cnblogs.com/tarantino/p/9188728.html