• python-淘宝信息定向爬取


    S是类似产品页数  bcoffset直流偏移。

    有人在将偏移量:http://www.cnblogs.com/defineconst/p/6185396.html

    item.taobao.com/item.htm?参数。常见参数如下
    &spm  流量来源
    &id 淘宝id
    &ali_trackid 阿里妈妈id
    &ali_refid

    --------官方解析文档-----------

    淘宝开放平台 - 文档中心
    http://open.taobao.com/docs/doc.htm?articleId=959&docType=1&treeId=null

    -----for instance----

    SPM编码:用来跟踪页面模块位置的编码,标准spm编码由4段组成,采用a.b.c.d的格式(建议全部使用数字),其中,

    • a代表站点类型,对于xTao合作伙伴(外站),a为固定值,a=2014
    • b代表外站ID(即外站所使用的TOP appkey),比如您的站点使用的TOP appkey=123456789,则b=123456789
    • c代表b站点上的频道ID,比如是外站某个团购频道,某个逛街频道,某个试用频道 等
    • d代表c频道上的页面ID,比如是某个团购详情页,某个宝贝详情页,某个试用详情页 等

    -淘宝课程不错哎╮( ̄▽ ̄")╭---

    开放平台学院
    http://xue.open.taobao.com/video/list.htm?spm=a219a.8199539.2232181.2.nD4HG7

    -------------------------------

     改日再测,,,网速渣。。。

    原文:淘宝网有哪些鲜为人知的使用技巧
    http://www.zhifuwang.cn/news/zhaoshangzhengce/79293.html

    操作链接:
    http://www.alimama.com/index.htm?spm=a2320.7874452.a31ci.1.LD83zb

    扫码登录账号-》营销平台-》 淘宝客

    -------------------------------------------------------

    目标软件:

    网络信息采集大师
    http://www.onlinedown.net/soft/39355.htm

    NetGet
    http://www.jb51.net/softs/237543.html

    -----------------------------------

    Q:

    1去掉一些无用的参数不会影响最终到达的网页

    --------------

    2.

    通过对象属性不明觉厉

    >>> class website:
    def __init__(self,name,type):
    self.name,self.type = name,type
    def __str__(self):
    return 'Website name: {self.name}, Website type: {self.type} '.format(self=self)
    >>> print (str(website('pythontab', 'python')))
    Website name: pythontab.com, Website type: python
    >>> print website('pythontab', 'python')
    Website name: pythontab, Website type: python

     全文参考python强大的字符串格式化函数 (为什么要折一下啊,为什么呢,不然不给通过啊)

    http://www.pytho

    ntab.com/html/2016/pythonjichu_0722/1049.html

    PyFormat: Using % and .format() for great good!
    https://pyformat.info/

    -----------------re--

    Python3 正则表达式 | 菜鸟教程:
    http://www.runoob.com/python3/python3-reg-expressions.html

    pythonsplit 切片规则:

    http://www.runoob.com/python/att-string-split.html

    实例

    以下实例展示了split()函数的使用方法:

    #!/usr/bin/python
    
    str = "Line1-abcdef 
    Line2-abc 
    Line4-abcd";
    print str.split( );
    print str.split(' ', 1 );

    以上实例输出结果如下:

    ['Line1-abcdef', 'Line2-abc', 'Line4-abcd']
    ['Line1-abcdef', '
    Line2-abc 
    Line4-abcd']




    ----找错版------------

    # -*- coding: utf-8 -*-
    """
    Created on Mon Apr 3 23:51:17 2017

    @author: Administrator
    """

    import requests
    import re

    def getHtmlText(url):
    try:
    r = requests.get(url, timeout = 30)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    return r.text
    except:
    return ""

    def parseHtml(html):
    plt = re.findall(r'"view_price":"[d.]*"'.split(':')[1])
    tlt = re.findall(r'"raw_title":".*?"'.split(':')[1])
    for i in len(plt):
    ulist.append([plt[i],tlt[i]])

    def printHtml(html,list):
    flt = "{:10} {:10} {:10}"
    count = 0
    for g in list:
    count = count +1
    print(flt.format("序号","价格","商品名称"))
    print(count,ulist.plt[i],ulist.tlt[i])

    def main():
    goods="商品"
    depth = 2
    start_url = "http://s.taobao.com/search?q="+ goods
    ulist = []
    r = getHtmlText(url)
    for i in depth:
    url = start_url + '&s=' + str( 44 * i)
    parseHtml(url)
    printHtml(html,ulist)

    main()

    -------最后一遍显然还是有毛病----1.渣速只有晚上跑得动 2.明明是书包,却跑出了屎3.以后再解决吧,毕竟无能为力--------

    # -*- coding: utf-8 -*-
    """
    Created on Tue Apr 4 00:35:49 2017

    @author: Administrator
    """

    import re
    import requests

    def getHtml(url):
    try:
    r = requests.get(url, timeout = 30)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    return r.text
    except:
    return ""

    def parseHtml(uinfolist,html):
    try:
    plt = re.findall(r'"view_price":"[d.]*"',html)
    tlt = re.findall(r'"raw_title":".*?"',html)
    for i in range(len(plt)):
    price = eval(plt[i].split(':')[1])
    title = eval(tlt[i].split(':')[1])
    uinfolist.append([price,title])
    except:
    print("")


    def printHtml(uinfolist):
    ptlt = '{:10} {:10} {:15}'
    print(ptlt.format("序号","价格","商品名称"))
    count = 0
    for g in uinfolist:
    count = count + 1
    print(ptlt.format(count,g[0],g[1]))

    def main():
    print('----------------------')
    goods = '书包'
    start_url = "http://s.taobao.com/search?="+goods
    depth = 2
    ulist = []
    for g in range(depth):
    try:
    url = start_url + '&q=' + str (44 * g)
    m = getHtml(url)
    parseHtml(ulist,m)
    except:
    continue
    printHtml(ulist)

    main()
    -----

    ----------------------
    序号 价格 商品名称
    1 99.00 【订金】斯柯达 Yeti 2016款 2年0利率 整车订金
    2 99.00 【订金】斯柯达 全新晶锐车享定制版 2年0利率 整车订金
    3 39.00 德国美耐特®游标卡尺0-150mm-200mm-300mm卡尺高精度非不锈钢包邮
    4 27.65 春秋新男女宝宝鞋婴儿软底防滑学步鞋休闲鞋0-1岁运动鞋幼儿鞋子
    5 16.80 正品秒杀塑料电子数显0-100150mm迷你小卡尺文玩珠宝测量游标卡尺
    6 98.00 广陆量具0-150mm电子数显卡尺 原点不锈钢游标卡尺高精度测量工具
    7 38.00 春季男女宝宝鞋子0-1岁学步鞋软底婴儿鞋新生幼儿单鞋真皮羊皮
    8 55.00 锦丰五金 电子数显卡尺 游标卡尺不锈钢0-150-200-300mm
    9 28.00 0-6-12个月春秋婴儿鞋子新生幼儿不掉鞋男女宝宝鞋袜软底学步鞋
    10 29.90 宝宝学步鞋春夏季婴儿鞋子软底防滑男童女童0-1岁步前鞋幼儿布鞋
    11 49.00 婴儿鞋子0-6-12个月男女宝宝学步鞋春秋1-3岁新生儿软底步前布鞋
    12 42.00 0-6-12个月3学步鞋7女宝宝1岁5春秋冬9婴儿鞋子8软底春鞋春季棉鞋
    13 69.50 卡茨格儿学步鞋女宝宝 凉鞋男婴儿凉鞋包头0-1-2岁软底防滑幼儿鞋
    14 89.00 泰兰尼斯婴儿学步鞋软底宝宝叫叫鞋卡通幼儿不掉鞋子0-1-3岁春秋
    15 68.00 卡特兔母婴旗舰店婴儿鞋子0-6个月软底防滑新生儿男女宝宝学前鞋
    16 27.00 婴儿步前鞋春秋新款宝宝室内地板鞋0-2家居婴儿鞋防滑软底学步鞋
    17 36.00 宝宝鞋子1-3岁鞋男软底婴儿鞋布鞋春秋学步鞋2岁女宝宝0-1叫叫鞋
    18 22.00 运动款0-12个月婴儿鞋软底宝宝学步鞋格子0-1岁男女婴幼鞋子
    19 19.90 2017学步鞋幼儿软底女宝宝鞋0-1-3岁男童鞋单鞋网面鞋子2婴儿春款
    20 59.00 2016秋季新款宝宝学步鞋女0-6岁软底小白鞋时尚韩版男童婴儿单鞋
    21 45.00 2017春0-1岁真皮婴儿单鞋学步鞋 2岁女宝宝幼儿公主单鞋软底鞋子
    22 19.90 婴儿鞋子0-1-2岁女宝宝单鞋2017春季新款软底学步鞋女童公主皮鞋
    23 39.00 春秋款女宝宝防滑公主鞋0-3岁婴儿软底学步鞋幼儿礼服鞋儿童单鞋
    24 39.50 天天特价春季宝宝鞋学步鞋婴儿鞋软底0-1岁3小白鞋男女童运动单鞋
    25 28.80 春秋冬季女宝宝学步布鞋单鞋0-1周岁男婴儿春鞋6软底小鞋子12个月
    26 28.80 3四45-6七7八8九9-12个月男婴儿春秋装鞋子0-1岁女宝宝软底不掉鞋
    27 29.00 婴儿秋冬季纯手工毛线宝宝软底鞋加绒加厚前步前鞋0-3-6-9-12个月
    28 21.77 0-6-12个月学步鞋春秋新生幼儿男女1岁宝宝鞋袜单鞋婴儿鞋子软底
    29 39.80 叮当小猪2017春季新款童鞋真皮儿童单鞋0-1-2-3岁男女宝宝学步鞋
    30 57.82 0-1岁半女婴儿鞋子软底防掉学步鞋男宝宝9春秋款透气7九8十个月11
    31 26.90 婴儿鞋子软底 学步鞋0-1岁宝宝鞋子男女宝春秋透气防脱布鞋薄
    32 29.90 0-1岁新生婴幼儿软底鞋 男女宝宝魔术贴时尚运动学步鞋
    33 149.00 玛乔宝宝机能鞋男童软底防滑婴儿学步鞋女童凉鞋0-1-3岁1612
    34 27.09 皮鞋小童单鞋软底鞋女童学步女宝婴幼鞋子公主春季0-1-2-3岁儿
    35 45.00 2017春款宝宝鞋真皮学步鞋0-1-2-3岁男女婴儿鞋子软底单鞋儿童鞋
    36 91.00 0-1-2-3岁小女孩鞋单鞋春秋季 一周岁半女宝宝软底公主皮鞋学步鞋
    37 4.00 stc89c52rc 40i lqfp lqfp44 89c52 lqfp44g
    38 19.98 乐呵呵红米note2电池1S正品2A手机note小米2S原装BM20 44 42 45
    39 239.00 【天猫超市】日本进口 花王妙而舒纸尿裤XL44片2包装通用型尿不湿
    40 28.00 山地自行车44mm直管培林碗组44/56 42/52 椎管50.6小锥管轴承碗组
    41 50.00 多省包邮大号麻将牌 中大号40 42 44家用麻将 手搓麻将 四川麻将
    42 25.00 MEROCA 超轻轴承 培林碗组 山地自行车车头 44mm内置 直管碗组
    43 99.80 家用特一级中大号高档手搓麻将牌送麻将布 无瑕疵38 40 42 44MM
    44 84.98 正品38--44MM晶玉 玉石色耐磨中号大号家用手搓麻将牌送麻将桌布
    45 89.00 正品38-44MM卡通竹丝双层大号加厚家用手搓麻将牌 送麻将桌布
    46 35.00 华硕X44H K42D X43S A43S X42J X84H A42JC K42J笔记本键盘A83S
    47 2.40 贴片 全新原装 STC89C52RC-40I-LQFP44 串口编程(程序下载)单片机
    48 40.00 多省包邮大号麻将牌 中大号40 42 44家用麻将 手搓麻将 四川麻将
    49 105.00 彩色玉石麻将40中 42大号 44高档家用麻将牌 手搓麻将 无瑕疵包邮
    50 68.20 棋牌室全自动四口机专用40麻将机麻将牌中号42正磁38mm44大号4648
    51 69.30 捷安特ATX770 777 XTC800 820小锥管转换直管44-50.6mm双培林碗组
    52 40.00 景晔44mm直管内置隐藏式双培林轴承碗组山地车自行车腕组28.6前叉
    53 16.00 shimano浩盟中空牙盘修补盘片22T 32T 44T牙盘修补齿片 盘片
    54 95.00 包邮全自动四口麻将机专用机用麻将牌正磁正品40mm42mm44大号46mm
    55 10.90 护盘 牙盘罩山地公路自行车万能大齿盘保护罩42/44齿链罩牙盘护罩
    56 6.40 Risym STC12C5A60S2-35I-LQFP44G 12C5A60S2 单片机
    57 125.00 全国包邮 送桌布筹码 特一级家用中大号手打麻将38-44MM正品麻将
    58 3.80 Risym STC89C52 STC89C52RC-40I-LQFP44G 单片机LQFP44 工业级
    59 19.80 死飞牙盘死飞自行车单车44T铁牙盘齿盘700C死飞轮盘含左右曲柄
    60 60.00 四口机专用机用自动麻将牌正磁一级40mm42mm一级品46大号麻将44号
    61 55.00 ATX770d培林XTC碗组750轴承44-50.6锥管758转777直管790腕组44-56
    62 8.00 步进电机驱动板 A3967 EasyDriver Stepper Motor Driver V44
    63 38.00 包邮 一级家用麻将牌 特大号手搓108张四川麻将 40 42 44中号
    64 11.20 ATMEGA32U4-AU QFP44 全新原装担保 进口现货 单片机 可直接拍下
    65 93.50 SHIMANO喜玛诺ACERA FC-M391牙盘 9速27速山地车方孔M390牙盘 44T
    66 18.80 死飞牙盘死飞自行车单车44T铁牙盘齿盘700C死飞轮盘含左右曲柄
    67 89.00 家用手搓仿玉石40 42 44MM彩色高档麻将牌 中号 大号麻将送桌布垫
    68 65.00 全自动四口麻将机专用麻将牌 家用麻将牌中号 40 42mm44 46可手搓
    69 3.78 单片机 AT89S52-24AU AT89S52 TQFP44 原装正品现货
    70 80.00 原装V3正品 TL866A TL866CS通用编程器专用TSOP48-SOP44适配器座
    71 8988.00 E5 2696V4正式版 22/44 2.2G满载2.8G
    72 40.00 17款SWTXO直管44mm内置隐藏式培林轴承碗组死飞碗组山地自行车
    >>>

     
    沙耶加是最棒的也是最强的,今天换我来拯救世界!
  • 相关阅读:
    3.14周末作业
    3.13作业
    文件处理
    字符编码
    基本数据类型总结
    基本数据类型--------------------集合set()
    python入门009
    作业009
    python入门008
    作业008
  • 原文地址:https://www.cnblogs.com/wanghui626/p/6661832.html
Copyright © 2020-2023  润新知