• 今日架构


    1 0-对db单独写一个类,却对proxy不单独设类,不公平!
    2 1-情景
    3     python-scrapy-proxy+ADSL
    4     grab-AMZglobalSite:reviews,ranking,.......
    5     当前代码结构:dbTool.py metaSpider.py  reviewsSider.py,rankingSider.py,......
    6         在metaSpider.py类中实现dbTool.py类(从db获取下一个grab-url),def proxy1(),def proxy2()(多个处理代理的方法),在“一线实现具体采集业务”的xyzSider.py中实现metaSpider.py类
    7 2-tmpSolution
    8     "是啊,我也想把proxy搞出去啊,可是目前写不出来啊"
     1 0-这个字段加不加?
     2 1-情景
     3     AMZglobalSite商品详情页-grab评分与当前总评分/4分比较得出差评,将采集软件切换到python,进入url是通过站点(uk,fr)+asin,php分析采集数据,给email至运营订阅者。
     4     
     5     在用采集软件的同学处理是未发现一个现象“如phone case 商品页的商品主体区域的右上角,不同颜色的商品可能是不同的asin,此外有size属性的商品不同size的asin可能也是不同的,而评论区的reviews是这些商品reviews的集合,而不仅仅是page-url中的asin”
     6     上述现象进一步导致给运营订阅者的email中的“差评用户id-订单id-asin”三者不匹配
     7     
     8     python同学将单个page-url中的每一条reviews的asin均存入数据库,新加‘new-asin’字段。
     9     因为‘new-asin’才是和每一条reviews准确对应的‘asin’,导致php同学将要修改grab-data的分析脚本和发送email相关的脚本。
    10     
    11 2-tmpSolution
    12 
    13     db不新加字段,php代码不修改:在python 写入数据库的入口过滤掉reviews-asin与pagre-url-asin不同的数据,不入库,以此来保证入库数据的准确性和避免oldClode的修改。
  • 相关阅读:
    2021/6/28
    2021/6/25
    IDEA快捷键
    maven的一些问题
    Maven安装
    2021/6/14
    nmcli 网络管理工具
    linux yum仓库配置
    linux 防火墙selinux ,firewalld, iptables
    linux root密码重置
  • 原文地址:https://www.cnblogs.com/rsapaper/p/6284930.html
Copyright © 2020-2023  润新知