• 抓虾网的架构


    抓虾网是一个提供RSS在线阅读服务的网站,由徐易客与谌振宇在2005年创办,我使用抓虾将近两个月的时间,后来由于抓虾不能抓取一些国外的RSS(Google Reader能抓取),同时RSS的更新速度也比较慢,同时UI/UE也比不上鲜果,甚至比不上有道阅读,因此后来放弃了抓虾。到现在为止一直使用Google Reader,当然Google Reader也有它的缺点,比如不能修改文件夹的名称,当然这个不是很重要,以后应该会改进的,其它方面还算都不错。

    抓虾现在后端服务主要用C++,前端用
    PHP(就是采用比较流行的LAMP组合,具体可以看这儿)和JavaScript,也用了Python来做一些多个模块结合的工作。

    下面这些引用自抓虾的官方博客上,他们自己开发了很多系统,不知道为什么没有用开源系统

    1. 存储:ZStorage,抓虾自己开发了分布式的存储系统,用来存储海量数据,抓虾的文章数已经接近了7亿篇,每天还在疯狂增长,数据量早就超过了 1 TB。感谢大牛工程师CL为我们带来稳定的存储系统。
    2. 抓取:ZSpider,400万博客、接近7亿篇文章背后,是抓虾强大的分布式Spider,融合几十种抓取策略,多种页面分析算法与内容抽取算法,无论是普通网页、RSS、 论坛页面甚至JS脚本,都可以应付自如。当然,这个spider也是由抓虾工程师用一行一行代码写出来的。
    3. 搜索:有了这么多数据,怎么找呢?ZIndex,三个工程师用一个月的时间,开发了抓虾的分布式、高效灵活的检索系统,性能可比主流搜索引擎,为抓虾用户提供TB 级海量数据的检索。
    4. 缓存:抓虾自己开发的分布式缓存 ZCache,命中率只能用一个字来形容——舒服。 这么精彩的作品,感谢大牛工程师dasheng。


    用什么技术不是最重要的,不管是你自己开发的也好,是用开源的系统也好(提前是要在高并发下不要出现什么大的问题),最终的目的是为用户带来有价值的服务,然后再在这个基础上考虑盈利模式。由于Google Reader目前没有盈利的压力,而且它的背后有着Google强大的团队的支撑,Google Reader会越来越好,而且用户转换RSS的成本很低(也就是简单的OPML导入及导出,非常简单的),因此抓虾如果再不把用户体验做好,用户可能会逐渐转换到Google Reader或鲜果,甚至有可能转换到有道阅读、QQ阅读空间、搜狐闪电阅读

  • 相关阅读:
    mac lsof使用查看端口
    mac 安装gevent报错
    vim命令学习
    linux批量关闭进程
    坐标点转换
    screen命令记录
    hashlib模块
    PyYAML和configparser模块讲解
    xml处理模块
    json、pickleshelve模块(超级好用~!)讲解
  • 原文地址:https://www.cnblogs.com/encounter/p/2188984.html
Copyright © 2020-2023  润新知