• Fast Search:爬网测试 金大昊(jindahao)


    今天对fastsearch爬业务公开数据做了详细的记录,由于sharepoint默认支持100万条爬网数据量,所以只爬了100万条(如果需要爬更多的数据可设置)。以下是记录的爬网数据:

    用时(hh:mm)爬网数量(条)硬盘剩余(G)内存(G) cup占用(%)

    --------------------------------------------------------

    00:00       88600      79       8.1        1
    00:44       88601      79       8.2        1
    00:55      107300      76.5     9.4       99
    00:58      110900      74.8     9.4       99
    01:01      117000      74.1     9.4      100
    01:07      133100      75.7     9.4      100
    01:16      157600      75.4     9.4      100
    01:21      171600      75.1     9.4      100
    01:43      233400      72.4     9.4      100
    03:03      460300      67.1     9.4      100
    03:36      550300      68.8     9.4      100
    04:20      671300      64.3     9.2      100
    05:10      805200      59.7     9.2      100
    05:28      854100      67.0     8.7      100
    06:57     1088602      63.4     8.6        1 

    单看上面的数据可以看出每小时所爬数据量为20万,速度不快,不如solr,我认为这个不好比较,原因如下:

    1. 我安装fast用的是虚机,solr用实体机
    2. fast是爬网,solr是推送数据,如果需要爬网需要开发

    只从表面对比fast的好处如下:

    1. sharepoint可边爬网边查询,solr需要开发
    2. fast搜索速度快,具体指标如下:

    关键字   搜索结果数据量(条)   第一次搜索用时(秒)   第二次搜索用时(秒)

    ---------------------------------------------------------------------------------

     ‘1’            1,088,522               0.1400                   0.0150

       ‘订单’      1,001,962               0.1370                   0.0140

    这是虚机的测试结果,如果采用实体机我相信会更快。

    还可以看出在第二次搜索时明显又快了,这很容易解释因为采用了缓存。

    当然solr也有好处就是开源,而fast是需要付出3万多美元的或更多。

    也发现了个问题,就是fast在爬网的时候很耗cpu,使得网站访问速度变慢,这也就可以解释为什么官网要求sharepoint和fast不要安装在一起的原因了。

    作者:金大昊

    努力过就不后悔

  • 相关阅读:
    apache php 整合
    ide vim 设置
    saas
    总结一些做人的标准
    关于项目和产品
    Page.ClientScript.RegisterArrayDeclaration
    span或者input的disabled(小技巧)
    JS屏蔽鼠标右键的两种方法(小技巧)
    js使用对象(小技巧)
    各种CMS
  • 原文地址:https://www.cnblogs.com/jindahao/p/2442899.html
Copyright © 2020-2023  润新知