• 我的面向网络编程


    网络是趋势,面向网络编程是必然, 整合网络资源,我是这样做的.
    **************************************************************************
    上次的seo在一个月之后取得了成功, 一个月内就被收录了许多的内容,但是现在有个问题是还没有获得,广告的代理, 广告的要求是要有足够大的信息量....

    我网站上的信息量还是不够大的.. 如何构建一个高性能的信息采集能力的平台是当务之急了.

    在信息采集的过程中,是需要以下几步的操作的...

    1.根据目的去搜索一些相关内容的网站作为我们采集的数据源
    2.对要采集的数据源的信息分别进行分析,识别处理
    3.生成本网站下的资源

    **************************************************************************
    要建立上面的软件架构,满足下面的一些要求 .

    软件要求:

    高伸展性:采用interface的方式 去搭建这个软件,外部尽可能的实现一些对外服务的

    高速度: 从用户请求到返回用户的应答的过程,我们把时间消耗尽量控制在网络传输方面.也就是说性能狠高,(呵呵,充分的利用服务的多CPU哦)

    搜索引擎: 本搜索引擎并不是说要实现一个搜索引擎的主要功能,因为从技术和空间上来看,我们并不具有这样大的实力,而是说要去分析搜索引擎的一个原理性的东西,另一方面就可以提升网络的seo,这也是很重要的一个方面.

    环境要求: 充分利用cpu的工作能力, 同时尽可能的缩小空间的实用率.
    **************************************************************************

    [框架设计]
    从高伸展性上去考虑这个问题,就是说我们应该对许多的网络信息源进行采集和加工,
    而对于每一个网站信息源,他的信息是不同的,加工的方式也是不同的, 这就需要动态加载一个处理方式,就是说,分析和处理的规则是因人而异的.

    同时考虑一个速度问题,在相同的环境下设计一些测试用例.

    -----------------------------------------------------------
    《解决方案》
    [信息源]
     从网站上取得的信息中,含有大量的垃圾信息,比如<script 广告js> 、版权等信息,这里都是需要我们去过滤掉的,而过滤的过程就是需要使用规则的过程。
    [规则]
        从目前的这个版本来说,对csdn的这些规则基本上都是写死的,想实现的规则肯定是动态化的,
     规则主要是通过 ,普通的替换和正则表达式实现的。
    那么写死的部分若要是需要提出来的话,就需要保存到数据库|文件|中,

    计划保存在dll中,通过webconfig或其他xml文件来设置这些信息。
    达到动态加载的效果,但是需要测试这一时间消耗
    其实如果有动态编译的方案是最好不过了。

    另外一种方案是保存到文件或是什么地方,就是一个配置文件,然后去读取。看时间消耗

    ----
    [现在看来这些时间消耗比起网络延迟来都是可以忽略的]

    高级:
      当前的许多的网页是普通的html,并不是xml,如果是rss 2.0 应该提供对应的分析工具
      对于普通的html做 重新的去实现一个底层的类 [html分析类]

    [输出]
      采用动态生成代码的方式,来进行输出,而不用生成静态页面,因为生成静态页面对服务器的空间利用要求较高,而且生成的静态页面占用空间量较大.这些都是问题
       输出的关键还有就是要符合seo的标准,
    这段时间的总结得出一些结论

       

    确定源信息

  • 相关阅读:
    其他标签
    数组和全局变量
    字符串处理
    运算符
    PHP安装配置工具
    String、StringBuffer与StringBuilder之间区别
    mybits——1
    异常
    ubuntu 系统错误:Error : BrokenCount > 0解决
    ubuntu配置VScode
  • 原文地址:https://www.cnblogs.com/lxf120/p/798591.html
Copyright © 2020-2023  润新知