网络是趋势,面向网络编程是必然, 整合网络资源,我是这样做的.
**************************************************************************
上次的seo在一个月之后取得了成功, 一个月内就被收录了许多的内容,但是现在有个问题是还没有获得,广告的代理, 广告的要求是要有足够大的信息量....
我网站上的信息量还是不够大的.. 如何构建一个高性能的信息采集能力的平台是当务之急了.
在信息采集的过程中,是需要以下几步的操作的...
1.根据目的去搜索一些相关内容的网站作为我们采集的数据源
2.对要采集的数据源的信息分别进行分析,识别处理
3.生成本网站下的资源
**************************************************************************
要建立上面的软件架构,满足下面的一些要求 .
软件要求:
高伸展性:采用interface的方式 去搭建这个软件,外部尽可能的实现一些对外服务的
高速度: 从用户请求到返回用户的应答的过程,我们把时间消耗尽量控制在网络传输方面.也就是说性能狠高,(呵呵,充分的利用服务的多CPU哦)
搜索引擎: 本搜索引擎并不是说要实现一个搜索引擎的主要功能,因为从技术和空间上来看,我们并不具有这样大的实力,而是说要去分析搜索引擎的一个原理性的东西,另一方面就可以提升网络的seo,这也是很重要的一个方面.
环境要求: 充分利用cpu的工作能力, 同时尽可能的缩小空间的实用率.
**************************************************************************
[框架设计]
从高伸展性上去考虑这个问题,就是说我们应该对许多的网络信息源进行采集和加工,
而对于每一个网站信息源,他的信息是不同的,加工的方式也是不同的, 这就需要动态加载一个处理方式,就是说,分析和处理的规则是因人而异的.
同时考虑一个速度问题,在相同的环境下设计一些测试用例.
-----------------------------------------------------------
《解决方案》
[信息源]
从网站上取得的信息中,含有大量的垃圾信息,比如<script 广告js> 、版权等信息,这里都是需要我们去过滤掉的,而过滤的过程就是需要使用规则的过程。
[规则]
从目前的这个版本来说,对csdn的这些规则基本上都是写死的,想实现的规则肯定是动态化的,
规则主要是通过 ,普通的替换和正则表达式实现的。
那么写死的部分若要是需要提出来的话,就需要保存到数据库|文件|中,
计划保存在dll中,通过webconfig或其他xml文件来设置这些信息。
达到动态加载的效果,但是需要测试这一时间消耗
其实如果有动态编译的方案是最好不过了。
另外一种方案是保存到文件或是什么地方,就是一个配置文件,然后去读取。看时间消耗
----
[现在看来这些时间消耗比起网络延迟来都是可以忽略的]
高级:
当前的许多的网页是普通的html,并不是xml,如果是rss 2.0 应该提供对应的分析工具
对于普通的html做 重新的去实现一个底层的类 [html分析类]
[输出]
采用动态生成代码的方式,来进行输出,而不用生成静态页面,因为生成静态页面对服务器的空间利用要求较高,而且生成的静态页面占用空间量较大.这些都是问题
输出的关键还有就是要符合seo的标准,
这段时间的总结得出一些结论
确定源信息