一、 未来的搜索的目标会渐渐从搜索网页转向搜索XML格式的信息
目前网上的搜索,实际上是从Internet中获取信息。因为信息是有价值的,所以提供此类服务的Internet服务商是一定会赢利的。
二、 COM有接口,数据也应该有接口
每个COM 都会向外界暴露接口,程序员通过接口调用COM。数据也可以向COM一样,向外界暴露出自己的接口,数据的接收者根据提供的接口读取自已关心的信息。
数据的接口是什么样子的呢?参考一下COM的接口技术:COM的接口实际上是函数名对函数代码地址的映射;数据的接口应该是数据项名称对数据的读取路径的映射。
总结起来,数据的接口应能提供两个功能:1. 告诉读者本数据包含哪些数据项 2. 如何读取它们----也可以看成是提供读取它们的路径。COM的接口由GUID来唯一地标识,而数据接口也应由类似于GUID的值来唯一地标识。
三、 XML格式有一个与生俱来的优势:自描述
一个XML格式的数据可以在首部放置额外信息,告诉读者它所实现的数据接口。上面说过数据接口应有全球唯一的标识符,应该用XML命名空间用来充当GUID的角色。 任何数据接口都有一个全球唯一的XML命名空间。
四、 用XML实现数据的接口
在一个XML格式的数据内,任何数据项都可以用XPath 来定位。用XML实现的数据接口就是告诉读者每个数据项的XPath路径。凡是实现某个数据接口的XML数据都应该依照数据接口定义的XPath路径组织自己的数据元素。
换而言之,凡是声明实现某一接口的XML数据,读者都能用该接口的XPath路径读取所以该接口所定义的数据项。
四、 Web网站提供网页,WebService站点提供XML格式的数据
如何提供XML格式的数据呢?用XML WebService,XML WebService可以由IBM的平台来提供,也可以由.net实现,也可以由SQL Server2005实现。
五、 XML格式的数据与网页一样都可以用一种地址在全球网络中定位
一个网页有它的URI地址,通过URI地址可以定位到该网站并从中取得网页。一个XML格式的数据也有它的URI地址,通过URI地址可以定位到它所在的WebService站点,并从中取得它。
六、 数据的接口体系可以也应该是全球统一的,由某个全球组织制定管理
数据的接口体系应该由某一个全球组织来制定并管理,比如W3C。
七、 网页上超链接,XML格式数据也有“超链接”
XML格式的数据的“超链接”应称为引用。整体数据可以有引用,数据中的某一项数据也可以用引用。比如,学生数据可以引用相应的居民信息,学生的毕业学校数据项可以有大学信息的引用。
八、 对于全球网内的XML数据资源,以全球统一接口可以读取其中任意一项数据元素,当然搜索则可轻易实现
以上七项均具备后,假设一个场景:从互联网中的某些个种子URI出发,获取相应的XML数据,根据XML数据的附加的引用(相当于网页的超链接)遍历整个互联网。由于每个XML数据都声明了所实现的接口,因此可以通过接口读取各个数据项。
这样可以建立一个 (接口)-(数据项)-(关键字值)-(URI)的索引表。举个例子:
(人口信息)-(姓名)-(王二)-(URI,URI,URI....)
九、信息展现方式
终于从数据的汪洋大海中得到了想要的信息了,如何展现给用户呢?用XSLT样式表。
十、 由BT种子联想到的一种搜索模式
为什么要将搜索的重大任务交给几台可怜的服务器呢?参照BT的方式,可以将整个搜索网络分为搜索代理与搜索服务器两部分。搜索代理接收用户的搜索请求但并去搜索,而要将搜索请求转发给若干个搜索服务器,然后收集搜索结果并展现给用户。
搜索引擎服务商可以只提供搜索代理服务器,然后吸引更多有实力的公司加盟,加盟公司提供搜索服务器。当搜索引擎服务商搜索代理服务器接到客户的搜索请求后,将请求发给加盟的(已注册的)搜索服务器。
以上是本人的一些想法,让我们一起讨论,提出更好的方案吧。谢谢关注。