前言
今年上半年就主要和微软的SharePoint打交道了,没想到我也有忙的不可开交的时候,时间过得真快。总的来说,我们希望对60,000,000个页面进行爬网和索引,从而提供搜索的功能。撇开具体的需求不说,第一步肯定是抓取数据。为了保证数据能够在较短的时间内抓取完毕,服务器场的部署和搜索拓扑规划是非常重要的。这篇文章也主要记录这个方面的内容,写这篇文章的目的主要是备忘(同时,由于接触部署时间不长,有错误的地方希望大家斧正)。
三层服务器场
总体规划为三层服务器场,即WEB前端,应用程序(Application)和数据库。WEB层主要是通过IIS承载WEB站点,提供访问入口。Application层主要承载一系列的服务,其中包含我们所关心的搜索服务。数据层主要是数据库。每个层都可以实现容错和负载均衡。详细内容参考这里。但是这些方面不是我所关心的,如标题所言,我所关心的是SharePoint的搜索拓扑。
搜索拓扑
SharePoint2013 整合了FAST Search产品,所以其搜索管理是独立的。从[管理中心]-[服务应用程序管理]-[ Search Service Application]可以导航到搜索管理界面。在这个页面中,上部分是搜索服务的状态,下部分是拓扑。如果是单台机子安装的(非场)SharePoint 2013,可以看见拓扑是非常简单的,也就是所有的搜索组件都运行在这台机子上了。MSDN上有一个作为示例的40,000,000个项的拓扑。详情看这里。在这个例子中,是完全实现容错的,使用了“双份”的物理机来防止单点故障,数据库则使用了SQL Server2012的always on功能。在单台物理服务器内则使用虚拟化来将各个组件分离。
在此次测试中,我计划索引10M个数据项,所以只需要一个索引分区,同时不考虑容错。所以使用了6台服务器。其中,1台WEB,4台Application Server,1台数据库。SharePoint的安装过程不赘述(需要注意1:SQL Server不能选择Express版本的,否则在运行配置向导的时候将无法连接到数据库[同时还要注意防火墙的问题,测试环境是全部关闭防火墙的。]2:Windows Server 2012的.NET 3.5的安装不是很方便,需要手动进行。)。搜索组建的规划如下:双份的爬网和内容处理,其余组建单份。拓扑图如下(来自CA):
至于如何配置搜索服务拓扑,参考这里。这里记录几点:
1.SharePoint 2013和搜索相关的cmdlet指令都以动词 + SPEnterpriseSearch(SP企业级搜索)开头,通过TAB可以方便检索这些指令。
2.在这些cmdlet中,如果有需要-SearchApplication参数的,如果主动指定,则可以传递对象变量,如果被动要求提供值,则只能使用ID(一个长串)。例如:
PS C:\Users\administrator.OW> $ssa = Get-SPEnterpriseSearchServiceApplication PS C:\Users\administrator.OW> Get-SPEnterpriseSearchTopology -SearchApplicatio $ssa TopologyId : daf2e79c-9bbc-4bd7-844e-680e14332d1e CreationDate : 2013/3/13 14:52:00 State : Inactive ComponentCount : 6 TopologyId : b8782635-ffc1-4895-b20b-e813174d6767 CreationDate : 2013/3/13 15:22:00 State : Active ComponentCount : 8 PS C:\Users\administrator.OW> Get-SPEnterpriseSearchTopology 位于命令管道位置 1 的 cmdlet Get-SPEnterpriseSearchTopology 请为以下参数提供值: SearchApplication: $ssa Get-SPEnterpriseSearchTopology : 找不到搜索应用程序 $ssa。 所在位置 行:1 字符: 1 + Get-SPEnterpriseSearchTopology + ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ + CategoryInfo : InvalidData: (Microsoft.Offic...tSearchTopology: GetSearchTopology) [Get-SPEnterpriseSearchTopology],KeyNotFoundException + FullyQualifiedErrorId : Microsoft.Office.Server.Search.Cmdlet.GetSearchT opology
这时候,如果提供“$ssa的Id”则可以正常运行。(注意,不是引用,而是串)
3.Get-SPEnterpriseSearchServiceInstance 的Identtiy参数可以是ServerName,但不一定要带上完全限定域名,有时带上了会出错。
4.观察示例拓扑是可以发现一些规律的:爬网组和内容处理适合放一起,索引和查询适合放一起。管理和分析则不会耗费太多系统资源,可以灵活安排。另外,WEB层的服务器也可以承载一个查询组件。(称为带查询组建的WEB服务器)
对于上图中的拓扑,使用的cmdlet为:(勘误:我将41,62的内容处理指定为了管理组件...非常不好意思...这里只标注,不修改了。)
PS C:\Users\administrator.OW> $ssa = Get-SPEnterpriseSearchServiceApplication PS C:\Users\administrator.OW> $newtopo = New-SPEnterpriseSearchTopology -SearchA pplication $ssa PS C:\Users\administrator.OW> $31 = Get-SPEnterpriseSearchServiceInstance -Ident ity 31-app PS C:\Users\administrator.OW> $41 = Get-SPEnterpriseSearchServiceInstance -Ident ity 41-app PS C:\Users\administrator.OW> $61 = Get-SPEnterpriseSearchServiceInstance -Ident ity 61-app PS C:\Users\administrator.OW> $62 = Get-SPEnterpriseSearchServiceInstance -Ident ity 62-app PS C:\Users\administrator.OW> $ana = New-SPEnterpriseSearchAnalyticsProcessingCo mponent -SearchTopology $newtopo -SearchServiceInstance $61 PS C:\Users\administrator.OW> $admin = New-SPEnterpriseSearchAdminComponent -Sea rchTopology $newtopo -SearchServiceInstance $61 PS C:\Users\administrator.OW> $crawl1 = New-SPEnterpriseSearchCrawlComponent -Se archTopology $newtopo -SearchServiceInstance $41 PS C:\Users\administrator.OW> $crawl2 = New-SPEnterpriseSearchCrawlComponent -Se archTopology $newtopo -SearchServiceInstance $62 PS C:\Users\administrator.OW> $content1 = New-SPEnterpriseSearchAdminComponent - SearchTopology $newtopo -SearchServiceInstance $41 PS C:\Users\administrator.OW> $content2 = New-SPEnterpriseSearchAdminComponent - SearchTopology $newtopo -SearchServiceInstance $62 PS C:\Users\administrator.OW> $index = New-SPEnterpriseSearchIndexComponent -Sea rchTopology $newtopo -SearchServiceInstance $31 -IndexPartition 0 PS C:\Users\administrator.OW> $query = New-SPEnterpriseSearchQueryProcessingComp onent -SearchTopology $newtopo -SearchServiceInstance $31 PS C:\Users\administrator.OW>
由于拓扑没激活,没办法在CA中查看,这里使用PowerShell整理下。
性能
自然很关心爬网速度,和各个服务器的资源。这里是一些记录。
思考:随着爬网数量的增加,索引和查询占用的资源提升比较明显。同时,在搜索中心进行搜索的效率也下降。可以考虑在WEB服务器上添加一个查询组建,并在管理和分析服务器上增加一个内容处理组件。然后进行测试和观察。
问题
同时碰到一个问题:
在MSDN上说,每10M的记录要添加一个索引分区,每20M的记录要添加一个爬网数据库。添加爬网数据库的我倒是找到了cmdlet,但是添加索引分区的还真没找到。
找到了,在这里。
也想到一个问题:
CA中的搜索管理能看到爬网速率,不知道能不能配置公开搜索耗时。
如果使用REST API进行搜索的话,确实可以返回搜索耗时的信息。