由于服务器默认安装时Sql Server使用了Chinese_PRC_CI_AS这个collation,导致对一些unicode字符并不能很好的处理,加上SqlServer 和SSAS对字符串比较处理
上的不一致,导致了处理的异常。我们来看一下问题的分析。
问题描述
我们先来构建实验的数据
Create Table [DimEmployee](
[EmployeeKey] [int]not null,
[EmployeeName] [nvarchar](32) not null
)
insert into DimEmployee(EmployeeKey,EmployeeName)values(1,'员工')
-- 末尾是半角空格,然后是异常字符
insert into DimEmployee(EmployeeKey,EmployeeName)values(2,'员工 ᴔ')
然后建立一个Cube包含这个维度,然后部署,并处理。注意,Sql Server以及SSAS的Collation全都使用默认的Chinese_PRC_CI_AS。这个过程就不赘述了。我们会看到以下报错:OLAP 存储引擎中存在错误: 处理时找不到以下属性键: 表:“dbo_DimCustomer”,列:“EmployeeName”,值:“员工 ᴔ”该属性为"EmployeeName"
问题分析
SqlServer在比较字符串时,如果该字符在当前collation下并不识别,那么Sql Server可能会跳过该字符。即有这个字符和没这个字符
都一样。这一点上,Sql Server和SSAS的处理方式是一致。但是对于末尾的空白字符,Sql server会忽略掉之后再进行比较,而SSAS
则不会。这个差异性导致了处理时的异常。
在处理单个Attribute时,EmployeeName中只会有'员工'这个成员,而将EmployeeKey和其他附属的Attribute 做关联时,SSAS会去
分别查找'员工'和'员工 ᴔ''这两个字符串在EmployeeName存储中对应的key,而由于前面所说的差异,第二个字符串查找肯定会失
败。进而就抛出了前面提到的异常。其他类似的异常字符还有"ᴔͼʮӤ˪˰ϵͳӱ䮧ˮԪͣͼ"
经过实验,只有使用2008引入的collation Chinese_Simplified_Pinyin_100才能正确识别这些字符。