SAS | 格式不规范数据读取

1 读取杂乱的原始数据（列指针+冒号修饰符）

当原始数据中没有排列整齐或无法预知要读取的字符长度时，三种输出样式及其混合都无法完成读取。这时就需要借助更多的工具：@'character'列指针和冒号修饰符。

列指针

列指针有两种用法：

@'character'列指针能在读取数据之前，将指针移动到指定的列。然而，有时候我们并不知道数据开始位置，若知道数据总是在一个特定的字符或者单词之后开始，这种情况就能使用@'character'列指针。

狗的品种信息总是出现在单词breed之后，示例：input @'breed:' dogbreed $;

冒号修饰符

字符变量的默认长度是8个字符。则读取变量时有几种可能情况：

为避免遇到上面问题，可以在输入格式使用冒号修饰符：在输入格式前面放置一个冒号。这样就能告知SAS读取到输入格式的长度或直到遇到分隔符就终止，二者以先遇到者为准。

示例：:$20.

以变量值rottweiler为例，下表是几种不同input语句得到的结果：

有的时候，一个观测的数据分散到了多行中，这时就需要显式告诉SAS何时换行，进入下一行继续读取。

行指针

在input语句中加入行指针，即可实现为单个观测读取多行原始数据。行指针有两种表示方法：

示例：

input city $ state $

/ NormalHigh NormalLow

#3 RecordHigh RecordLow ;

无论数据以何种形态存在，总会经常出现这种情况，一行原始存在多个观测，这时需要在input语句结尾处使用双尾@符号。

双尾@

即（@@），其作用是让SAS停留在那行数据，继续读取观测直到数据读取完毕，或者遇到了没有双尾@符号的input语句为止。

示例：input city $ state $ NormalRain MeanDaysRain @@ ;

当我们只需要读取一个比较大数据文件中的一小部分，这时就需要进行选择性读入，只读入需要的变量以确定是否保留当前的观测，然后用单尾@符号结束input语句。

单尾@

单尾@符号的作用是，告诉SAS保持那行原始数据。通常，在单尾@保持该数据行时，可以使用if语句来测试该观测，以查看它是否是你要保留的观测。如果是，你可以使用第二条input语句，为其余变量读取数据。

单尾@（@）和列指针（@n）非常相似，@n是告诉SAS移动到指定的列；而单尾@则像是在告知“敬请期待，请勿换台”，SAS将保持住该行数据直到data步结束，或者遇到一个没有单尾@的input语句为止。

示例：

input type $ @ ;

if type = 'surface' then delete ;

input name $ 9-38 amtraffic pmtraffic ;

这里有3条语句：

运行逻辑是：若一个观测的type变量值是surface，则第二条input语句不会执行，这样就不会将不需要的观测添加到想要的数据集中取。

行固定标识符

单尾@和双尾@都是SAS中的行固定标识符。区别在于它们保持一行输入数据的时间长短不同。

两种的共同点是，当SAS遇到了没有行固定标识符的后续input语句时，改行数据都会被释放。