• FSM有限状态机运用分析系列一 —— INI解析器


    上面我们看了只有中间两个状态的状态机,现在我们来看一个稍微复杂一点的状态机。

    INI文件是Windows下常用的一种配置文件。它由多个分组组成,每个组有多个配置项,每个配置项又由名称和值组成。文件里还可以包含注释,注释通常以‘;’(或‘#’)开始,直到当前行结束。如XP下的win.ini:

     1 ; for 16-bit app support
     2 [fonts]
     3 [extensions]
     4 [mci extensions]
     5 [files]
     6 [MCI Extensions.BAK]
     7 aif=MPEGVideo
     8 aifc=MPEGVideo
     9 aiff=MPEGVideo
    10 asf=MPEGVideo
    11 asx=MPEGVideo
    12 au=MPEGVideo
    13 m1v=MPEGVideo
    14 m3u=MPEGVideo
    15 mp2=MPEGVideo
    16 mp2v=MPEGVideo
    17 mp3=MPEGVideo
    18 [annie]
    19 CaptureFile=
    20 VideoDevice=0
    21 AudioDevice=0
    22 FrameRate=333333
    23 UseFrameRate=1
    24 CaptureAudio=1
    25 WantPreview=1
    26 MasterStream=-1
    27 [SciCalc]
    28 layout=0

    第一行是注释,后面有fonts、extensions和mci extensions三个空的分组,MCI Extensions.BAK、annie和SciCalc三个分组包含有一个或多个配置项。

    对于这样一个文件,我们应该怎样去解析它呢?按照前面的方法,先把数据读入到一个缓冲区中,让一个指针指向缓冲区的头部,然后移动指针,直到指向缓冲区的尾部。在这个过程中,指针可能指向的注释、分组的组名、配置项的名称、配置项的值或者一些如换行符之类的格式信息。

    由此,我们可以这样来定义INI的状态机:

    状态集合:
    1. 分组的组名状态
    2. 注释状态
    3. 配置项的名称状态
    4. 配置项的值状态
    5. 空白状态

    状态转换函数:
    1. 初始状态为“空白”状态。
    2. 在“空白”状态下,读入字符‘[’,进入“分组组名”状态。
    3. 在“分组组名”状态下,读入字符‘]’,分组组名解析成功,回到“空白”状态。
    4. 在“空白”状态下,读入字符‘;’,进入“注释”状态。
    5. 在“注释”状态下,读入换行字符,结束“注释”状态,回到“空白”状态。
    6. 在“空白”状态下,读入非空白字符,进入“配置项的名称”状态。
    7. 在“配置项的名称”状态下,读入字符‘=’, 配置项的名称解析成功,进入“配置项的值”状态。
    8. 在“配置项的值”状态下,读入换行字符,配置项的值解析成功,回到“空白”状态。

    INI状态机可以用下图来表示:


    现在我们来看看程序实现:

      1 static void ini_parse (char* buffer, char comment_char, char delim_char)
      2 {
      3     char* p = buffer;
      4     char* group_start = NULL;
      5     char* key_start = NULL;
      6     char* value_start = NULL;
      7     /*定义INI解析器的状态,初始状态为“空白”状态。*/
      8     enum _State
      9     {
     10         STAT_NONE = 0,
     11         STAT_GROUP,
     12         STAT_KEY,
     13         STAT_VALUE,
     14         STAT_COMMENT
     15     }state = STAT_NONE;
     16 
     17     for(p = buffer; *p != '/0'; p++)
     18     {
     19         switch(state)
     20         {
     21             case STAT_NONE:
     22             {
     23                 if(*p == '[')
     24                 {
     25                     /*在“空白”状态下,读入字符‘[’,进入“分组组名”状态。*/
     26                     state = STAT_GROUP;
     27                     group_start = p + 1;
     28                 }
     29                 else if(*p == comment_char)
     30                 {
     31                     /*在“空白”状态下,读入字符‘;’,进入“注释”状态。*/
     32                     state = STAT_COMMENT;
     33                 }
     34                 else if(!isspace(*p))
     35                 {
     36                     /*在“空白”状态下,读入非空白字符,进入“配置项的名称”状态。*/
     37                     state = STAT_KEY;
     38                     key_start = p;
     39                 }
     40                 break;
     41             }
     42             case STAT_GROUP:
     43             {
     44                 /*在“分组组名”状态下,读入字符‘]’,分组组名解析成功,回到“空白”状态。*/
     45                 if(*p == ']')
     46                 {
     47                     *p = '/0';
     48                     state = STAT_NONE;
     49                     strtrim(group_start);
     50                     printf("[%s]/n", group_start);
     51                 }
     52                 break;
     53             }
     54             case STAT_COMMENT:
     55             {
     56                   /*在“注释”状态下,读入换行字符,结束“注释”状态,回到“空白”状态。*/
     57                 if(*p == '/n')
     58                 {
     59                     state = STAT_NONE;
     60                     break;
     61                 }
     62                 break;
     63             }
     64             case STAT_KEY:
     65             {
     66                 /*在“配置项的名称”状态下,读入字符‘=’, 配置项的名称解析成功,进入“配置项的值”状态。*/
     67                 if(*p == delim_char || (delim_char == ' ' && *p == '/t'))
     68                 {
     69                     *p = '/0';
     70                     state = STAT_VALUE;
     71                     value_start = p + 1;
     72                 }
     73                 break;
     74             }
     75             case STAT_VALUE:
     76             {
     77                 /*在“配置项的值”状态下,读入换行字符,配置项的值解析成功,回到“空白”状态。*/
     78                 if(*p == '/n' || *p == '/r')
     79                 {
     80                     *p = '/0';
     81                     state = STAT_NONE;
     82                     strtrim(key_start);
     83                     strtrim(value_start);
     84                     printf("%s%c%s/n", key_start, delim_char, value_start);
     85                 }
     86                 break;
     87              }
     88               default:break;
     89           }
     90       }
     91 
     92       if(state == STAT_VALUE)
     93       {
     94           strtrim(key_start);
     95           strtrim(value_start);
     96           printf("%s%c%s/n", key_start, delim_char, value_start);
     97       }
     98 
     99       return;
    100 }

    ini文件有几个变种:
    1. 支持默认分组,如果只有一个分组,省略分组的组名,linux下不少配置文件采用这种方式。
    2. 注释符号,有的用‘;’,有的用‘#’,前者多用于Windows下,后面多用于Linux下。
    3. 名称和值之间的分隔,有的用空格,有的用‘=’,有的‘:’。

    不管哪种格式,它们的解析方法是一样的,在上面的程序中,我们使用了comment_char和 delim_char两个参数,分别表示注释符号和分隔符号。

  • 相关阅读:
    学生党 应该去 研究研究 Socket(套接字) 实现原理
    收录一些 硬件 相关的 文章
    谈谈 软件 开源项目
    我决定 开启 一个 人工智能 机器学习 技术 的 普及项目 Let it Learn
    我邀请 民科吧 网友 和 三江老师 来 反相吧 辩论 调和级数
    共量子论 丢番图方程组 数值求解 最小分子解
    刚 看了一下 一元三次方程 的 解法
    研究发展 C 语言
    对 量子病态定理 提出的 代数方程 不成立 的 证明
    数学 改革
  • 原文地址:https://www.cnblogs.com/dylan2011/p/2688541.html
Copyright © 2020-2023  润新知