自顶向下语法分析可以被看作是为输入串构造语法分析树的问题,它从语法分析树的根结点开始 ,按照先序遍历创建这棵语法分析树的各个结点。自顶向下语法分析也可以被看作寻找输入串的最左推导的过程。
递归下降的语法分析
一个递归下降语法分析程序由一组过程组成,每个非终结符号有一个对应的过程。程序的执行从开始符号对应的过程开始,如果这个过程的过程体扫描了整个输入串,它就停止执行并宣布语法分析成功完成。
一个左递归的文法会使它的递归下降语法分析器进入一个无限循环。即使是带回溯的语法分析器也是如此。也就说,当我们试图展开一个非终结符号A的时候,我们可能会没有读入任何输入符号就再次试图展开A。
FIRST和FOLLOW
自顶向下和自底向上语法分析器的构造可以使用和文法G相关的两个函数FIRST和FOLLOW来实现。在自顶向下语法分析过程中,FIRST和FOLLOW使得我们可以根据下一个输入符号来选择应用哪个产生式。在恐慌模式的错误恢复中,由FOLLOW产生的词法单元集合可以作为同步词法单元。
FIRST(α)被定义为可从α推导得到的串的首符号(终止符号)的集合,其中α是任意的文法符号串。
计算各个文法符号X的FIRST(X)时,不断应用下列规则,直到再没有新的终结符号或ε可以被加到任何FIRST集合中为止。
1) 如果X是一个终结符号,那么FIRST(X) = X。
2) 如果X是一个非终结符号,且X ---> Y1Y2...Yk是一个产生式,其中k >= 1,那么如果对于某个i,a在FIRST(Yi)中且ε在所有的FIRST(Y1)、FIRST(Y2)、... 、FIRST(Yi-1)中,就把a加到FIRST(X)中。也就是说,Y1...Yi-1 ==>* ε。如果对于所有的j = 1, 2,... ,k,ε在FIRST(Yj)中,那么将ε加到FIRST(X)中。比如,FIRST(Y1)中的所有符号一定在FIRST(X)中。如果Y1不能推导出ε,那么我们就不会再向FIRST(X)中加入任何符号,但是如果Y1 ==>* ε,那么我们就加上FIRST(Y2),依此类推。
3) 如果X ---> ε是一个产生式,那么将ε加入到FIRST(X)中。
对于非终结符号A,FOLLOW(A)被定义为可能在某些句型中紧跟在A右边的终结符号的集合。也就是说,如果存在形如S ---> αAaβ的推导,终结符号a就在FOLLOW(A)中,其中
α和β是文法符号串。注意,在这个推导的某个阶段,A和a之间可能存在一些文法符号。但如果是这样,这些符号会推导得到ε并消失。另外,如果A是某些句型的最右符号,那么$也在FOLLOW(A)中。($是一个特殊的“结束标记”符号,我们假设它不是任何文法的符号)
计算所有非终结符号A的FOLLOW(A)集合时,不断应用下面的规则,直到再没有新的终结符号可以加到任意FOLLOW集合中为止。
1) 将$放到FOLLOW(S)中,其中S是开始符号,而$是输入右端的结束标记。
2) 如果存在一个产生式A ---> αBβ,那么FIRST(β)中除ε之外的所有符号都在FOLLOW(B)中。
3) 如果存在一个产生式A ---> αB,或存在产生式A ---> αBβ且FIRST(β)包含ε,那么FOLLOW(A)中的所有符号都在FOLLOW(B)中。
上面的计算方法理解起来比较费劲,我们来看下面的比较容易理解的方法:
FIRST集的定义: 如果α是任意的文法符号串,则我们定义FIRST(α)是从α推导出的串的开始符号的终结符集合,即
FIRST(α)={a|α ==>* a… ,a是终结符}。如果α ==>* ε,则ε也属于FIRST(α)。
FOLLOW集的定义: 设A是一个非终结符,则定义FOLLOW(A)是包含所有在句型中紧跟在A后面的终结符a的集合,即FOLLOW(A)={a|S ==>* αAaβ , a是终结符}。注意,在推导的某一时刻,在A和a之间可能有符号,但如果是这样,它们将推导出ε并消失。如果A是某个句型的最右符号或开始符号,那么$属于FOLLOW(A)。(注: $是输入串的结束符)
例:求下列文法各个非终结符号的FIRST和FOLLOW集合。
解答:(注意==>*表示经过多次推导)
由于
E ==>* ( E ) T' E'
E ==>* id T' E'
故 FIRST(E) = { ( , id }
同理
FIRST(T) = FIRST(F) = { ( , id }
FIRST(E') = { + , ε}
FIRST(T') = { * , ε}
由于
E ==>* (E) 且E是开始符号
故FOLLOW(E) = { ) , $ }
由于
E ==> T E' ,即E' 是该句型的最右符号
E ==>* + ( E )
故FOLLOW(E') = { ) , $ }
由于
E ==>* T,即T是该句型的最右符号
E ==>* T + T
E ==>* ( T )
故 FOLLOW(T) = { ) , + , $ }
同理
FOLLOW(T') = { ) , + , $ }
FOLLOW(E') = { ) , + , $ }
FOLLOW(F) = { * , ) , + , $ }