-
概述
词法分析是编译的第一个环节,其输入是高级语言程序,输出是单词串。词法分析器的主要任务是将高级语言程序作为字符串输入,然后依据词法规则将字符串组合成单词,并输出单词串。
为了方便之后的编译环节,通常将输出的单词串表示成二元组的形式(单词种别码,单词符号的属性值)其中种别码通常用整数表示,按开发者意愿将单词种类分类,相同种类单词使用一个种别码,属性值反映单词符号的特性。
本次实验中保留字、运算符、分界符采用一符一种别码的形式,其定义如表1所示。
为了使程序较为简单,本次实验中的单词符号采用状态图进行识别,整体状态转换图如图1所示,其中最重要的是对于数字与字母识别的状态转换。
图1 状态转换图
-
程序中需要注意的问题
①当使用循环读到不属于相同类型的字符时要注意指针回退问题。
②对于注释中含有和注释中相同类型的字符时需要跳,过例如/* * */这种问题。
③程序中的空行不算作有效行。
④对于识别出非法标识符或注释要注意记录行号并记录下来。
-
程序整体实现思路
由于要分析的c语言子程存放在文本文件test.txt中,所以要涉及文件相关操作,那么来从文件中读取字符串使用
1 while(!feof(fpr)) 2 { 3 char ch = fgetc(fpr); 4 /* 5 处理字符 6 */ 7 }
对于读取的第一个字符是字母那么要继续读取直到读到非字母或数字的字符,代码如下
1 while(!feof(fpr)) 2 { 3 char ch = fgetc(fpr); 4 if(isLetter(ch)==1||(ch=='_')) 5 { 6 word[i++]=ch;//word是字符数组,用来将读取的字符拼凑成单词,等待接下来的处理 7 8 ch=fgetc(fpr); 9 while(isLetter(ch)||isNumber(ch)) 10 { 11 word[i++]=ch; 12 ch=fgetc(fpr); 13 } 14 15 fseek(fpr,-1,1); 16 } 17 }
注意重点来了,当里面while(isLetter(ch)||isNumber(ch))循环跳出来时此时,字符ch里面存放的是非字母字符,好当while(!feof(fpr))循环没有结束时,程序继续执行char ch = fgetc(fpr)这句,ch里又被重新赋值。发现问题了吗,ch里跳过了一个字符没被分析,对于词法分析来说要分析到每一个字符来说这可是不行的。
来举个例子对于语句max=1;首先读取是m是字母,好继续读取直到遇到非字母字符=跳出里面循环,此时ch=’=’,程序未将文件内容读完,继续char ch = fgetc(fpr)这句,这时ch=1,ch=’=’的情况没有进行分析。所以我们应该在使用while循环跳出某种情况时要注意指针回退问题,好的来使用这条语句fseek(fpr,-1,1);即将当前fpr指针回退一个。
同理对于读取的第一个字符是数字,处理情况同上,但是如果继续读取的字符中出现了字母,对于c语言来说就是非法的标识符,需要将其错误输出,代码如下
1 while(!feof(fpr)) 2 { 3 char ch = fgetc(fpr); 4 if(isNumber(ch)) 5 { 6 word[i++]=ch; 7 ch=fgetc(fpr); 8 if(isLetter(ch)) 9 { 10 printf("LexicalError,"); 11 fprintf(fpw,"LexicalError,"); 12 13 while(isLetter(ch)) 14 ch=fgetc(fpr); 15 16 clearWord(); //将word数组清空,以便后续使用 17 } 18 19 else 20 { 21 while(isNumber(ch)) 22 { 23 word[i++]=ch; 24 ch=fgetc(fpr); 25 } 26 27 printf("<2,%s>,",word);//是整数,将(2,word)写入output文件 28 fprintf(fpw,"<2,%s>,",word); 29 clearWord(); 30 } 31 32 fseek(fpr,-1,1); 33 }
将字符拼凑成单词以后就要和已知的定义表对比,识别出是关键字还是标识符或者是数字,这部分较为简单,具体步骤可在代码清单中查看。
对于程序中的注释处理,也要注意分为单行和双行两种情况,单行注释较为简单,如果遇到字符’/’则再读一个字符,如果还是’/’那么什么判断也不用做,只需将当前行读完即可。多行注释较为复杂,如果对于注释中也含有字符’*’或’/’的处理较为麻烦,其状态转换图如图2所示
图2 注释处理状态转换图
代码如下
1 else if(ch=='*')//处理多行注释 2 { 3 ch=fgetc(fpr); 4 while(ch!='*'&&(fgetc(fpr)!='/'))//避免注释中出现*,但其后不是/的情况 5 { 6 fseek(fpr,-1,1); 7 fgetc(fpr); 8 if(fgetc(fpr)==EOF)//若到文件末尾还没找到注释*/结束符则判错 9 { 10 printf("LexicalError,"); 11 fprintf(fpw,"LexicalError,"); 12 break; 13 } 14 } 15 ch=fgetc(fpr); 16 }
好像还有点小问题,不过对于处理普通多行注释是可以的。
程序中较为复杂的部分已经说完了,那么对于读取的字符未非数字,字母,‘/’‘/*’开头的,则需进行使用多个判断语句就能识别了。
整体代码清单如下
1 #include <stdio.h> 2 #include <stdlib.h> 3 #include <string.h> 4 5 char *list[] = {"bsf","zs","+","-","*","/","%","<","<=",">", 6 ">=","==","!=","&&","||","=","(",")","[","]", 7 "{", "}", ";", ",","void","int","float","char","if","else", 8 "while","do","return"}; 9 int listNum = 33; 10 int line = 1; 11 int errorNum=0; 12 char ch; 13 char word[20]; 14 int errorLine[50]; 15 16 void clearWord() 17 { 18 for(int i=0;i<20;i++) 19 { 20 word[i]='