根据自己多年的学习和思考,画了一个编译器的结构框架图,转载请注明出处。
目标代码是机器语言或汇编语言,汇编语言可以通过汇编器生成机器码。汇编语言的定义取决于CPU的体系架构,目前主要有三种:x86/x64, ARM, MIPS。
中间代码是虚拟机的机器语言,虚拟机目前主要有四种:CLR, JVM, Parrot, LLVM。CLR用于.Net平台,JVM用于Java语言,这两个是基于栈的虚拟机。Parrot用于脚本语言,比如Perl,Python,Ruby等;LLVM用于C、C++等语言,这两个是基于寄存器的虚拟机。在性能上比较而言,基于寄存器的虚拟机优于基于栈的虚拟机。
现在做编译器主要是做前端,后端有这四种虚拟机和GCC可用,解析器也有很多成熟的算法和工具可用。首要的难点是如何定义编程语言的语法、语义和运行时的内存管理,如何在简单与复杂之间取一个平衡点。
目前在使用的编程语言有很多种,各种语言都有自己的优点和缺点,能不能在一种语言中把大部分优点集合起来,把缺点消除掉?