java词法分析_深⼊分析Java的编译原理
我们可以通过javac命令将Java程序的源代码编译成Java字节码,即我们常说的class⽂件。这是我们通常意义上理解的编译。
但是,字节码并不是机器语⾔,要想让机器能够执⾏,还需要把字节码翻译成机器指令。这个过程是Java虚拟机做的,这个过程也叫编译。是更深层次的编译。
在编译原理中,把源代码翻译成机器指令,⼀般要经过以下⼏个重要步骤:
根据完成任务不同,可以将编译器的组成部分划分为前端(Front End)与后端(Back End)。
前端编译主要指与源语⾔有关但与⽬标机⽆关的部分,包括词法分析、语法分析、语义分析与中间代码⽣成。
后端编译主要指与⽬标机有关的部分,包括代码优化和⽬标代码⽣成等。
我们可以把将.java⽂件编译成.class的编译过程称之为前端编译。把将.class⽂件翻译成机器指令的编译过程称之为后端编译。
Java中的前端编译
前端编译主要指与源语⾔有关但与⽬标机⽆关的部分,包括词法分析、语法分析、语义分析与中间代码⽣成。
我们所熟知的javac的编译就是前端编译。除了这种以外,我们使⽤的很多IDE,如eclipse,idea等,都内置了前端编译器。主要功能就是把.java代码转换成.class代码。
词法分析
词法分析阶段是编译过程的第⼀个阶段。这个阶段的任务是从左到右⼀个字符⼀个字符地读⼊源程序,将字符序列转换为标记(token)序列的过程。这⾥的标记是⼀个字符串,是构成源代码的最⼩单位。在这个过程中,词法分析器还会对标记进⾏分类。
词法分析器通常不会关⼼标记之间的关系(属于语法分析的范畴),举例来说:词法分析器能够将括号识别为标记,但并不保证括号是否匹配。
语法分析
语法分析的任务是在词法分析的基础上将单词序列组合成各类语法短语,如“程序”,“语句”,“表达式”等等.语法分析程序判断源程序在结构上是否正确.源程序的结构由上下⽂⽆关⽂法描述。
语义分析
语义分析是编译过程的⼀个逻辑阶段, 语义分析的任务是对结构上正确的源程序进⾏上下⽂有关性质的审查,进⾏类型审查。语义分析是审查源程序有⽆语义错误,为代码⽣成阶段收集类型信息。
语义分析的⼀个重要部分就是类型检查。⽐如很多语⾔要求数组下标必须为整数,如果使⽤浮点数作为下标,编译器就必须报错。再⽐如,很多语⾔允许某些类型转换,称为⾃动类型转换。
中间代码⽣成
在源程序的语法分析和语义分析完成之后,很多编译器⽣成⼀个明确的低级的或类机器语⾔的中间表⽰。该中间表⽰有两个重要的性质: 1.易于⽣成; 2.能够轻松地翻译为⽬标机器上的语⾔。
在Java中,javac执⾏的结果就是得到⼀个字节码,⽽这个字节码其实就是⼀种中间代码。
PS:著名的解语法糖操作,也是在javac中完成的。
Java中的后端编译
⾸先,我们⼤家都知道,通常通过 javac 将程序源代码编译,转换成 java 字节码,JVM 通过解释字节码将其翻译成对应的机器指令,逐条读⼊,逐条解释翻译。很显然,经过解释执⾏,其执⾏速度必然会⽐可执⾏的⼆进制字节码程序慢很多。这就是传统的JVM的**解释器(Interpreter)**的功能。为了解决这种效率问题,引⼊了 JIT 技术。
JAVA程序还是通过解释器进⾏解释执⾏,当JVM发现某个⽅法或代码块运⾏特别频繁的时候,就会认为这是“热点代码”(Hot Spot Code)。然后JIT会把部分“热点代码”翻译成本地机器相关的机器码,并进⾏优化,然后再把翻译后的机器码缓存起来,以备下次使⽤。
HotSpot虚拟机中内置了两个JIT编译器:Client Complier和Server Complier,分别⽤在客户端和服务端,⽬前主流的HotSpot虚拟机中默认是采⽤解释器与其中⼀个编译器直接配合的⽅式⼯作。
当 JVM 执⾏代码时,它并不⽴即开始编译代码。⾸先,如果这段代码本⾝在将来只会被执⾏⼀次,那么从本质上看,编译就是在浪费精⼒。因为将代码翻译成 java 字节码相对于编译这段代码并执⾏代码来说,要快很多。第⼆个原因是最优化,当 JVM 执⾏某⼀⽅法或遍历循环的次数越多,就会更加了解代码结构,那么 JVM 在编译代码的时候就做出相应的优化。
在机器上,执⾏java -version命令就可以看到⾃⼰安装的JDK中JIT是哪种模式:
上图是我的机器上安装的jdk1.8,可以看到,他是Server Compile,但是,需要说明的是,⽆论是Client Complier还是Server Complier,解释器与编译器的搭配使⽤⽅式都是混合模式,即上图中的mixed mode。
热点检测
上⾯我们说过,要想触发JIT,⾸先需要识别出热点代码。⽬前主要的热点代码识别⽅式是热点探测(Hot Spot Detection),有以下两种:c语言编译器idea
1、基于采样的⽅式探测(Sample Based Hot Spot Detection) :周期性检测各个线程的栈顶,发现某个
⽅法经常出险在栈顶,就认为是热点⽅法。好处就是简单,缺点就是⽆法精确确认⼀个⽅法的热度。容易受线程阻塞或别的原因⼲扰热点探测。
2、基于计数器的热点探测(Counter Based Hot Spot Detection)。采⽤这种⽅法的虚拟机会为每个⽅法,甚⾄是代码块建⽴计数器,统计⽅法的执⾏次数,某个⽅法超过阀值就认为是热点⽅法,触发JIT编译。
在HotSpot虚拟机中使⽤的是第⼆种——基于计数器的热点探测⽅法,因此它为每个⽅法准备了两个计数器:⽅法调⽤计数器和回边计数器。
⽅法计数器。顾名思义,就是记录⼀个⽅法被调⽤次数的计数器。
回边计数器。是记录⽅法中的for或者while的运⾏次数的计数器。
编译优化
前⾯提到过,JIT除了具有缓存的功能外,还会对代码做各种优化。说到这⾥,不得不佩服HotSpot的开发者,他们在JIT中对于代码优化真的算是⾯⾯俱到了。
这⾥简答提及⼏个我觉得⽐较重要的优化技术,并不准备直接展开,读者感兴趣的话,我后⾯再写⽂章单独介绍。
逃逸分析、 锁消除、 锁膨胀、 ⽅法内联、 空值检查消除、 类型检测消除、 公共⼦表达式消除