C语言非常灵活、更容易表达,这是C语言很成功并且一直没被“更好的”语言取代的一个原因。例如,其灵活性的一个表现就是,可以用多种不同的方式编写代码,但是完成完全一样的功能,因此每个人可以根据自己的喜好而形成不同的编码风格。但是有一个问题:有时候,两段代码虽然表面上看起来能完成同样的功能,但是却有细微的差别。这种情况可能在最简单的代码中发生,本文将探讨一些可能发生的情况。
在C语言中,利用几种不同的方式来完成同一件事,这是很常见的,这些方式达到的效果完全相同。例如,假设x是一个普通的int变量,以下每个语句都将完成同项的任务:
使用其中的每一种方法,x都会加1。唯一可能的区别是,能力较弱的编译器可能会为后两种方法生成稍好一些的代码(这说明得到更好的编译器是值得的)。
上面两种形式的++运算符会产生相同的结果。但是,如果表达式的结果作为中间值被使用,那么前增量和后增量是不同的,因此:
y=x++; // y在增量前被赋值
y=++x; // y在增量后被赋值
有趣的是,后增量稍微“昂贵”一些,因为需要分配存储空间以保留x的旧值。但是,编译器可能会对此进行优化。如果在不使用表达式的值时分配存储,那么肯定需要一个新的编译器!
如果x不是int值自身,而是指向int值的指针,则加1会产生指针地址加4(在32位机器上)的效果。如果你对此感到惊讶,就有必要复习一下指针运算了。然而,有时看似等效的表达方式会有非常细微的差异……
对任何编程语言来说,你能做的最简单的事可能就是为变量赋值。所以,使用C语言时,我们可以这样写:
当然,也可以更紧凑地写成这样:
它们是100%等效的,对吗?大多数情况下,这两种表达方式是完全等效的,但是(至少)在四种情况下,选择一种或另一种可能会有不同:
首先,也是最平淡无奇的,每个变量都是独立的,这时或许加个注释,说明为什么将其设置为该值比较合适。
其次,编写可维护的代码肯定比较好。也许在将来的某个时候,可能需要更改代码,使这三个变量都设置为不同的值。第一种格式更容易修改。
第三个原因是当编译器不合标准时,可能会为第一种形式的语句生成这样的代码:
第二种语句会提示r0只需要加载一次。同样,更好的编译器不需要提示。
最后是执行顺序的问题。在第一种语句中,很明显将先赋值alpha,最后赋值gamma。编译器会这样解释第二种语句:
这意味着赋值顺序颠倒了。但有关系吗?大多数时候,没有。但如果这些是设备寄存器,而不是普通变量,就可能会有很大的不同。硬件需要设置值然后按精确的顺序加载,这是很常见的。
所以我想说,应该避免在一个语句中多次赋值。
总之,虽然C是一种轻量型编程语言,但如果简化完成任务的方式,C语言还可以更变得轻,从而可能产生更清晰、更易于维护的代码。
网友谈经验:
@ GeorgeD
产生意外的另一个主要原因是中断。例如,在赋值顺序的例子中:
alpha = beta = gamma = 99;
有可能在beta被赋值99之后,一个中断立马重新将其赋值为77。
那么结果将是:
gamma = 99;
beta = gamma;
beta = 77;
alpha = 77
但是,在单独赋值时:
alpha = 99;
beta = 99;
gamma = 99;
只有beta被中断重新赋值为 77。
人们会期望这个复合语句中具有一些原子性,但这在C语言中没有定义。程序员可以在复合语句的执行期间禁用中断,如果他愿意的话。
@ kalpak
我会说这些意外是源于“聪明过分”的代码。
现实中一个程序员需要写多少次“alpha = beta = gamma = 99;”?
换句话说,与所带来的风险相比,此类优化代码的优化产生的好处有多大?
此外,这样的赋值使注释变得困难,因此可读性很差。
当程序员编写这样的代码时,我会质疑架构师和设计师的能力。
在过去的日子里,内存不足且时钟还是KHz,有时不得不为了解析效率而牺牲可读性。
而现在有非常好的优化编译器可用,内存充足,处理器速度达到 100 MHz,我们必须说这些代码是不安全的或错误的。
作者介绍:
Colin Walls是西门子公司Mentor的嵌入式软件技术专家,拥有超过40年电子行业的经验,主要专注于嵌入式软件。他经常在大会和研讨会上发表演讲,并撰写了大量技术文章和两本关于嵌入式软件的书籍。
(原文刊登于Aspencore旗下embedded网站,参考链接:Surprises in C code,由Jenny Liao编译。)