查看原文
其他

C++ 引用的本质

CPP开发者 2021-07-20

(给CPP开发者加星标,提升C/C++技能)

来源:恋猫大鲤鱼
https://blog.csdn.net/K346K346/article/details/46805159

代码运行环境:

Windows7 32bits+VS2017+Win32。

引用是C++引入的重要机制,它使原来在C中必须用指针实现的功能有了另一种实现的选择,在书写形式上更为简洁。那么引用的本质是什么,它与指针又有什么关系呢?

1.引用的底层实现方式

引用被称为变量的别名,它不能脱离被引用对象独立存在,这是在高级语言层面的概念和理解,并未揭示引用的实现方式。常见错误说法是“引用“自身不是一个变量,甚至编译器可以不为引用分配空间。

实际上,引用本身是一个变量,只不过这个变量的定义和使用与普通变量有显著的不同。为了解引用变量底层实现机制,考查如下代码:

int i=5;
int &ri=i;
ri=8;

在Visual Studio 2017环境的debug模式调试代码,反汇编查看源码对应的汇编代码的步骤是:调试->窗口->反汇编,即可得到如下原码对应的汇编代码:

int i=5;
00A013DE  mov        dword ptr [i],5     //将文字常量5送入变量i
int &ri=i;
00A013E5  lea        eax,[i]          //将变量i的地址送入寄存器eax
00A013E8  mov        dword ptr [ri],eax   //将寄存器的内容(也就是变量i的地址)送入变量ri
ri=8;
00A013EB  mov        eax,dword ptr [ri]   //将变量ri的值送入寄存器eax
00A013EE  mov        dword ptr [eax],8    //将数值8送入以eax的内容为地址的单元中
return 0;
00A013F4  xor        eax,eax

考查以上代码,在汇编代码中,ri的数据类型为dword,也就是说,ri要在内存中占据4个字节的位置。所以,ri的确是一个变量,它存放的是被引用对象的地址。由于通常情况下,地址是由指针变量存放的,那么,指针变量和引用变量有什么区别呢?使用指针常量实现上面的代码功能。考查如下代码:

int i=5;
intconst pi=&i;
*pi=8;

按照相同的方式,在VS2017中得到如下汇编代码:

int i=5;
011F13DE  mov         dword ptr [i],5  
int * const pi=&i;
011F13E5  lea         eax,[i]  
011F13E8  mov         dword ptr [pi],eax  
*pi=8;
011F13EB  mov         eax,dword ptr [pi]  
011F13EE  mov         dword ptr [eax],8  

观察以上代码可以看出:
(1)只要将pi换成ri,所得汇编代码与第一段所对应的汇编代码完全一样。所以,引用变量在功能上等于一个指针常量,即一旦指向某一个单元就不能在指向别处。
(2)在底层,引用变量由指针按照指针常量的方式实现。

2.高级语言层面引用与指针常量的关系

(1)在内存中都是占用4个字节(32bits系统中)的存储空间,存放的都是被引用对象的地址,都必须在定义的同时进行初始化。

(2)指针常量本身(以p为例)允许寻址,即&p返回指针常量(常变量)本身的地址,被引用对象用*p表示;引用变量本身(以r为例)不允许寻址,&r返回的是被引用对象的地址,而不是变量r的地址(r的地址由编译器掌握,程序员无法直接对它进行存取),被引用对象直接用r表示。

(3)凡是使用了引用变量的代码,都可以转换成使用指针常量的对应形式的代码,只不过书写形式上要繁琐一些。反过来,由于对引用变量使用方式上的限制,使用指针常量能够实现的功能,却不一定能够用引用来实现。

例如,下面的代码是合法的:

int i=5, j=6;
intconst array[]={&i,&j};

而如下代码是非法的:

int i=5, j=6;
intarray[]={i,j};

也就是说,数组元素允许是指针常量,却不允许是引用。C++语言机制如此规定,原因是避免C++语法变得过于晦涩。假如定义一个“引用的数组”,那么array[0]=8;这条语句该如何理解?是将数组元素array[0]本身的值变成8呢,还是将array[0]所引用的对象的值变成8呢?对于程序员来说,这种解释上的二义性对正确编程是一种严重的威胁,毕竟程序员在编写程序的时候,不可能每次使用数组时都要回过头去检查数组的原始定义。

3.非正常使引用变量指向别的对象

C++语言规定,引用变量在定义的时候就必须初始化,也即是将引用变量与被引用对象进行绑定。而这种引用关系一旦确定就不允许改变,直到引用变量结束其生命期。这种规定是在高级语言的层面上,由C++语言和编译器所做的检查来保障实施的。在特定的环境下,利用特殊的手段,还是可以在运行时动态地改变一个引用变量与被引用对象的对应关系,使引用变量指向一个别的对象。见下面的程序:

#include <iostream>
using namespace std;

int main(int argc,char* argv[]) {
 int i=5,j=6;
 int &r=i;
 void *pi,*pj;
 int* addr;
 int dis;

 pi=&i;    //取整型变量i的地址
 pj=&j;    //取整型变量j的地址
 dis=(int)pj-(int)pi;//计算连续两个整型变量的内存地址之间距离
 addr=(int*)((int)pj+dis);//计算引用变量r在内存中的地址

 cout<<"&i:"<<pi<<endl;
 cout<<"&j:"<<pj<<endl;
 cout<<"&pi:"<<&pi<<endl;
 cout<<"&pj:"<<&pj<<endl;
 cout<<"&addr:"<<&addr<<endl;
 cout<<"&dis:"<<&dis<<endl;
 cout<<"distance:"<<dis<<endl;
 
 (*addr)=(int)&j;    //将j的地址赋给引用r(此处把r看作指针)
 
 cout<<"addr:"<<addr<<endl;
 r=100;
 cout<<i<<" "<<j<<endl;
 return 0;
}

这个程序在Debug模式下输出结果如下:

&i:0038FC1C
&j:0038FC10
&pi:0038FBF8
&pj:0038FBEC
&addr:0038FBE0
&dis:0038FBD4
distance:-12
addr:0038FC04
5 100

仔细观察代码和输出结果可以得出如下结论:
(1)Win32(Windows 32bits)平台下,int型变量和指针变量都占用4个字节,但是&i-&j=-12,并非想象中的4。
原因有二:
一是局部变量存储在栈空间,栈在主存中的生长方向是从高地址到低地址,因此i和j的地址差为负数;
二是Debug模式下,int变量前后均添加4个字节的调试信息,故一个int占用了12字节。模式设为Release,就会发现栈上连续定义的int变量,地址相差4个字节。

(2)指针变量pi与int变量j地址间相差了24字节,按照推理,如果引用r不占用内存空间,那么地址差应该为12字节,这也说明了引用变量在内存占用空间。

(3)将引用变量r理解成指针,间接的获取r的地址并修改r的值,使r指向变量j。从引用的角度理解就是将引用r与j绑定。对r赋值,结果显示j的值被修改。

以上代码较为诡异,实际编程绝不提倡大家模仿。利用以上程序可以看出“引用“本身的确是一个变量,它存放被引用对象的地址。并且,利用特殊手段能够找到这个引用变量的地址并修改其自身在内存中的值,从而实现与其他对象的绑定。

这个程序在VS环境下的Release模式,编译不通过,会出现内存访问冲突,无法通过引用变量r修改j的值,可能与 Release模式下编译器对引用的优化有关。与此同时,该程序可移植性很差,在64bits平台上,由指针转换为int可能会发生截断从而丢失数据。其次,如果引用变量前的变量不是int型,考虑到内存对齐等因素,要准确计算引用变量的地址不是一件容易的事,很可能跟具体的编译器和运行环境相关。因此,研究此程序的目的是为了对引用变量的底层实现机制有所了解。在实际使用中,还是要遵循C++语言对引用制定的规范。


- EOF -


推荐阅读  点击标题可跳转

1、C++ sort 排序函数用法

2、C++模版的本质

3、《逆袭进大厂》之C++篇49问49答(绝对的干货)


关注『CPP开发者』

看精选C++技术文章 . 加C++开发者专属圈子

↓↓↓


点赞和在看就是最大的支持❤️

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存