为什么要分页?如何分页?分页后地址如何转化?
The following article is from Rand Author Rand
分页机制是内存管理系统里很重要的一部分,但是分页机制却是在内存管理系统建立之前启用的。本文围绕分页机制展开,讲述分页机制的特点,分页机制是如何启用的,以及地址转化的问题。提纲导图如下:
01
逻辑地址,线性地址,虚拟地址,物理地址傻傻分不清?
在了解分页机制之前,得先清楚各类地址的含义。
逻辑地址
IA-32架构下,分段是必须的,而分页并不是必须的。不论分页与否,访问内存都必须采用“段基址:段内偏移地址”的策略。
因此访问内存需要16&32共48位的地址信息,这便是逻辑地址,高12位为段选择子,后面32位为段内偏移地址。
线性地址
使用选择子索引到段描述符取得32位的段基址,与逻辑地址内的32位段内偏移地址相加后,得到一个32位的地址信息,这便是线性地址。
虚拟地址
如果不启用分页机制,线性地址就是物理地址,而如果启用分页机制的话,线性地址又叫做虚拟地址。
物理地址
物理地址,不用多说,内存单元的真正地址。
01
为什么分页?
分页的本质就是将各种大小不同的内存段拆分成大小相同的内存块(通常4KB),以便进行内存管理的一种机制。
在纯分段情况下会出现许多问题,如应用程序过多,或者内存碎片过多而无法容纳新进程;又或者重新加载某内存段(之前交换出去的)时,找不到合适的内存区域。
造成这情况的原因:只分段的情况下,线性地址就是物理地址,两者都是连续的,不够灵活,不可能每次都能找到合适的内存区域。而分页的话,线性地址需要进一步转化为物理地址,线性地址是连续的,但是物理地址可以不连续。
这意味着可以在物理内存上随便(不是真随便,有块大小限制)找块地,只要线性地址和物理地址建立起映射关系就好。这样的话寻找合适的内存区域时就很灵活,解决了上述问题。
03
分页机制
页表(基于32位)
分页机制的核心是实现虚拟地址到物理地址的转化,如何转化呢?靠的是页表将虚拟地址和物理地址建立起映射关系,有了这映射关系,便可将虚拟地址转化成实际的物理地址。
总的思想是:将虚拟地址的高20位视作索引号,在页表中进行索引页表项,得到物理基址,将其与虚拟地址的低12位偏移地址相加后便得到最后的物理地址。
这也是一级页表下虚拟地址转化为物理地址的方式,然而一级页表并不适用,一般会使用多级页表。下面以二级页表为例讲解,先看其表项结构:
页目录项,页表项
页目录项和页表项的结构以及属性位简介如下:
二级页表地址转换
二级页表下虚拟地址到物理地址转化的原理与一级页表下转化的原理相同,只是多进行了一步转化。具体流程先看图:
第一步:使用段选择子去GDT中索引段描述符,“取出”段基址,段部件将段基址与偏移地址相加得到线性地址,也即虚拟地址。
第二步:将虚拟地址的高10位作为索引号,索引页目录表中的页目录项,具体操作:将虚拟地址高10位乘4加上CR3中的页目录物理地址,得到所要的页目录项的地址,即a+0x4*4。
第三步:将虚拟地址的中10位作为索引号索引二级页表中的页表项,具体操作:“取出”页目录项中的20位页表物理地址,即0x1000。再加上虚拟地址中10位乘4,得到物理页地址,即0x1000+0x234*4。
第四步:虚拟地址的后12位偏移地址和第三步得到的物理页地址相加得到最后实际的物理地址。如图中所示:0xfa000+0x567=0xfa567为最后target的物理地址。
以上就是二级页表下地址转化的过程,三级乃至多级页表下地址转化的方法都一样,不过是多重复了第三步的操作。
注:分页机制的作用是将虚拟地址转化为物理地址,但在实际转化的过程中相当于在关闭分页机制条件下进行的。即地址转化的过程中涉及的地址(CR3中页目录地址,页目录项地址,页表项地址)都是实际的物理地址,不会被分页机制继续转化,否则的话会无限递归下去。
为什么一级页表不适用?
1个4B大小的页表项指向4K的页面,映射整个4G空间的话需要4G / 4K = 1M 个页表项,因此整个页表大小为4M。
一个进程便需要4M大小的页表,如果说有很多进程则会花费许多内存来储存页表。再者这还只是32位的系统,内存空间只有232B = 4GB,若是64位系统,则需要 264 / 212 = 252个页表项 ,那简直不可想象。
多级页表为什么比一级页表省空间?
首先页表就是一个整体,一级页表下4M(32位)的页表就是一个整体,需要全部创建,所以每个进程都要有4M的页表,这样的话页表所占用的空间的确很多。
而多级页表只会为进程实际使用的那部分虚拟内存建立页表,只用一级页表需要建立所有的页表项,而多级页表只建立了需要的页表,如此当然更省空间。
那为什么多级页表下就只需要建立需要的那部分页表呢?
多级页表相当于对一级页表再次进行分页,将一张大页表拆成了多张小页表,以后想用几张便做几张,这样就很灵活而且省空间。
操作系统虚拟内存管理系统对物理页的分配也是这么实现的,只有某个虚拟地址需要一张新页表来映射时,才会为它分配物理页,这就做到了需要才建立的原则,因而比一级页表更省空间。
04
如何建立分页机制?(大致思路,与实际操作系统可能有出入)
分页机制是计算机启动时进行的,可以算是操作系统加载器的工作,建立起用分页机制大致要做以下几件事情:
1、建立初始页表,计算机启动时是在 1M 的实模式下工作,页表的建立相对来说较简单。而建立页表就是建立映射关系,建立映射关系就是添加页表项。操作系统内核的虚拟地址在0xc0000000以上,而最开始我们工作的地址是在物理内存的低端1M,所以这里的映射关系为将物理内存的低端1M映射到虚拟地址空间的0xc0000000以上。
2、GDT,内核栈等等都应放在内核中,需要修改其地址值,还有一些描述符中的段基址也需要修改,因为原来记录的地址是实际的物理地址,启用分页后应采用虚拟地址。
3、把页目录地址赋给CR3寄存器。
4、将CR0寄存器的PE位置1,开启分页机制。
5、地址转换的第一步就是去GDT中找段基址,现GDT发生了变化,需要使用 lgdt 指令重新加载GDT。
至此便启用了分页机制,随后系统运行中出现的地址都是虚拟地址,需要经过上述图中所示的转化来获得实际的物理地址。
05
分页的缺点?如何解决?
分页虽然很灵活,但是需要做多次计算,多次访问内存。每一个虚拟地址都要重复上述操作的话,处理器的负担过重,时间也花费过多。
如何解决呢?利用局部性原理为地址转换建立了一个高速缓存,TLB,俗称快表。有了TLB,处理器在寻址之前会先利用虚拟地址的高20位在TLB中查找相应条目,如果命中,则返回虚拟地址所映射的物理页地址,否则便去查询页表,找到相应物理页地址后再更新TLB。
- EOF -
推荐阅读 点击标题可跳转关注『CPP开发者』
看精选C++技术文章 . 加C++开发者专属圈子
点赞和在看就是最大的支持❤️