来源 | 码农的荒岛求生(ID:escape-it)
如若转载请联系原公众号
先来看一个简单的问题:小孩子都知道数数:1,2,3,4,5,6,7,8,9,10,可为什么要这样数呢?为什么不是1,2,3,4,5,6,10呢?
一种比较流行的解释是因为人类有10个手指:
所以人类的数字系统就是10进制的,如果这个解释成立,那么变色龙的数字系统应该是4进制:哈哈,开个玩笑,其实计算机在最最最最底层就是一个个开关,因此计算机系统是2进制,关于CPU的构造你可以参考《你管这破玩意叫 CPU?》:0这个数字其实有非常重要的意义,可能大家都没想过这个问题,没关系,我们来看两个不同的数字系统:阿拉伯数字和罗马数字:注意,罗马数字中没有 “0” 这个概念,你可能会想,这有什么大不了的吗?让我们来看一个例子,数字205,分别在两种系统的表示。可以看到,在阿拉伯系统中数值和数字所在的位置有直接关系,这就是进位制,而在罗马数字系统则没有进位制,这使得罗马数字在表示大数值时非常困难。计算机系统中的二进制同样是进位制,数字5用二进制表示就是101:使用 k 个bit,那么可以表示 2^k 个整数,范围从 0 到 2^k - 1,假设 k 有 8 位,那么表示范围就是 0 到 255,当然这里说的是无符号正整数。现在我们可以表示正整数了,但真正有用的计算不可避免会涉及到负数,也就是带符号整数,而这也是真正有趣的地方。正整数的表示非常简单,给定 k 个bit,那么我们可以表示 2^k 个数,假设k为4,那么我们可以表示16个数字。你可能会想这还不简单,一半一半嘛!其中一半用来表示正数,另一半用来表示负数!假设有4个比特位,如果用来表示无符号正数,就是0 ~ 15,而如果要表示有符号整数,那么其中一半给到+1 ~ +7,另一半给到-1 ~ -7,一切看最左边的 bit 是 0,如果最左边的 bit 位是 0 则表示正数,否则表示负数。现在我们已经知道正负数是通过什么来决定的了,接下来的问题就是负数该怎么表示呢?也就是说对于比如-2,现在我们只知道其最左边的 bit 位是1,那么右边的这些 bit 到底该是多少呢?第一种设计方法很简单,既然0010表示+2,那么如果最左边的bit位替换成1就表示对应的负数,即1010表示-2,这种设计方法简单直接,这是最符合人类的思维的设计(不一定最好)。如果这样设计的话,4个 bit 位能表示的所有数字就是:你给这种非常符合人类思维的数字表示方法起了个名字,原码。这种设计下会有一个奇怪的表示:0000表示0这没什么问题,1000会表示 -0,这会导致出现-0这样的数字,其实 0 和 -0 不应该有什么区别。身为设计天才的你显然不满足于此,是不是还有其它设计方法?你觉得第一种表示方法也就是原码太原始,可以说基本上没什么设计,你突发奇想,既然0010表示+2,那么将其全部翻转,即1101来表示-2好了,即:在反码表示法下,也存在-0,0000表示0,全部翻转也就是1111来表示-0,可以看到这和原码表示方法差别没那么大。到这里有的同学可能会想,计算机设计者其实怎么来表示有符号数其实都是可以的,原码可以,反码也可以,都能表示出来,设计计算机太容易了吧!你猜的没错,就是这么容易!如果你是计算机的创造者,怎么设计都可以!最初的计算机设计者真的可以有很多表示数字的方法,采用反码表示数字的计算机系统在历史上真的出现过!!!但这些表示方法不约而同都有一个问题,那就是两数相加。在原码表示法下,2为0010,-2为1010,那么计算机该怎么做2 + ( -2 )加法呢?可是1100在原码表示法下是 -4,这与原码表示法本身是矛盾的。再来看看反码,2为0010,-2为1101,两数相加:1111在反码表示下为-0,虽然-0不够优雅,但好歹和反码表示法本身没有矛盾,这大概就是为什么早期会有计算机采用反码表示数字的原因。在《你管这破玩意叫CPU?》一文中我们知道,计算机加法是通过加法器组合电路实现的,而这里的不管是原码还是反码,要想计算加法都不可避免的要在前面提到的加法器之上额外添加组合电路来确保有符号数相加的正确性,这无疑会增加电路设计的复杂度。人是懒惰的也是聪明的,我们就没有一种2+-2就是0(0000)的数字表达方法吗?现在,对于最左边的bit位来说,0表示正数,1表示负数是没有什么异议的,这里的关键在于我们需要一种表示方法,可以让A+(-A) = 0,而且这里0的二进制也是0,如果是4个bit为的话就应该是0000。假设A=2,那么我们重点研究下2+-2 = 0(0000)的表示方法。对于2来说,很简单就是0010,对于-2来说,现在我们只能确定最左边的bit位是1,也就是说 :显然 -2 应该用1110来表示,这样2+-2就真的是0了,由此推断:注意看-1和0,分别是1111和0000,当我们让-1(1111)加上1(0001)时,我们确实得到了0000,不过还有一个进位,实际上我们得到的是10000,但我们可以放心的忽略掉该进位。这种表示方法最美妙的地方在于《你管这破玩意叫CPU》一文中提到的加法器不用修改就可以直接计算有符号数字的加法。你可以自己试验几个数字相加就能发下这种表示方法的奇妙之处,你给这种数字表达方法起了名字,补码,这现代计算机系统所采用的数字表示方法。采用补码,如果是4个bit位,那么我们可以表示的范围是-8 ~ 7。因为补码不需要表示 -0 这个奇葩,你会发现一个很有意思的规律,那就是负数的反码加上1就是对应的补码,这是计算机教科书在讲解补码时很重要的一个知识点,现在你应该知道这个知识点是怎么来的了吧!
就像前面提到的,现代计算机采用补码的根本原因在于这种表示方法可以简化电路设计,尽管补码对人类来说不够直观。到这里我们可以看到,在计算机科学中,最符合人类思维的设计并不一定对计算机最优,这也是最迷人的地方,人和机器毕竟不同嘛!和十进制加法一样,从右到左,如果产生进位,那么进位就要参与左边一列的计算。注意,在这个过程中加法器关心这个数字是正数还是负数了吗?答案是没有,加法器或者更具体是CPU中的ALU根本就不关心是正数还是负数,它只知道我要进行加法计算,除此之外不 CARE 任何其它信息,至于数字该采用反码还是补码这些是人类需要理解的,确切来说是编译器需要来理解的,程序员都无需关心,但程序员需要知道数据类型的表示范围。在本文我们详细讲解了CPU是如何识数这一主题,正如本文所言,CPU其实本质的上是不识数的,也不需要识数,这正是补码这一数字表示方法的优点。希望本文能对大家理解计算机系统的数字表示有所帮助。