# 第一章:前言 ## 1.1 概述 * 计算机的底层只有`二进制`,即计算机中`运算`和`存储`的`所有数据`都需要转换为`二进制`,包括:数字、字符、图片、视频等。 ![](./assets/17.jpg) ## 1.2 冯·诺依曼体系结构 * 之前,我们也提到现代的计算机(量子计算机除外)几乎都遵循`冯·诺依曼`体系结构,其理论要点如下: * ① **存储程序**:`程序指令`和`数据`都存储在计算机的内存中,这使得程序可以在运行时修改。 * ② **二进制逻辑**:所有数据和指令都以`二进制`形式表示。 * ③ **顺序执行**:指令按照它们在内存中的顺序执行,但可以有条件地改变执行顺序。 * ④ **五大部件**:计算机由`运算器`、`控制器`、`存储器`、`输入设备`和`输出设备`组成。 * ⑤ **指令结构**:指令由操作码和地址码组成,操作码指示要执行的操作,地址码指示操作数的位置。 * ⑥ **中心化控制**:计算机的控制单元(CPU)负责解释和执行指令,控制数据流。 * 所以,再次论证了为什么计算机只能识别二进制。 ## 3.2 进制 ### 3.2.1 常见的进制 * 在生活中,我们最为常用的进制就是`十进制`,其规则是`满 10 进 1` ,即: ![](./assets/18.jpeg) * 在计算机中,常见的进制有`二进制`、`八进制`和`十六进制`,即: * 二进制:只能 0 和 1 ,满 2 进 1 。 * 八进制:0 ~ 7 ,满 8 进 1 。 * 十六进制:0 ~ 9 以及 A ~ F ,满 16 进 1 。 > [!NOTE] > > 在十六进制中,除了 `0` 到 `9` 这十个数字之外,还引入了字母,以便表示超过 `9` 的值。其中,字母 `A` 对应十进制的 `10` ,字母 `B` 对应十进制的 `11` ,字母 `C` 对应十进制的 `12`,字母 `D` 对应十进制的 `13`,字母 `E` 对应十进制的 `14`,字母 `F` 对应十进制的 `15`。 * 进制的换算举例,如下所示: | 十进制 | 二进制 | 八进制 | 十六进制 | | ------ | ------ | ------ | -------- | | 0 | 0 | 0 | 0 | | 1 | 1 | 1 | 1 | | 2 | 10 | 2 | 2 | | 3 | 11 | 3 | 3 | | 4 | 100 | 4 | 4 | | 5 | 101 | 5 | 5 | | 6 | 110 | 6 | 6 | | 7 | 111 | 7 | 7 | | 8 | 1000 | 10 | 8 | | 9 | 1001 | 11 | 9 | | 10 | 1010 | 12 | a 或 A | | 11 | 1011 | 13 | b 或 B | | 12 | 1100 | 14 | c 或 C | | 13 | 1101 | 15 | d 或 D | | 14 | 1110 | 16 | e 或 E | | 15 | 1111 | 17 | f 或 F | | 16 | 10000 | 20 | 10 | | ... | ... | ... | ... | * 二进制和十六进制的关系:十六进制是以 16 为基数的进制系统,16 在二进制中表示为 ( 2^4 ),即:一个十六进制可以表示 4 位二进制。 > [!NOTE] > > 十六进制的范围是:0 ~ F (0 ~ 15)对应的二进制数的范围是:0000 ~ 1111 (0 ~ 15)。 * 每个十六进制数都可以映射到一个唯一的 4 位二进制数,即: | 十六进制 | 二进制 | | -------- | ------ | | 0 | 0000 | | 1 | 0001 | | 2 | 0010 | | 3 | 0011 | | 4 | 0100 | | 5 | 0101 | | 6 | 0110 | | 7 | 0111 | | 8 | 1000 | | 9 | 1001 | | A | 1010 | | B | 1011 | | C | 1100 | | D | 1101 | | E | 1110 | | F | 1111 | >[!NOTE] > >由此可见,每个十六进制数字确实由 4 位二进制数表示。 * 二进制和八进制的关系:八进制是以 8 为基数的进制系统,8 在二进制中表示为 ( 2^3 );即:一个八进制位可以表示 3 个二进制位。 > [!NOTE] > > 八进制的范围是:0 ~ 7 对应的二进制数的范围是:000 ~ 111。 * 每个八进制数位都可以映射到一个唯一的 3 位二进制数,即: | 八进制 | 二进制 | | ------ | ------ | | 0 | 000 | | 1 | 001 | | 2 | 010 | | 3 | 011 | | 4 | 100 | | 5 | 101 | | 6 | 110 | | 7 | 111 | > [!NOTE] > > 由此可见,每个八进制数字确实由 3 位二进制数表示。 ### 3.2.2 C 语言中如何表示不同进制的整数? * 规则如下: * 在 C 语言中,如果是`二进制`(字面常量),则需要在二进制整数前加上 `0b` 或 `0B` 。 * 在 C 语言中,如果是`八进制`(字面常量),则需要在八进制整数前加上 `0` 。 * 在 C 语言中,如果是`十进制`(字面常量),正常数字表示即可。 * 在 C 语言中,如果是`十六进制`(字面常量),则需要在十六进制整数前加上 `0x`或`0X` 。 * 示例: ```c #include int main() { int num1 = 0b10100110; // 二进制 int num2 = 0717563; // 八进制 int num3 = 1000; // 十进制 int num4 = 0xaf72; // 十六进制 printf("num1 = %d\n", num1); // num1 = 166 printf("num2 = %d\n", num2); // num2 = 237427 printf("num3 = %d\n", num3); // num3 = 1000 printf("num4 = %d\n", num4); // num4 = 44914 return 0; } ``` ### 3.2.3 输出格式 * 在 C 语言中,可以使用不同的`格式占位符`来`输出`不同`进制`的整数,如下所示: * `%d`:十进制整数。 * `%o` :八进制整数。 * `%x`:十六进制整数。 * `%#o` :显示前缀 `0` 的八进制整数。 * `%#x` :显示前缀 `0x` 的十六进制整数。 * `%#X` :显示前缀 `0X` 的十六进制整数。 > [!CAUTION] > > C 语言中没有输出二进制数的格式占位符!!! * 示例: ```c #include int main() { int num = 100; printf("%d 的十进制整数: %d\n", num, num); // 100 的十进制整数: 100 printf("%d 的八进制整数: %o\n", num, num); // 100 的八进制整数: 144 printf("%d 的十六进制整数: %x\n", num, num); // 100 的十六进制整数: 64 printf("%d 的八进制(前缀)整数: %#o\n", num, num); // 100 的八进制(前缀)整数: 0144 printf("%d 的十六进制(前缀)整数: %#x\n", num, num); // 100 的十六进制(前缀)整数: 0x64 printf("%d 的十六进制(前缀)整数: %#X\n", num, num); // 100 的十六进制(前缀)整数: 0X64 return 0; } ``` ## 3.3 进制的运算规则 ### 3.3.1 概述 * `十进制`的运算规则,如下所示: * 逢`十`进`一`(针对加法而言)。 * 借`一`当`十`(针对减法而言)。 * `二进制`的运算规则,如下所示: * 逢`二`进`一`(针对加法而言)。 * 借`一`当`二`(针对减法而言)。 * `八进制`的运算规则,如下所示: * 逢`八`进`一`(针对加法而言)。 * 借`一`当`八`(针对减法而言)。 * `十六进制`的运算规则,如下所示: * 逢`十六`进`一`(针对加法而言)。 * 借`一`当`十六`(针对减法而言)。 ### 3.3.2 二进制的运算 * 二进制的加法:`1 + 0 = 1` 、`1 + 1 = 10`、`11 + 10 = 101`、`111 + 111 = 1110`。 ![](./assets/19.svg) * 二进制的减法:`1 - 0 = 1` 、`10 - 1 = 1`、`101 - 11 = 10`、`1100 - 111 = 101` 。 ![](./assets/20.svg) ### 3.3.3 八进制的运算 * 八进制的加法:`3 + 4 = 7` 、`5 + 6 = 13`、`75 + 42 = 137`、`2427 + 567 = 3216`。 ![](./assets/21.svg) * 八进制的减法:`6 - 4 = 2` 、`52 - 27 = 33`、`307 - 141 = 146`、`7430 - 1451 = 5757` 。 ![](./assets/22.svg) ### 3.3.4 十六进制的运算 * 十六进制的加法:`6 + 7 = D` 、`18 + BA = D2`、`595 + 792 = D27`、`2F87 + F8A = 3F11`。 ![](./assets/23.svg) * 十六进制的减法:`D - 3 = A` 、`52 - 2F = 23`、`E07 - 141 = CC6`、`7CA0 - 1CB1 = 5FEF` 。 ![](./assets/24.svg) ## 3.4 进制的转换 ### 3.4.1 概述 * 不同进制的转换,如下所示: ![](./assets/25.png) * 在计算机中,数据是从右往左的方式排列的;其中,最右边的是低位,最左边的是高位,即: ![](./assets/26.svg) ### 3.4.2 二进制和十进制的转换 #### 3.4.2.1 二进制转换为十进制 * 规则:从最低位开始,将每个位上的数提取出来,乘以 2 的 (位数 - 1 )次方,然后求和。 > [!NOTE] > > * ① 在学术界,将这种计算规则,称为`位权相加法`。 > * ② `八进制转换为十进制`、`十六进制转换为十进制`和`二进制转换为十进制`的算法相同!!! * 示例:十进制转十进制 ![](./assets/27.svg) * 示例:二进制转十进制 ![](./assets/28.svg) #### 3.4.2.2 十进制转换二进制 * 规则:将该数不断除以 2 ,直到商为 0 为止,然后将每步得到的余数倒过来,就是对应的二进制。 > [!NOTE] > > * ① 在学术界,将这种计算规则,称为`短除法`或`连续除2取余法`。 > * ② 很好理解,只有不断地除以 2 ,就能保证最大的数字不超过 2 ,这不就是二进制(只能有 0 或 1)吗? > * ③ `八进制转换为二进制`、`十六进制转换为二进制`和`十进制转换为二进制`的算法相同!!! * 示例:十进制转十进制 ![](./assets/29.svg) * 示例:十进制转二进制 ![](./assets/30.svg) ### 3.4.3 二进制转八进制 * 规则:从右向左,每 3 位二进制就是一个八进制,不足补 0(分组转换法)。 * 示例:011 101 001 -> 351 ![](./assets/31.svg) ### 3.4.4 二进制转十六进制 * 规则:从右向左,每 4 位二进制就是一个十六进制,不足补 0(分组转换法)。 * 示例:1110 1001 -> 0xE9 ![](./assets/32.svg) ## 3.5 原码、反码和补码 ### 3.5.1 概述 * 机器数:一个数在计算机的存储形式是二进制,我们称这些二进制数为机器数。机器数可以是有符号的,用机器数的最高位来存放符号位,`0` 表示正数,`1` 表示负数。 > [!IMPORTANT] > > * ① 这里讨论的适用于`有符号位`的整数,如:int 等。 > * ② 这里讨论的不适用于`无符号位`的整数,即:unsinged int 等。 ![](./assets/33.svg) * 真值(数据位):因为机器数带有符号位,所以机器数的形式值不等于其真实表示的值(真值),以机器数 1000 0001 为例,其真正表示的值(首位是符号位)为 -1,而形式值却是 129 ,因此将带有符号位的机器数的真正表示的值称为机器数的真值。 > [!IMPORTANT] > > * ① 这里讨论的适用于`有符号位`的整数,如:int 等。 > * ② 这里讨论的不适用于`无符号位`的整数,即:unsinged int 等。 ![](./assets/34.svg) ### 3.5.2 原码 * 原码的表示与机器数真值表示的一样,即用第一位表示符号,其余位表示数值。 * 规则: * 正数的`原码`是它本身对应的二进制数,符号位是 0 。 * 负数的`原码`是它本身绝对值对应的二进制数,但是符号位是 1 。 * `+1` 的原码,使用 `16` 位二进数来表示,就是: | 十进制数 | 原码(16位二进制数) | | -------- | --------------------- | | +1 | `0`000 0000 0000 0001 | * `-1` 的原码,使用 `16` 位二进数来表示,就是: | 十进制数 | 原码(16位二进制数) | | -------- | --------------------- | | -1 | `1`000 0000 0000 0001 | > [!IMPORTANT] > > * ① 按照原码的规则,会出现 `+0` 和 `-0` 的情况,即:`0`000 0000 0000 0001(+0)、`1`000 0000 0000 0001(-0),显然不符合实际情况。 >* ② 所以,计算机底层虽然存储和计算的都是二进数,但显然不是原码。 ### 3.5.3 反码 * 规则: * 正数的反码和它的原码相同。 * 负数的反码是在其原码的基础上,符号位不变,其余各位取反。 * `+1` 的反码,使用 `16` 位二进数来表示,就是: | 十进制数 | 原码(16位二进制数) | 反码(16位二进制数) | | -------- | --------------------- | --------------------- | | +1 | `0`000 0000 0000 0001 | `0`000 0000 0000 0001 | * `-1` 的反码,使用 `16` 位二进数来表示,就是: | 十进制数 | 原码(16位二进制数) | 反码(16位二进制数) | | -------- | --------------------- | --------------------- | | -1 | `1`000 0000 0000 0001 | `1`111 1111 1111 1110 | > [!IMPORTANT] > > * ① 按照反码的规则,如果是 `+0`,对应的原码是 `0`000 0000 0000 0000;那么,其反码还是 `0`000 0000 0000 0000;如果是 `-0`,对应的原码是 `1`000 0000 0000 0000,其反码是 `1`111 1111 1111 1111,显然不符合实际情况。 >* ② 所以,计算机底层虽然存储和计算的都是二进数,但显然不是反码。 ### 3.5.4 补码 * 规则: * 正数的补码和它的原码相同。 * 负数的补码是在其反码的基础上 + 1 。 * `+1` 的补码,使用 `16` 位二进数来表示,就是: | 十进制数 | 原码(16位二进制数) | 反码(16位二进制数) | 补码(16位二进制数) | | -------- | --------------------- | --------------------- | --------------------- | | +1 | `0`000 0000 0000 0001 | `0`000 0000 0000 0001 | `0`000 0000 0000 0001 | * `-1` 的补码,使用 `16` 位二进数来表示,就是: | 十进制数 | 原码(16位二进制数) | 反码(16位二进制数) | 补码(16位二进制数) | | -------- | --------------------- | --------------------- | --------------------- | | -1 | `1`000 0000 0000 0001 | `1`111 1111 1111 1110 | `1`111 1111 1111 1111 | * 如果 `0` ,按照 `+0` 的情况进行处理,如下所示: ![](./assets/35.svg) * 如果 `0` ,按照 `-0` 的情况进行处理,如下所示: ![](./assets/36.svg) * `+1` 和 `-1` 的`原码`和`补码`的转换过程,如下所示: ![](./assets/37.svg) > [!IMPORTANT] > > * ① 补码表示法解决了`原码`和`反码`存在的`两种`零(`+0` 和 `-0`)的问题,即:在补码表示法中,只有`一个`零,即 `0000 0000`。 >* ②补码使得`加法运算`和`减法运算`可以统一处理,通过将减法运算`转换`为加法运算,可以简化硬件设计,提高了运算效率。 > * ③ 计算机底层`存储`和`计算`的都是`二进数的补码`。换言之,当`读取`整数的时候,需要采用`逆向`的转换,即:将补码转换为原码。正数的原码、反码、补码都是一样的,三码合一。负数的补码转换为原码的方法就是先减去 `1` ,得到反码,再按位取反,得到原码(符号位是不能借位的)。 ### 3.5.5 总结 * ① 计算机底层`存储`和`计算`的都是`二进数的补码`。换言之,当`读取`整数的时候,需要采用`逆向`的转换,即:将补码转换为原码。 * ② 正数的原码、反码和补码都是一样的,三码合一。 * ③ 负数的反码是在其原码的基础上,按位取反(0 变 1 ,1 变 0 ),符号位不变;负数的补码是其反码 + 1 。 * ④ 0 的补码是 0 。 * ⑤ 负数的补码转换为原码的方法就是先减去 `1` ,得到反码,再按位取反,得到原码(符号位是不能借位的)。 ## 3.6 计算机底层为什么使用补码? * `加法`和`减法`是计算机中最基本的运算,计算机时时刻刻都离不开它们,所以它们由硬件直接支持。为了提高加法和减法的运行效率,硬件电路必须设计得尽量简单。 * 对于有符号位的数字来说,内存需要区分符号位和数值位:对于人类来说,很容易识别(最高位是 0 还是 1);但是,对于计算机来说,需要设计专门的电路,这无疑增加了硬件的复杂性,增加了计算时间。如果能将符号位和数值位等同起来,让它们一起参与运算,不再加以区分,这样硬件电路就可以变得非常简单。 * 此外,加法和减法也可以合并为一种运算,即:加法运算。换言之,减去一个数就相当于加上这个数的相反数,如:`5 - 3` 相当于 `5 +(-3)`,`10 -(-9)`相当于 `10 + 9` 。 * 如果能够实现上述的两个目标,那么只需要设计一种简单的、不用区分符号位和数值位的加法电路,就能同时实现加法运算和减法运算,而且非常高效。其实,这两个目标已经实现了,真正的计算机的硬件电路就是这样设计的。 * 但是,简化硬件电路是有代价的,这个代价就是`有符号数`在存储和读取的时候都要继续转换。这也是对于有符号数的运算来说,计算机底层为什么使用`补码`的原因所在。 ## 3.7 补码到底是如何简化硬件电路的? * 假设 6 和 18 都是 short 类型,现在我们要计算 `6 - 18` 的结果,根据运算规则,它等价于 `6 +(-18)`。如果按照采用`原码`来计算,那么运算过程是这样的,如下所示: > [!NOTE] > > 直接使用原码表示整数,让符号位也参与运算,那么对于减法来说,结果显然是不正确的。 ![](./assets/38.svg) * 于是,人们开始继续探索,不断试错,终于设计出了`反码`,如下所示: > [!NOTE] > > 直接使用反码表示整数,让符号位也参与运算,对于 6 +(-18)来说,结果貌似正确。 ![](./assets/39.svg) * 如果我们将`被减数`和`减数`对调一下,即:计算 `18 - 6` 的结果,也就是 `18 +(-6)`的结果,继续采用`反码`来进行运算,如下所示: > [!NOTE] > > * ① 6 - 18,即:6+(-18),如果采用`反码`计算,结果是正确的;但是,18 - 6,即:18 +(-6),如果采用`反码`计算,结果相差 1 。 > * ② 可以推断:如果按照`反码`来计算,小数 - 大数,结果正确;而大数 - 小数,结果相差 1 。 ![](./assets/40.svg) * 对于这个相差的 `1` 必须进行纠正,但是又不能影响`小数-大数`的结果。于是,人们又绞尽脑汁设计出了`补码`,给`反码`打了一个`“补丁”`,终于把相差的 `1` 给纠正过来了。那么,`6 - 18` 按照`补码`的运算过程,如下所示: ![](./assets/41.svg) * 那么,`18 - 6` 按照`补码`的运算过程,如下所示: ![](./assets/42.svg) > [!IMPORTANT] > > 总结:采用`补码`的形式正好将相差的 `1`纠正过来,也没有影响到小数减大数,这个“补丁”非常巧妙。 > > * ① 小数减去大数,结果为负,之前(负数从反码转换为补码需要 +1)加上的 1 ,后来(负数从补码转换为反码要 -1)还需要减去,正好抵消掉,所以不会受到影响。 > * ② 大数减去小数,结果为正,之前(负数从反码转换为补码需要 +1)加上的 1 ,后来(正数的补码和反码相同,从补码转换为反码不用 -1)就没有再减去,不能抵消掉,这就相当于给计算结果多加了一个 1。 > > `补码`这种天才般的设计,一举达成了之前加法运算和减法运算提到的两个目标,简化了硬件电路。 ## 3.8 问题抛出 * 在 C 语言中,对于`有符号位`的整数,是使用 `0` 作为正数,`1` 作为负数,来表示`符号位`,并使用`数据位`来表示的是数据的`真值`,如下所示: ```c int a = 10; int b = -10; ``` ![](./assets/43.svg) * 但是,对于`无符号位`的整数而言,是`没有`符号位和数据位,即:没有原码、反码、补码的概念。无符号位的整数的数值都是直接使用二进制来表示的(也可以理解为,对于无符号位的整数,计算机底层存储的就是其原码),如下所示: ```c unsigned int a = 10; unsigned int b = -10; ``` ![](./assets/44.svg) * 这就是导致了一个结果就是:如果我定义一个`有符号`的负数,却让其输出`无符号`,必然造成结果不对,如下所示: ```c #include char *getBinary(int num) { static char binaryString[33]; int i, j; for (i = sizeof(num) * 8 - 1, j = 0; i >= 0; i--, j++) { const int bit = (num >> i) & 1; binaryString[j] = bit + '0'; } binaryString[j] = '\0'; return binaryString; } int main() { // 禁用 stdout 缓冲区 setbuf(stdout, NULL); int num = -10; printf("b=%s\n", getBinary(num)); // b=11111111111111111111111111110110 printf("b=%d\n", num); // b=-10 printf("b=%u\n", num); // b=4294967286 return 0; } ``` * 其实,C 语言的底层逻辑很简单,C 语言压根不关心你定义的是有符号数还是无符号数,它只关心内存(如果定义的是有符号数,那就按照有符号数的规则来存储;如果定义的是无符号数,那就按照无符号数的规则来存储)。换言之,有符号数可以按照无符号数的规则来输出,无符号数也可以按照有符号数的规则来输出,至于输出结果对不对,那是程序员的事情,和 C 语言没有任何关系。 > [!IMPORTANT] > > * ① 实际开发中,`printf` 函数中的常量、变量或表达式,需要和格式占位符一一对应;否则,将会出现数据错误的现象。 > * ② 正因为上述的原因,很多现代化的编程语言,如:Java 等,直接取消了无符号的概念。但是,很多数据库是使用 C 语言开发的,如:MySQL 等,就提供了创建数据表的字段为无符号类型的功能,即:`UNSIGNED`(正整数) ,不要感觉困惑!!! > * ③ 对于 `1000 0000 …… 0000 0000` 这个特殊的补码,无法按照上述的方法转换为原码,所以计算机直接规定这个补码对应的值就是 `-2³¹`,至于为什么,下节我们会详细分析。