二进制编码数字,即计算机编码,指电脑内部代表字母或数字的方式。
位元、字节、字组位元和无号整数计算机的基本储存单位是“位元”,通过开关变化设置表达值0或1。在有两个位元的情况下可以得到四个不同的状态:
00 01 10 11如果有三个位,则有八种状态:
000 001 010 011 100 101 110 111每当增加一个位时,将得到两倍的状态。
计算机使用不同数量的位元储存不同种类的信息。4个位元被称为一“nybble”,8个被称为一字节,也有16,32,或更多位元组成的信息计量单位。
一个nybble可以为16种不同的情况编码,例如数字0到15。大体上,使用任何序列的排列来表示不同的16种状态是可以的,但在实际的应用通常是这样的:
0000 = 十进制0 1000 = 十进制8 0001 = 十进制1 1001 = 十进制9 0010 = 十进制2 1010 = 十进制10 0011 = 十进制3 1011 = 十进制11 0100 = 十进制4 1100 = 十进制12 0101 = 十进制5 1101 = 十进制13 0110 = 十进制6 1110 = 十进制14 0111 = 十进制7 1111 = 十进制15这样的表示是很自然的,因为它符合我们所熟悉的十进制数表示方法。例如,给定一个十进制数:
7531
我们很自然地把它理解为:
7 × 1000 + 5 × 100 + 3 × 10 + 1 × 1
或者,使用10的幂来表示:
7 × 103+ 5 × 102+ 3 × 101+ 1 × 100
注意任何数(除了0)的0次幂都是1。
数据中的每个数字表示从0到9的值,这样我们有10个不同的数字,那就是我们把它称为“十进制”的原因。每个数字可以通过10的某次幂来决定它的位置。这听起来很复杂,但实际上并不是这样的。这正是当您读一个数字的使用认为是理所当然的事情,您甚至都不用仔细思考它。
类似地,使用二进制编码就像上面所说的那样,值13是这样编码的:
1101
每一个位置有两个数字可以选择,所以我们称它为“二进制”。因此,它们的位置是这样决定的:
1101 =1 × 8 + 1 × 4 + 0 × 2 + 1 × 1 = 13(十进制)
八进制和十六进制数现在让我们讨论一些偏外的话题:对二进制数字的表示方法。计算机通常使用二进制来表达数据,但是在实际中如果使用像这样的二进制:
1001 0011 0101 0001
那将是一件痛苦的事,并且很容易出错。通常计算机使用一个基于二进制的表达方式:八进制,或更通常使用的,十六进制。
这一件听起来挺狡猾但实际上又很简单的事。如果不是这样的话,我们就不会这样使用了。在平常的十进制体系中,我们有10数字(0到9)按以下方式构成排列:
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 ...
在八进制中,我们只有八个数字(0到7)按以下方式构成排列:
0 1 2 3 4 5 6 7 10 11 12 13 14 15 16 17 20 21 22 23 24 25 26 ...
也即是说,八进制的“10”相当于十进制的“8”,八进制的“20”相当于十进制的“16”,以此类推。
在十六进制中,我们只有十六个数字(0到9,然后是从a到f)按以下方式构成排列:
0 1 2 3 4 5 6 7 8 9 a b c d e f 10 11 12 13 14 15 16 ...
也即是说,十六进制的“10”相当于十进制的“16”,十六进制的“20”相当于十进制的“32”。1
有符号整数和补码在定义了无符号二进制数后,我们就要着手定义负数了,或称为“有符号整数”。最简单的一个方法是保留一个位来表示数值的符号。这个“符号位”可以位于数值的最左边,当然也可以位于数值的最右边。如果这个符号位为0,表示数值是正的,如果这个符号位为1,表示数值是负的。
这样做是可以的,虽然从人类的角度来看是最明显的解决方案,但是它对于计算机来说有可能带来一些难度。例如,这种编码使得0可以有正负两种。人们可能对此感到不可思议,但是这对计算机来说是适应的。
对计算机来说,更自然的表达方式是对给定的位数的二进制数按其范围分成两半,其中前一半用来表示负数。例如,在4位数值中,你可以得到:
0000 = 十进制0 0001 = 十进制1 0010 = 十进制2 0011 = 十进制3 0100 = 十进制4 0101 = 十进制5 0110 = 十进制6 0111 = 十进制7 1000 = 十进制-8 1001 = 十进制-7 1010 = 十进制-6 1011 = 十进制-5 1100 = 十进制-4 1101 = 十进制-3 1110 = 十进制-2 1111 = 十进制-1现在我们得到了一个“有符号整数”数字系统,使用所知道的,为了一些不是很重要的原因,“补码”编码方式。对16位有符号数字编码来说,我们可以得到范围为-32,768到32,767的有符号数字。对一个32位的有符号编码系统来说,我们可以为从-2,147,483,648到2,147,483,647的数编码。
与只改变符号位来表示负数的编码方式相比,“补码”编码方式与之有所不同。例如对于-5来说,只对符号位编码,应该是:
1101但是对于“补码”编码方式来说,则是:
1011这对于符号编码来说是-3。关于为什么计算机要使用补码这种编码方式我们会在后面解释。
所以,现在我们可以以二进制方式来表示正负两种不同的数值。请记住对于一个二进制数来说,只有两种解释方式。如果在内存中有一个这样的二进制数值:
1101定点小数这种格式通常被用于商业计算(例如在电子表格或COBOL中);因为在这里,丢弃小数位来记录金钱是不能接受的。因此了解二进制如何存贮小数是十分有用的。
首先去我们必须决定要用多少位来存贮小数部分和多少位来存储整数部分。假设我们使用32位来表示这种格式,那么我们用16位表示整数部分,16位来表示小数部分。
小数部分怎么使用呢?这沿用了表示整数的方式:如果8位接下来是4位,是2位,1位,那么当然接下来就是半位,1/4位和1/8位等等了。
例如:
整数位 小数位 0.5 = 1/2 = 00000000 00000000.10000000 00000000 1.25 = 1 1/4 = 00000000 00000001.01000000 00000000 7.375 = 7 3/8 = 00000000 00000111.01100000 00000000有一点棘手的是,如果您要表达1/5(十进制的0.2),那您不能得到精确的数值表达方式。最好的方法只能是:
13107/65536 = 00000000 00000000.00110011 00110011 = 0.1999969... 十进制
13108/65536 = 00000000 00000000.00110011 00110100 = 0.2000122... 十进制
然而不,您不能这样做,即使您有更多的数位来表达。问题是,一些小数使用二进制的方式不能精确地表达出来。除非您使用一个特殊的办法。这个特殊的办法是分别使用两个数字来表达小数:一个是分子,一个是分母。然后您可以使用学校学习的加、减、乘、除来得到它们。然而,这些方法不能表达更高级的数字(例如平方根),或者如果这两个分母的最小公倍数很大的话,那就难以使用。这就是使用定点小数表达小数的缺点。1
浮点小数当我们使用了有符号和无符号的数值表达方式时。如果遇到连32位也不足以表达的大范围的数,或也许可以表达,但我们必须为此放弃小数位时,我们可以选择的以获得更大范围的数值的表达方式的方法是使用“浮点小数”格式而抛弃“定点小数”格式。1
编程语言中的数对于低级语言的编程者来说,他们要担心有符号和无符号、定点和浮点数的运算。他们必须使用十分不同的代码来实现操作。
但是,对高级语言的编程者来说,诸如LISP和Python提供了一些列诸如“有理数”、“复数”之类的抽象数据类型。而他们可以断言他们的系统可以使用数学操作做正确的运算。由于操作符重载,数学运算可以应用于任何数字——无论是有符号的、无符号的、有理数、定点小数、浮点小数或复数。1
文本编码:ASCII和字符串现在我们已经得到不同的方法来存储数据了,那么文本呢?我们怎么存储姓名、地址或写给朋友的信件呢?
当然,如果您还记得位是位的话,我们没有理由不能使用位来表达字母“A”或“?”或“Z”之类的。因为很多计算机每次处理一个字节,所以使用单字节的数据来表达单个字母会很方便。我们可以使用这个:
0100 0110 (hex 46)来表示字母“F”。计算机使用这样的“字符编码”来向显示程序传送要求的文本。
下面是一个用来存储西方字母的标准二进制编码,就是通常所说的“美国信息交换标准码”(英文简称“ASCII”),下面的编码为ASCII编码,使用“d”表示十进制编码,“h”表示十六进制代码,“o”表示八进制代码:
ASCII码表 ______________________________________________________________________ ch ctl d h o ch d h o ch d h o ch d h o ______________________________________________________________________ NUL ^@ 0 0 0 sp 32 20 40 @ 64 40 100 ' 96 60 140 SOH ^A 1 1 1 ! 33 21 41 A 65 41 101 a 97 61 141 STX ^B 2 2 2 " 34 22 42 B 66 42 102 b 98 62 142 ETX ^C 3 3 3 # 35 23 43 C 67 43 103 c 99 63 143 EOT ^D 4 4 4 $ 36 24 44 D 68 44 104 d 100 64 144 ENQ ^E 5 5 5 % 37 25 45 E 69 45 105 e 101 65 145 ACK ^F 6 6 6 & 38 26 46 F 70 46 106 f 102 66 146 BEL ^G 7 7 7 ` 39 27 47 G 71 47 107 g 103 67 147 BS ^H 8 8 10 ( 40 28 50 H 72 48 110 h 104 68 150 HT ^I 9 9 11 ) 41 29 51 I 73 49 111 i 105 69 151 LF ^J 10 a 12 * 42 2a 52 J 74 4a 112 j 106 6a 152 VT ^K 11 b 13 _ 43 2b 53 K 75 4b 113 k 107 6b 153 FF ^L 12 c 14 , 44 2c 54 L 76 4c 114 l 108 6c 154 CR ^M 13 d 15 _ 45 2d 55 M 77 4d 115 m 109 6d 155 SO ^N 14 e 16 . 46 2e 56 N 78 4e 116 n 110 6e 156 SI ^O 15 f 17 / 47 2f 57 O 79 4f 117 o 111 6f 157 DLE ^P 16 10 20 0 48 30 60 P 80 50 120 p 112 70 160 DC1 ^Q 17 11 21 1 49 31 61 Q 81 51 121 q 113 71 161 DC2 ^R 18 12 22 2 50 32 62 R 82 52 122 r 114 72 162 DC3 ^S 19 13 23 3 51 33 63 S 83 53 123 s 115 73 163 DC4 ^T 20 14 24 4 52 34 64 T 84 54 124 t 116 74 164 NAK ^U 21 15 25 5 53 35 65 U 85 55 125 u 117 75 165 SYN ^V 22 16 26 6 54 36 66 V 86 56 126 v 118 76 166 ETB ^W 23 17 27 7 55 37 67 W 87 57 127 w 119 77 167 CAN ^X 24 18 30 8 56 38 70 X 88 58 130 x 120 78 170 EM ^Y 25 19 31 9 57 39 71 Y 89 59 131 y 121 79 171 SUB ^Z 26 1a 32 : 58 3a 72 Z 90 5a 132 z 122 7a 172 ESC ^[ 27 1b 33 ; 59 3b 73 [ 91 5b 133 { 123 7b 173 FS ^\ 28 1c 34 62 3e 76 ^ 94 5e 136 ~ 126 7e 176 US ^_ 31 1f 37 ? 63 3f 77 _ 95 5f 137 DEL 127 7f 177 ______________________________________________________________________上面这个列表的最左边有一个些奇怪的字符,例如“FF”和“BS”,这些都不是文本字符。相反,它们是控制字符,也就是说当这些字符发送到特定的设备时,它将产生一些动作。例如“FF”表示换页,或弹出;“BS”表示退格,而“BEL”表示一个响声。在一个文本编辑器中,它们会显示成一个白色或黑色的方块,或笑脸、音符或其它一些奇怪的符号。要打出这些字符,可以使用CTRL键和一个合适的代码。例如同时按住“CTRL”和“G”,或简写成“CTRL-G”或“^G”可以打出一个BEL字符。
上面这个ASCII码表示定义了128个字符,这意味着ASCII码只需要7位。但是,很多计算机都以字节为单位存储信息。这个额外的一位可以定义第二个128个字集,一个“扩展”字集。
在实际中,有很多不同的“扩展”字集,提供很多例如数学符号等的符号或非英语字符。这个扩展字集并没有进行标准化,并经常会引起混淆。
这个表格强调了这篇文章的主题:位就是位。这样的话,您可以使用位来表示字符。您可以把特殊的代码描述成特殊的十进制、八进制和十六进制,但是它们仍然是相同的代码。这些数值的表达,无论是十进制、八进制或十六进制,都只是相同的位的表达。
当然,您可能在一段话中表达很多的字符,例如:
Tiger, tiger burning bright!
这只是简单的替换成ASCII码,表示成:
54 69 67 65 72 2c 20 74 69 67 65 72 20 62 75 ...
计算机把这种ASCII“字符串”以连续空间的“数组”来存储。一些应用程序可以包括一个二进制数值表示字符串的长度,但是更通常的做法是使用一个表示结尾的字符NULL(ASCII表中的0字符〕表示字符串的结束。2
参见二进制
二进制数学
二进制编码数据
八进制
十六进制
本词条内容贡献者为:
李岳阳 - 副教授 - 江南大学