参考:拆分-第5章-概率
在编码信息时,表示每个符号所需的位数应尽可能接近符号数量的对数(以2为底),即log2(n)。这可以确保存储和传输的效率。
该表格完整地涵盖了从符号"AA"到符号"EE"的所有组合,及其相应的二进制编码。
10进制 | 符号 | 编码(二进制) |
---|---|---|
0 | AA | 00000 |
1 | AB | 00001 |
2 | AC | 00010 |
3 | AD | 00011 |
4 | AE | 00100 |
5 | BA | 00101 |
6 | BB | 00110 |
7 | BC | 00111 |
8 | BD | 01000 |
9 | BE | 01001 |
10 | CA | 01010 |
11 | CB | 01011 |
12 | CC | 01100 |
13 | CD | 01101 |
14 | CE | 01110 |
15 | DA | 01111 |
16 | DB | 10000 |
17 | DC | 10001 |
18 | DD | 10010 |
19 | DE | 10011 |
20 | EA | 10100 |
21 | EB | 10101 |
22 | EC | 10110 |
23 | ED | 10111 |
24 | EE | 11000 |
log2(5)≈2.32 位是每个符号所需的理论最小平均位数。用3位表示单个符号时,效率要低得多(3位对比2.32位)。通过符号分组,效率有所提高:
2个符号:每个符号2.5位(更接近2.32)
3个符号:每个符号2.33位(更接近2.32)
这种方法允许更高效的编码,特别是当符号数量不是2的幂时。