就是它,香农搞出来的公式,但不是香农公式。
而是关于信息熵的公式,它是信息论的基础。
看起来很复杂,对吧?
别被吓到,原理很简单,等我拆解完你就明白了。
01
信息熵:衡量不确定性的尺度
我们常说"获取信息",那么,到底什么是"信息"?
信息论鼻祖克劳德·香农(Claude Shannon)在1948年提出一个颠覆性的定义:信息是用来减少不确定性的。
举个例子: 抛硬币,在看到结果前,有两种可能——正面或反面,这就是“不确定”。
这种不确定性,香农用“信息熵”(Entropy)来量化。
在 𝐻 ( 𝑋 ) = − ∑ 𝑝 ( 𝑥 𝑖 ) log 2 𝑝 ( 𝑥 𝑖 )这个公式中:
H(X) 是信息熵(单位:比特);
p(x i ) 是符号 𝑥 𝑖 出现的概率——在抛硬币这里,就是硬币正面或者反面出现的概率,½;
那么取对数后,就是-1,然后再加起来,就是信息熵。
信息熵越大,系统的不确定性就越高;
不确定性越高,最终你获得的信息量就越大。
抛硬币结束,你看到正面朝上,结果确定——你获得了1比特的信息。
如果是一个不确定性特别高的系统,比如一封信——
你不知道里面会写什么,当你看到信的那一刻,你获得的可能是几千比特的信息。
从"不确定"到"确定",你获得了"信息"。
因此,上面的公式用来衡量不确定性,也可以说用来衡量信息量——你为了消除不确定需要知道的信息量是多少。
明白了这点,我们再看公式。
从公式,我们可以得出两个结论:
一个系统,如果想信息量大,那么符号出现的概率得大且平均;
一个系统,如果想信息量大,那么符号也得多;
02
信息熵计算:与汉语联系起来
下面我们来解释。
一个系统,符号多,信息熵大,信息量高,很好理解——符号多了,加起来求和,才能让信息熵大。
汉字符号有多少个?常用字3500字,不常用的更多了。
而英文26个字母,日语音节文字不到100个,俄语有33个字母,法语也是26个字母再加一些变音符号,即便如此,总共也没多少。
我们用汉字拼词和句子,他们用字母拼,我们的积木块本身就多——符号多。
符号多,每个符号都计算概率,然后加在一起,导致整体的信息熵增大。
——数学计算告诉我们的、数学允许这件事如此发生。
该图片属于AI生成
一个系统,符号出现的概率高,这个系统的信息量就高,而且汉字每个字符比较均匀。
符号出现的概率高,系统信息量高,很好理解。
我们解释【均匀】。
拿英文来举例,计算信息熵时,英文可以用字母也可以用单词。
用字母,就26个字母,每个字母出现的概率基本比较恒定,字母e出现的概率最高、字母z出现的概率最低。
字母与字母之间差别很大——不均匀。
均匀就不好预测,不确定性就高,不确定性高信息量就大。
比如我们知道四种卡牌A、B、C、D,每一种出现的概率都是25%,我们就不知道下一个是谁,谁都有可能。
而不均匀,你就往概率大的字母上猜,不确定性就小了。
所以,英文字母不均匀,导致系统信息熵低,单个字母携带的信息量也不多。
以单词为基础呢?
单词也有明显的分布不均匀的特点。
“the”“cat”“love”“you”等使用频率高,而使用频率不高的……太多了,极不均匀。
汉字就不一样了,相对英文字母和单词,汉字更均匀——虽然它也不是绝对均匀,但是咱们相对来说就不一样了。
你看:
每个汉字本身就是一个语义单位(或语素)。
也就是说它非常独立,那么,使用独立的字母表达丰富含义,就需要大量不同的字。
汉字的构词,没有频繁使用高频字符。
在英语中,功能词(the, is, and)极短且高频,导致其中字母(t, h, e, s)被无限复用。
汉语虽也有高频虚词(如“的”),但它很少参与构词。
那么,这就导致中低频字的使用数量比英语字母系统高了。
事实上:
跟英语一样,汉语也有高频字少,低频字多的现象,任何语言都有。
但汉语字符符号基数大,即使前100字高频,剩余几千字仍分担了大量信息负载
而英语只有26个字母,注定少数字母必须“扛起所有工作”。
因此,相对来说,汉字更均匀——庞大的字符集天然稀释了极端高频现象。
综上,我们可以看到汉字的信息熵高、平均每个汉字携带的信息量大——完美符合数学公式。
03
逻辑闭环,说说高效
上面我们说汉字信息熵高,也就是单个汉字携带的信息量大,那么信息量大,怎么就高效了呢?
先澄清一个关键概念:“高效”指的是什么?
在通信或语言表达中,“高效”通常指: 用尽可能少的符号(或时间、空间)传递完整的信息内容。
如果每个符号携带的信息多(高熵),那么要传递 100 比特信息,你只需要较少的符号;
如果每个符号携带的信息少(低熵),你就需要更多符号。
所以:高信息熵 → 单位符号信息量大 → 表达同样内容所需符号数更少 → 更高效。
但这只是“信源”一侧。
真正决定能否“高效传输”的,还要看信道——信息的传递通道。
语言的“高效”,本质上是:在给定信道条件下,用最少资源(符号数、时间、纸张)可靠传递信息。
也就是说,一条路相当于传输通道,路上可承载100辆车,每辆车拉的货越多,不就是传递效率越高嘛。
但是,咱们必须客观。
在书面信道中,也就是你写个信,看屏幕上的字……这样的话汉字是非常高效的。
相对英语来说,汉字用更少的字符位置传递相同信息 → 书更薄、屏幕显示更紧凑 → 书面信道上更高效。
而在语音信道里,因为汉字有很多同音字,必须靠上下文消除歧义,那么有效信息率就下降了。
而英语是表音文字,语音直接映射语义,那么在语音信道中,汉语因同音字多,实际信息传输速率可能低于英语。
这就是为什么:
中文视频需要字幕(视觉信道补充语音信道的不足);
英语听众常觉得字幕“多余”——看字幕的速度跟不上听音的速度,他们听音就够了,字幕反而让人焦虑。
因此我们说,汉语在书写时能以更少的字符传递更多信息——这正是香农信息熵所揭示的“高效”本质。
汉语在书写系统上完美契合了高熵信源 + 高分辨信道,这才成就了它的“高效”神话。
写在最后
汉语不仅高效,而且汉语越用你会发现它越有魅力。
它每个字母都能表意的话,组词就非常方便。
比如:用电的东西,无论人类倒腾出什么新东西,只需要加上【电】字,再配个其他表意的字,新词就出来了,毫无违和感。
电脑,电话,电灯,电扇……
而英语却要发明新词,结果它们的词越来越多——一个人一辈子都掌握不完。
它表意的素材也多,因为我们的汉字字符多嘛。
字符多,排列组合的空间就大,所以,不同的汉字排列出不同的文章,创意空间非常大。
去看我们古人写的文章,真的是各种奇绝!
你觉得老祖宗把该用的组合都用了,但不经意间又跳出一个大师,他用了全新的汉语表达……
汉语从仓颉造字之初到现在变化不是特别大。
这就意味着,我们现代人可以读懂古人。
小孩子只要掌握常用字,便可顺利阅读。
不同地区的人们只要识字,交流就没问题……
该图片属于AI生成
虽然前期学起来比字母系统难,但学会了奥妙无穷。
我们通过一代又一代的书写练习,传承了汉字。
汉字把古今、不同地域的中国人,纳入了一个“中华框架”内。