这个公式可以解释,汉语为什么是世界上效率最高的语言

就是它,香农搞出来的公式,但不是香农公式。

而是关于信息熵的公式,它是信息论的基础。

图片

看起来很复杂,对吧? 

别被吓到,原理很简单,等我拆解完你就明白了。

01

信息熵:衡量不确定性的尺度 

我们常说"获取信息",那么,到底什么是"信息"?

信息论鼻祖克劳德·香农(Claude Shannon)在1948年提出一个颠覆性的定义:信息是用来减少不确定性的。

举个例子: 抛硬币,在看到结果前,有两种可能——正面或反面,这就是“不确定”。

这种不确定性,香农用“信息熵”(Entropy)来量化。

在 𝐻 ( 𝑋 ) = − ∑  𝑝 ( 𝑥 𝑖 ) log ⁡ 2 𝑝 ( 𝑥 𝑖 )这个公式中:

  • H(X) 是信息熵(单位:比特);

  • p(x  i   ) 是符号  𝑥 𝑖 出现的概率——在抛硬币这里,就是硬币正面或者反面出现的概率,½;

  • 那么取对数后,就是-1,然后再加起来,就是信息熵。

图片

  • 信息熵越大,系统的不确定性就越高;

  • 不确定性越高,最终你获得的信息量就越大。

抛硬币结束,你看到正面朝上,结果确定——你获得了1比特的信息。

如果是一个不确定性特别高的系统,比如一封信——

你不知道里面会写什么,当你看到信的那一刻,你获得的可能是几千比特的信息。

从"不确定"到"确定",你获得了"信息"。 

因此,上面的公式用来衡量不确定性,也可以说用来衡量信息量——你为了消除不确定需要知道的信息量是多少。

明白了这点,我们再看公式。

从公式,我们可以得出两个结论:

  • 一个系统,如果想信息量大,那么符号出现的概率得大且平均;

  • 一个系统,如果想信息量大,那么符号也得多;

图片

02

信息熵计算:与汉语联系起来

下面我们来解释。

  • 一个系统,符号多,信息熵大,信息量高,很好理解——符号多了,加起来求和,才能让信息熵大。

汉字符号有多少个?常用字3500字,不常用的更多了。

而英文26个字母,日语音节文字不到100个,俄语有33个字母,法语也是26个字母再加一些变音符号,即便如此,总共也没多少。

我们用汉字拼词和句子,他们用字母拼,我们的积木块本身就多——符号多。

符号多,每个符号都计算概率,然后加在一起,导致整体的信息熵增大。

——数学计算告诉我们的、数学允许这件事如此发生。

 该图片属于AI生成图片

  • 一个系统,符号出现的概率高,这个系统的信息量就高,而且汉字每个字符比较均匀。

符号出现的概率高,系统信息量高,很好理解。

我们解释【均匀】。

拿英文来举例,计算信息熵时,英文可以用字母也可以用单词。

用字母,就26个字母,每个字母出现的概率基本比较恒定,字母e出现的概率最高、字母z出现的概率最低。

字母与字母之间差别很大——不均匀。

均匀就不好预测,不确定性就高,不确定性高信息量就大。

比如我们知道四种卡牌A、B、C、D,每一种出现的概率都是25%,我们就不知道下一个是谁,谁都有可能。

而不均匀,你就往概率大的字母上猜,不确定性就小了。

所以,英文字母不均匀,导致系统信息熵低,单个字母携带的信息量也不多。

图片

以单词为基础呢?

单词也有明显的分布不均匀的特点。

“the”“cat”“love”“you”等使用频率高,而使用频率不高的……太多了,极不均匀。

汉字就不一样了,相对英文字母和单词,汉字更均匀——虽然它也不是绝对均匀,但是咱们相对来说就不一样了。

你看:

  • 每个汉字本身就是一个语义单位(或语素)。

也就是说它非常独立,那么,使用独立的字母表达丰富含义,就需要大量不同的字。 

  • 汉字的构词,没有频繁使用高频字符。

在英语中,功能词(the, is, and)极短且高频,导致其中字母(t, h, e, s)被无限复用。 

汉语虽也有高频虚词(如“的”),但它很少参与构词。

那么,这就导致中低频字的使用数量比英语字母系统高了。

图片

事实上: 

跟英语一样,汉语也有高频字少,低频字多的现象,任何语言都有。

但汉语字符符号基数大,即使前100字高频,剩余几千字仍分担了大量信息负载 

而英语只有26个字母,注定少数字母必须“扛起所有工作”。

因此,相对来说,汉字更均匀——庞大的字符集天然稀释了极端高频现象。 

综上,我们可以看到汉字的信息熵高、平均每个汉字携带的信息量大——完美符合数学公式。

03

逻辑闭环,说说高效

上面我们说汉字信息熵高,也就是单个汉字携带的信息量大,那么信息量大,怎么就高效了呢?

先澄清一个关键概念:“高效”指的是什么? 

图片

在通信或语言表达中,“高效”通常指: 用尽可能少的符号(或时间、空间)传递完整的信息内容。 

  • 如果每个符号携带的信息多(高熵),那么要传递 100 比特信息,你只需要较少的符号; 

  • 如果每个符号携带的信息少(低熵),你就需要更多符号。 

所以:高信息熵 → 单位符号信息量大 → 表达同样内容所需符号数更少 → 更高效。 

但这只是“信源”一侧。

真正决定能否“高效传输”的,还要看信道——信息的传递通道。

语言的“高效”,本质上是:在给定信道条件下,用最少资源(符号数、时间、纸张)可靠传递信息。 

也就是说,一条路相当于传输通道,路上可承载100辆车,每辆车拉的货越多,不就是传递效率越高嘛。

图片

但是,咱们必须客观。

在书面信道中,也就是你写个信,看屏幕上的字……这样的话汉字是非常高效的。

相对英语来说,汉字用更少的字符位置传递相同信息 → 书更薄、屏幕显示更紧凑 → 书面信道上更高效。 

而在语音信道里,因为汉字有很多同音字,必须靠上下文消除歧义,那么有效信息率就下降了。

而英语是表音文字,语音直接映射语义,那么在语音信道中,汉语因同音字多,实际信息传输速率可能低于英语。 

这就是为什么: 

  • 中文视频需要字幕(视觉信道补充语音信道的不足); 

  • 英语听众常觉得字幕“多余”——看字幕的速度跟不上听音的速度,他们听音就够了,字幕反而让人焦虑。

因此我们说,汉语在书写时能以更少的字符传递更多信息——这正是香农信息熵所揭示的“高效”本质。 

汉语在书写系统上完美契合了高熵信源 + 高分辨信道,这才成就了它的“高效”神话。

写在最后

汉语不仅高效,而且汉语越用你会发现它越有魅力。

  • 它每个字母都能表意的话,组词就非常方便。

比如:用电的东西,无论人类倒腾出什么新东西,只需要加上【电】字,再配个其他表意的字,新词就出来了,毫无违和感。

电脑,电话,电灯,电扇……

而英语却要发明新词,结果它们的词越来越多——一个人一辈子都掌握不完。

  • 它表意的素材也多,因为我们的汉字字符多嘛。

字符多,排列组合的空间就大,所以,不同的汉字排列出不同的文章,创意空间非常大。

去看我们古人写的文章,真的是各种奇绝!

你觉得老祖宗把该用的组合都用了,但不经意间又跳出一个大师,他用了全新的汉语表达……

  • 汉语从仓颉造字之初到现在变化不是特别大。

这就意味着,我们现代人可以读懂古人。

小孩子只要掌握常用字,便可顺利阅读。

不同地区的人们只要识字,交流就没问题……

 该图片属于AI生成图片

虽然前期学起来比字母系统难,但学会了奥妙无穷。

我们通过一代又一代的书写练习,传承了汉字。

汉字把古今、不同地域的中国人,纳入了一个“中华框架”内。