最近我向《当代语言学》投了一篇稿件,题目是《被掩盖的数学真相》,当天接到退稿通知:
“感谢您对我刊的信任,不过大作不切合我刊宗旨,我们是理论语言学专业期刊。请找跟数学研究相关的刊物。”
我将这篇论文放在下面,希望网友评评理,到底这篇文章该投给语言学期刊还是数学刊物?虽然我还是要谢谢他们的效率,因为,如果投给西方杂志的话,要等六个月,在此期间不得另投。西方媒体不让我说话,有情可原。但是,一个中国的刊物,不让我发言,我请求一个说法。两年前,我的一篇类似文章发到了“北大中文论坛”被该网站以‘看不明白’为由撤消。请大家评评理,这篇文字有那么难懂吗?
被掩盖的数学真相
摘要
从古希腊开始,人类一直希望用数学表达、研究语言。但是,一直找不到合理的语言单位,因此,这个方法只能停留在想象阶段。而从感觉上说,语言中的确应该有某种规律存在,它吸引着无数的学者如醉如痴地追求。结果却一头扎进了专注于诸如单词意思、语法、句法、发音方法等微观结构的陷阱。本文正是找到了新的语言学单位才有条件用数学来解释诸多语言现象。
1、寻找单位
从公元前三世纪开始,人类就一直希望用数学来解释语言现象。在R.H.Robins所著的A Short History of Linguistics ‘语言学简史’1997年第四版,第29页上有这样一段话,“古希腊的语音学和音位学是严格区分开来的。它们是建立在说与写的基本单位composite unit之上的。我们可以把它理解为带有语音学意义的字母。
尝试对于发音的规范,产生了音节这个单位。”
这里最重要的就是composite unit它是将具有差异的事物放在一起考虑的单位,举例来说,一个苹果和一个梨是无法计算的,除非统一它们的单位,比如水果。音节的定义多少与希腊人想炫耀自己是元音的发现者有关。自从毕达哥拉斯(约前572——约前500)提出‘万物皆数’的概念后,古希腊人就对数学崇拜到了迷信的程度。
从此可以推断,古希腊人建立的语言学单位,实际上是要为了进行计算做准备的。而发音是音、义、形三者当中,最可能的突破口。但是,后世以发音的各种特殊性为借口,逐步地蚕食了古希腊人的最初想法,成为今天这种根本无法计算的语音学和音位学。
到了十七世纪,人们从发音上找到标准单位的希望越来越渺茫。于是,就有人(笛卡尔)提出从意思上找到基本单位。在Historical Dictionary of Descartes and Cartesian Philosophy 第二版第204页上这样写道
“如能把‘意思’和‘语法’看作是类似于‘数字’和‘运算’我们就能创造一种宇宙语言。”
紧接着,莱布尼兹也探讨用数学计算意思: https://en.wikipedia.org/wiki/Characteristica_universalis
上这样写到:“1676年五月,他(莱布尼兹)再次梦想到一种宇宙语言,那是一种运算,一种思维的代数。”
这里要补充的是,他的想法是受到汉字的启发。笛卡尔和莱布尼兹都希望先把‘意思’的变化规律搞清楚,然后再用这个变化规律反过来寻找基本单位。在数学计算中经常采用这种方法。比如,测量 ‘力’的时候,就是根据标枪落地的距离,所用的时间,以及标枪的重量测算出它离开手的时候所受到的力。
此后就是二十世纪,香农Claude Elwood Shannon (1916–2001)的信息论。他设想的基本单位是字母。他希望通过一些计算来反证每一个字母所包含的信息量。这个理论本来是为电脑服务的。后来希望移植到语言学,但最终证明,它在语言学上没有任何意义。
至此,语言中的三个元素,音、义、形都尝试过了。从上面的讨论可以看出,无法用数学来研究语言的根本原因就是找不到可以计算的基本单位。古今所有的科学都一样,只要找到了可以计算的单位,那么,其他问题都会迎刃而解。但是,上面所说的种种尝试都是拼音文字的尝试,汉语普通话不包括在其内。普通话是世界语言大家庭中的一个特例。它的特殊性就在于它的发音中没有塞音和单独的辅音。这就意味着每一个字的发音时间基本一致。比如,在英语中,a, be, bed,left, sprint等都被称作是一个音节。它们的共同点就是每个音节中都含有一个元音。如果使用音节来计算,那无异于计算一段文字中的元音个数。反过来说,由于汉语普通话的每个字在理论上讲,发音时间是相同的(等于计算韵母的个数),那么计算汉字的个数就等于计算了一篇文章口述的时间。而时间是一切生命的度量,是各种效率的比较,也是理解表达及思维速度的必要条件。
根据以上种种,语言学的基本单位只能是汉语普通话中的字。我们可以说,读一篇英语文章相当于用普通话读多少汉字的时间。而不能说,读一篇汉字,相当于读多少英语音节的时间。
为什么人人都想用数学来研究语言?因为数学也是一种表达方法,一种简单、明瞭的语言。某些事物的特性必须由数学来反映。比如,描写物体在空中飞行时的轨迹、速度、加速度、受力方向等,只有数学才能完美的表达。但是,自从上个世纪以来,中外各语言学专业在招生的时候就不要求数学成绩,因此,除非遇到赵元任这样跳槽的学者,无法继续发展。
2、根本不存在的辅音
国际音标中定义的辅音是和元音严格区别开来的声音。但是以R.E.Asher为总编的《语言学百科全书》The Encyclopaedia of Language and Linguistics 4187页上写道,“无论如何(将其录音后,切割),辅音d都与其后的元音同时存在。”从此可知,国际音标定义的辅音根本就不能单独存在。它所定义的辅音实际上是读得轻一点的辅、元结合体(声母)而已。它定义的辅音后面一般跟有一个极短的‘呃’的元音。国际音标中的辅音都可与a, e, i, o, u中任何一个结合并读得很短。难道这些读得短的音都是不同的辅音吗?Voiceless consonant被中文翻译成清辅音的有p, t, k, f, voiced consonant浊辅音有b, d, g, v。规定是清辅音声带不震动,浊辅音震动。可是实际上,发清辅音时,声带振动也能发得出来,发浊辅音的时候,声带不震动,也能发得出来。只不过是音量大小而已。为什么要有这个规定?
古代的中国早就发现了这个问题;也就是:辅音实际上是一种无法被听到的口型,而不是声音。因此,古代中国的注音方法是‘切音’也就是用一个元音(韵母)来切换出另一个字的元音。直到今天的汉语拼音,依然是用一个元音(韵母)来切换声母中的元音。根据这个结果可以推测出来字母与发音之间在几千年的时间里发生了怎样的变化。首先,非尼基人发明了带有元音的辅音,也就是类似汉语目前的声母。后来,古希腊人发现(察觉到)了元音的存在,并为它们创立了字母。这就出现了一个问题,如何将原有的辅音字母与新发现的元音字母排列在一起?最能被接受的假设就是将元音字母插进原有的辅音字母之间。这样一来,为了区别跟有元音字母的辅音与不跟有元音字母的辅音,就将后者读得轻一些。由此可知,这些读得轻的辅音最初应该有与现代的一个辅、元音节(声母)一样的时间。而如今,它们只不过是退化的声母而已。但是,由于在发音的时候,它们依然占用了一定的时间,这就使得拼音文字中每个音节的发音无法在时间上统一。
3、如何利用发音的标准单位进行计算?
全人类的发音器官是一样的,人类发出的声音只有两大类,一类含有辅音,另一类,不含辅音。但无论如何,所有能被听到的声音都必须带有元音和声调。
任何人,发出任何一个可以被听到的声音都需要时间。发出和听到一个可见音的时间也基本相等。正是由于这个原故,声音种类多的语言在记忆和思维两个方面就与声音种类少的语言产生了差异。
假如有一种语言,它只有两种声音A和B,我们称它为AB语言。它工作起来就像是摩斯码一样。它的特点就是在效率上远远低于所有的自然语言。英语承认400种不同的声音(国际音标中,英语大约有20个辅音和20个元音,两者相乘,大约400)。假设世界上仅有400种不同的事物需要命名,那么,英语就可以用任何一个声音来命名400种事物之一。而AB语言的使用者却不得不用9个声音来命名400种事物之一。因为2×2×2×2×2×2×2×2×2>400。相应的AB语言用类似ABBAAABAB来表达一种事物。由于每一个声音都消耗相同的时间,那也就是说,一辈子活下来,AB语言所能享受到的信息,仅仅是英语使用者的九分之一。或者说AB语言的使用者需要有九条命才能享受到英语使用者一生享受到的信息量。
此外,人类的思维是一种‘心里说’的过程,因此,AB语言的思维速度一定大大的低于英语使用者的思维速度。具体低了多少还需要进一步的研究,但是,从定性分析的角度我们可以肯定它是低了很多。
人类的记忆与电脑不同,电脑可以一次输入便完成记忆。但是,人类的记忆,尤其是长期记忆是一种反复输入的过程。试想,如果每一次输入,AB语言都比英语消耗了9倍的时间,那么,AB语言所能记住的内容也应该是英语的九分之一才对。所有的这些都告诉我们,声音种类多的语言,在思维速度与记忆数量上都占有更多的优势。
4、语言学中的坐标
4-1‘义’的坐标
坐标是将数学与几何联系到一起的有效工具。索绪尔却直接越过寻找运算单位的步骤,用坐标的概念研究语言。根据:《百度:费尔迪南·德·索绪尔》词条,“索绪尔指出,语言中的关系有“句段关系”和“联想关系”两类。句段关系指语言的横向组合。联想关系由心理的联想而产生,指语词的纵向聚合。索绪尔揭示的两类关系,代表纵横两条轴线,成为每个语言单位在系统中的坐标。”最终还是因为没有可计算的单位,只能停留在定性分析的阶段。
本文选择的坐标与索绪尔选择的不一样,本文是先找到基本单位再建立坐标,由这些坐标说明‘音’与‘形’的数量变化关系。
4-2符号的坐标
对于形的解释,非常直观;拼音文字是一维书写符号,而象形文字是二维书写符号。将英语的单词与汉字对比就会发现英语单词是在一条直线上,从左向右不断增加字母来完成的。字母在组成单词时,绝对不会向上、下发展。但汉字的基本单位‘笔画’却可以以前一笔为原点,任意发展。注意一下‘口’字在唱、哭、器、嚣、兽、品、如、捐和回中的位置就能看出,它可以被安排在其他符号的上下左右任何位置,而且任意大小。这就是二维符号系统。在计算它们所组成的符号的数量时,二维书写系统能以更小的空间,组成更多的符号。它的原理就是现代二维码和一维条码的差别。因此,在翻译的时候人们往往发现,英语小说译成汉语后,篇幅变小了。
4-3声音的坐标
考古发现,整个拼音文字的鼻祖是古代非尼基人发明的字母。当时发明的字母仅有22个,并且全是辅音。古希腊人发现了元音的存在。这一发现,使原有的可以相互区别的声音个数增加了好几倍。对于非尼基人来说ma、me、mo、mai是一个相同的声音,但是,对古希腊人来说。它们是四个不同的声音。如果22个辅音都进行这样的处理,那么古希腊人可以相互区别的声音,立刻就达到了88个。因为辅音和元音是相乘的关系(不同的坐标轴),因此,我们说,古希腊的发音系统是二维发音系统,而非尼基的发音系统是一维的。
汉语则是三维发音系统,它的声母、韵母和声调分别代表了坐标的三个轴,而且其关系也是各个坐标的数量相乘。
5、发音种类的数量导致语言变化
如果你到谷歌网站搜索How many words are there in English? 它会告诉你“超过一百万”如果你再问一句How many words enter English every year? 回答是大约四千。但是,人类(英国人)一生记忆的单词,从英语诞生的时代到现在一直是两万左右。也就是说,英国人一生记不住,接触不到的单词正在无限的增加。用数学表达是,20000/N当N趋近无限大的时候,整个数值等于零。对于一种语言来说,当你掌握的基本单词量趋近于零的时候,那么,无论你使用什么语法,什么结构都无济于事。
摆脱这种困境的方法来自词典的启发。词典告诉我们,任何一个单词都能够被另外一组单词所替代。比如,英语的‘alto’ 在词典上的解释是 lowest female voice. 那么‘lowest’, ‘female’ 和 ‘voice’这几个单词就能替代‘alto’这个单词。如果英语中的字母和汉语中的汉字一样多,允许我们使a=lowest, l=female 以及 t=voice而不造成混淆。这样一来,‘alt’ 就能取代alto,任何人看到它,不必查词典,依然知道它的意思。也就是说, ‘alt’本身就是词典上的解释,因此,词典就没有必要存在。就好象汉语中的‘女低音’说白了就是,如果每个单词表达的时间和空间非常的短,那么,把几个单词放在一起就能组成无需记忆的新单词。汉语的单词其实就是这样组成的,英语的复合词也是这样组成的。
原因就这么简单,只要足够短,就能成功,目前,上千万种化学物质的命名法,生物学名词等,基本上还是使用复合词。如果我们能将所有的复合词在发音时间上减少一半,那么,不但全人类在使用这些名词的时候可以节省大量的时间、精力,而且,从心理学上讲,有利于记忆。只有汉字能够做到这一点。
对于汉字的组词功能,中国人应该不陌生。用数学来描绘就有,1000个汉字可以两两的组成二字词1,000×1,000 =一百万个。如果每次取出三个汉字组成词,那么有1,000×1,000×1,000 =十亿个等等。
6、各种信号的利用率
以上,我们讨论了书写与发音信号的数量所引起的变化。或者说,一种语言中,各种信号(符号)的单体越多越好。但是,如果当你已经得到大量的信号,而其中很大一部分未被使用,那么,你依然得不到最好的语言。
比如,汉语普通话有21个声母,35个韵母和4声。按照计算应该有21×35×4=2,940种不同的声音信号,即使考虑到某些声音无法区别,那么,我们依然能够得到大约2,500种不同的声音。但是,实际被利用的声音仅有1,300 种,利用率仅1,300/2,500=0.52=52%.
现在,我们再看看英语书写字母的利用情况。目前,英语单词的数量已经突破一百万。而这一百万单词都是由26个字母组成。用26个字母组词,每个单词平均需要多少个字母呢?
26×26=676
26×26×26=17,576
26×26×26×26=456,976
26×26×26×26×26=11,881,376
这就是说,每个单词只需要四个字母就能组成这一百万个单词所需要的符号。但是,实际上有很多的概率没有被利用。从:
https://www.trussel.com/scrabble/2words.htm
上看到,由两个字母组成的单词仅有105个,105/26×26=105/676=0.15532, 利用率仅仅 15% 。
https://www.wordfind.com/3-letter-words/
由三个字母组成的单词1015个, 1015/26×26×26=1015/17,576=0.05775, 利用率仅 5.7% 。
https://www.wordfind.com/4-letter-words/
由四个字母组成的单词4030个,4030/26×26×26×26=4030/456,976=0.00881884, 利用率仅 0.8% 。
为什么会是这样?因为,第一,当人们用26个字母创造一个单词的时候,一定要注意发音的需要,也就是不能出现过多的连续辅音或连续元音。否则会造成发音困难。第二,任何用意思组词的企图(比如复合词,派生词等)都是以多于一个字母的字母组合为代价完成的(因为26个字母数量太少,无法与固定的意思联系)。例如,在单词return中,re是前缀,它含有‘再次’,‘回转’的意思。只要这个组合re与一个实际的意思相连接,它就成为固定的符号而不能被看作两个字母。这就是说,当我们以turn这个单词为词根,创造一个新单词的时候,按照数学排列的逻辑,增加一个字母就够了,比如xturn,它只需要区别于其他单词就可以了。但是,当我们用两个意思拼凑在一起组合成派生词的时候,就必须增加两个字母如return。因此,拼音文字单词的实际尺寸要比数学计算值长。在讨论AB语言的时候,我们也许发现了,发音速度跟不上表达和思维速度是一件非常难受的事情。而过长的单词迫使人们希望将发音变短。
7、记忆量与思维速度的平衡
在上一节中,我们讨论了用意思来组词需要消耗更多的字母。但用意思来组词可以大大的减少我们记忆的时间、精力,而效果却是一样的甚至更好,更清晰。古代,当词汇量很小的时候,这问题不明显。但是,到了二十一世纪,当英语单词突破一百万的时候,则不容忽视。因为,人类的记忆能力永远都是一样的,无限增加单词的结果只能是记住了这个,忘掉了哪个。只有用意思来组合单词(复合词)才能破解这个难题。这就是三千汉字可以组合成比一百万英语单词还多的词汇的根本原因。它的理论根据就是词典。
当我们查英语词典的时候,我们看到:
Meat的英文解释是:the flesh of animals as used for food.
Pork的英文解释是:the flesh of hogs used as food.
Beef的英文解释是:the flesh of a cow, steer, or bull raised and killed for it meat.
Mutton的英文解释是:the flesh of sheep, especially full-grown or more mature sheep, used as food.
而汉语根本不需要这些解释,单词就是解释,解释就是单词,比如猪肉、牛肉、羊肉、肌肉等等。这样,3000×3000=九百万单词。这仅仅是二字词的结果,如果考虑到三字词,四字词那就更是天文数字了。所以,当世界知识总量无限增加的时候,最后胜出的一定是汉语,根本的原因是两方面的,第一,四声将汉语的发音种类比其他语言增加了四倍,而同音字大大的提高了各种声音的利用率。第二,大量的书写符号使得书写时不必考虑字母组合过长导致发音个数增加的问题。
为了解释方便,我们把各种单词或者汉字中如果是使用一组意思定义的单词或字称为定义符号(英语的alto),如果由两个以上的定义符号来组成的词或字称为组义符号(汉语的女低音)。中国古代也曾经有过一个定义符号大量出现的时代 https://old.chinahorse.org/html/2120.html 的毛色篇就例举了大量的,定义各种毛色的马匹的字。但是,后来发现,由于汉字发音种类多,发音简短,字符也足够,因此,使用组义符号更加方便。它消耗的记忆精力更少,却掌握更多的词汇。因此,到了现代,这类字已经不多见了。相反,拼音世界的发音种类不够,又没有办法采用同音词,因此,不得不选择大量的定义符号。这就造成需要记忆的内容的增加。从这个现象中,我们看出,记忆量与表达或思维速度是一个动态平衡的关系。比如,上面我们提到过有一种AB语言,如果世界上有401种不同的事物需要表达或命名,那么,为了表达这最后一种事物,英语最愿意使用的是组义符号,因为这样可以减少记忆所花费的精力。在发音上不过是发音两次而已。但是,作为AB语言的使用者来说,他们宁愿使用定义符号,因为使用组义符号后,发音就变成2×9=18次了,而使用定义符号,其发音不过是9+1次。由于选择符号种类(定义或组义)的不同,所以,两种语言(英语与AB语)在发音个数与时间上的差距会比数学计算值小。从这里,我们能够看出,一种语言拥有更多的发音种类将倾向于发展组义符号,相反一种语言拥有更少的发音种类将倾向于发展定义符号。这就使我们得到人类语言的定律:
人类语言的变化是由一个在方便记忆与方便使用之间保持的动态平衡来决定的。简短的定义符号在使用的时候非常方便。而它们在记忆的时候比较困难。反之,组义符号在记忆的时候非常方便,而在使用的时候,由于发音的个数多,所以比较繁琐。但是,当一种语言中,所承认的声音种类个数突然增加的时候,这个平衡将被打破,而人们从方便记忆与方便使用两方面都能得到益处。
需要进一步研究的问题:
1,寻找语言表达过程中,相应的思维速度公式,它可能是一个实验的公式,也可能是一个数学推导的公式。
2,核对世界上各种语言的声音种类,从而核对每种语言的交流速度。
3,以数学推导的方式找出最适合人类交流的一种语言及声音系统,为世界语言统一寻求理论依据。为人类找到语言发展的目标、方法和极限。
4,林奈的‘双名法’实际上就是用几个不同的坐标来表达同一生物的名词。这其实就是汉语的表达方法(野鸡、树熊),因此,建立一套汉语的生物学命名系统将比现有的拉丁系统更加适应人类各个器官的需要。也能够增加人类在这方面的记忆能力,及表达和思维速度。
5,目前世界上的化学名词也是通过一个个附加的单词形成的复合词(组义符号),如果用汉字取代这些名词,将使问题大大的简化。
6,计算机的域名一直都是以英文字母来表达的,很多时候需要用缩写来进行。如果采用汉字域名,将会大大增加每个域名所表达的内容、容量和人机对话的时间。
7,汉语普通话中没有塞音是历史的偶然还是与华夏民族的某些习惯有关,法语中的塞音也比英语少?
8、语法不是语言的逻辑,它的本质是减少发音的负担。就和缩写以及将辅音轻读是一样的。这方面已经有些进展,但是,依然需要有更多的证据使拼音世界确信。
9、语言是一种表达工具,它本身没有思维倾向,就像电脑的软件或是绘画的画笔、颜料一样。
10、表达速度是否影响使用语言时,词汇或汉字的选择?