漫谈语言信息密度及成本

七阶子
16 min, 3030 words

归类: 天马行空

  我们知道,在当今信息时代,除了信息急剧膨胀外,记录信息的载体的容量也不断增 大。但是,随着信息总量的增加,信息密度却反而下降,可幸的是,获取信息、解读信息 也越发容易了,其所依托的是科技的进步与信息载体“硬件”成本的增加。

  一般来说,我们可以用语言交流信息,或者可以广义地说,传递信息的就叫做“语言” 。文字是人类文明的伟大发明,从此语言得以记载、保存与流传。文字也需要载体,中国 最早的大约是甲骨文吧——有点遥远,我这就从简牍文开始说起吧,至于西方国家彼时用什 么书写暂且不管了。

  我们还知道,中国古代是使用文言文的,其实那是与口语相分离的,古人说话决不会 像书面文言那样文皱皱的。这里有个问题值得思考,既然文字是用以记录语言的,我们的 古人却为何要把书面语与口语高度分离化,这岂不是自找麻烦增加障碍么?且不管语言学 上如何解释这个问题,我却觉得这与当时的文字载体也是密不可分的。不妨说他们使用的 就是简牍文吧,那么一片竹简或木片所能书写的文字是极有限的,如果文章字数一多,简 牍文是很不容易携带与收藏的,所以古文不得不与口语划清界限,用极精简凝炼的文言文 书写,才是为文之道。

  当然,后来我们发明了纸,而且随着历史的前进,造纸术与印刷术也得以发展进步。 我们也能看到,同样被称作“文言文”,但远古的文言文与近古的文言文的深奥难民度也渐 不相同,到了明清小说用的古白话,则是现在的一般中学生也没多大阅读障碍了。这或许 与语言文字的变异(越是久远的文字变异越大,故而越难理解)有关,但也一定受到载体 技术进步的影响。既然造纸术得以提升,纸张的生产量增加,书写用纸愈易轻得,便有资 本可以挥霍了,可以把文章向口语(白话)方向靠,这样文章就写长了,充实了,也就更 方便阅读理解了。

  其实,只要不是技术层面的限制,文言的白话口语化是历史的必然。古文言很难懂, 古人读古文并不比今人读古文轻便多少,也更加造成普通百姓习文识字的困难。既然文字 不那么直观而比较难民,读者阅读时就需要更多的分析辨别时间——这不妨称之为“操作成 本”,同样,用来记录文字的纸也可视为“设备成本”。于是可以看到,这实质上是设备成 本与操作成本的交换,设备成本的增加,便可以降低操作成本。这里所指文字的“设备成 本”是从纵向比较的。前面说文字的繁简是受到载体的制约的,然而,竹简成本虽低,当 时的发行量却不大,从纵向上讲,纸张显然是比竹简更深加工的,所以说设备成本增加了 ,但由于技术的历史进步,纸张的生产量却是要超过竹简的,也唯有此,才能实现“设备 成本”对“操作成本”的补偿。在纸上可以写更多的字,更加口语化,于是大大降低了阅读 理解难度。

  积习所致,上述“操作成本”与“设备成本”是从现代工厂中借用来的概念,设备成本对 操作成本的代偿也是一个显而易见的规律。生产设备先进合理,便能降低所谓工人阶级的 劳动强度,同时降低能耗。近年来,咱们国家的所谓的 GDP 增长显著,但不能不意识到 在制备加工业的生产线设备与国外先进水平相比却仍显陈旧落后,所以单位 GDP 的能耗 是远高于国际水平,这可不容乐观!——离题了,回来继续讲语言。

  到现代文明,文字符号早不是信息表达的唯一手段,概括讲来,除文字外,还有图像 与影音,即所谓的多媒体。在科技论文中(人文社会科学的论文或也亦然),现在最流行 的是文字与图像,而对于市场(商业娱乐化的)文艺作品,图像与影音倒更占主流——现在 拍影视的肯定比写小说的更风光。当然科技知识也可以用多媒体表达,比如宇宙大爆炸模 型,拍成电影,显然要比论文的阐述来得直观详尽,但这在目前不占主流,大约仅在科普 层面。如果承认多媒体是比纯文本更先进的信息表达手段,这里又再一次看到,文学与是 走在科学前面的。

  文字、图像与影音,同样符合设备成本对操作成本的代偿及信息总量对信息密度的代 偿规律。一张图像可以表达比文字更多的信息,也能表达文字所不易表达信息,但它的成 本耗费多少呢?在现代数字化的时代,不妨就用计算机字节来量化比较吧。一张图片一般 也有十多 k 吧,1 k 的小图大约很难表达什么信息,在原图之上增加 1 k 所能增加的信 息量有限,但是文本若增加 1 k ,五百多个汉字,能增饰的信息量可就多了。所以说, 图像虽然信息量比文字大,但它的信息密度及边际密度却是文字低的。

  再细分起来,图像可以分为“矢量图”与“位图”两大类,或许可以把前者称为“图”,后 者称为“像”,英文大概可以用 figure 与 pictrue 来区分。科技论文所衷爱的图表,其 中图就一般由坐标轴与线条绘制,就是典型的“矢图”,网页上流行的 flash 也是矢图, 由点线面等几何图案构成。而数码相机的拍照就是“位图”,一般是用颜色点阵表示。同样 地,位图往往比矢图更精致,但它的字节体积比矢图大,信息密度比矢图小。

  影音媒体,且以影视为例来说明。影视艺术中也把它们那种表达手段称作“影视语言” ,这种“语言”迄今看来算是最先进的表达手段了。它的特点是设备成本极高,影视是以现 代高科技为基础的,其记录存储介质及播放输出设备也更不断翻新——这里,影视的播放过 程应当作信息的“设备成本”,当它播放输出之后,其信息再反映输入至人脑的过程才是信 息的“操作成本”,这个操作成本是极低廉的,只要不知智障,文盲也一般能看懂,因为影 视是追求再现生活的,高度生活化、现实化。如果说传统的读书是主动地吸收信息,看电 影电视则是被动地灌输信息,基本不用思考就可以接收信息了。但这并不是说影视就不能 引发人们的思考,多情的诗人看偶然的花开花落也能伤感慨叹,何况影视还是对生活进行 了艺术化处理呢。然而总的说来,影视是基本没有欣赏门槛的,它的低操作成本来自高设 备成本。

  不过影视语言目前也还有它的缺点,而且也是来自其“被动式”特征。读书是主动的, 可以自己控制阅读速度,不同的人,或同一人在不同的心态情境下的阅读速度是可以随读 者需要而调节的。但是影视不行,两个小时的电影你要看完整,就得要两个小时,快进与 n 倍速播放也不是你在控制阅读速度,其实质是浏览搜索,而不可搜索性也是影视语言的 另一弱点。给你一本《论语》(电子版的),要搜索“子曰学而时习之”的下一句现在是易 如反掌了;但给你一部电影《大话西游》,若要搜索“曾经有段爱情摆在我面前”的下一句 台词,那就不是那么容易了。这样的搜索性弱点在图像中也同样存在,目前尚无可行办法 ——当然军用超级计算机是否已实现这个功能我不知情,总之是远未普及的。

  影视体积之庞大也是有目共睹的,所以与文字、图像相比其信息密度之低也是不难理 解的。密度的稀薄也可从它们的可压缩性反映出来,现在一部电影一般是一张 dvd ,前 几年一般是两张 vcd ,容量相差三四倍,然而尽管 dvd 比 vcd 要清晰一些,但怎见得 dvd 版就比 vcd 版能多表达多少微言大义呢,不过相同内容罢了。又如国学经典的《道 德经》、《诗经》,我们大概是再无法多增其一字,或减其一字吧;但现代文比如金庸的 小说,虽然也是叙述严谨,但若说进行一些段落调整伸缩,却仍毫不影响其武侠旨意吧—— 据说金庸先生老来闲着,不正在反复捣鼓修改他的小说么?

  所以看现在的信息社会,以计算机网络为标志,信息的记录、存储与传播的硬件设备 高度发达,在如此便利的条件下,信息泛滥也就理所当然了。但信息密度降至如此稀薄, 要找些真正有价值的信息又变得越来越困难,犹如大海捞针。作为个人,我们也只有适应 这个社会,只好多学些捞针技巧,尽量充分搜集大量信息发展自己。但反过来,我们也不 要只沉醉于大海捞针而沾沾自喜,要知道我们中华民族的先人留下了多少金山银山值得去 挖掘,虽然那是很难啃得动的,但只要能啃下一块来,就受用无穷了——几千年轴心时代的 圣人之言,字字珠玑,却包罗万象,它的信息密度是如此巨大,宛如宇宙中的一个个黑洞 ,现代文明发达如此,却仍未能逃逸出它们的影响!至于待得自己要向别人表达信息时, 则要综合设备成本与操作成本,取个极小值,方为明智。

  最后,再提一下我们平常生活中的口语交流,其操作成本与设备成本各几何。生活的 直接口语交流,乃是最高效直观的,它的操作成本几乎为零,可以说是信息表达的极限。 然而它的设备成本是——个体的生命,而生命是无价的。古之圣人,往往叙而不作,如果我 们要再聆听孔子的讲学,除非乘坐爱因斯坦的时空飞船,重回到先秦那百家争鸣的时代。 但这样的飞船是无法估价的,而且在目前及可预测的将来也是不可能设计出来。