当前位置:网站首页 > 新闻资讯 > 行业新闻 >> 信息详情

一座图书馆里,我们能掌握的信息总量有多少呢?

 来源:新京报 日期:2023/1/30 16:04:52 点击:622 属于:行业新闻

《万物认知指南:50个答案出奇古怪的问题与真相》,[英]汉娜·弗赖伊 [英]亚当· 拉瑟福德 著,柏江竹 译,中信出版社2023年1月版。

空气中弥漫着一股陈旧的气味,但是并不刺鼻。天花板很低,让你忍不住要伸出手去触碰它。你的周围环绕着六面墙壁,其中有四面墙壁上摆放着一排排皮面装订的书籍。书页起皱,布满灰尘,书中的油墨可能已有几个世纪未曾得见天日。

这里不只有你所在的这一个房间。通过狭小的通风井,你可以看到别的房间,从上到下依次排列,无穷无尽地向外延伸。如果你沿着走廊,穿过另外两面墙壁上的门,走到另外一间六边形的房间,你会发现它和之前的那间一模一样。每个房间里都堆满了书,每本书中也写满了文字。

这不是一个普通的图书馆。你其实身处于一座大到不可名状的蜂巢状文字迷宫当中。在人类的历史长河中曾经存在过的任何一本书,以及任何一本你能想象到的、将来可能会存在的书,你都能在某一个房间的某一面墙壁上找得到它。暂且忘记你刚刚看到的几页毫不起眼的内容吧,这个图书馆才是真正能够带领你认知世间万物的向导。

这就是巴别图书馆,它是一个虚构的文学形象。1941年,阿根廷作家豪尔赫·路易斯·博尔赫斯以巴别图书馆为核心内容创作了一篇同名短篇小说,他在其中描述了这样一个宇宙:在这里,所有可能出现的事物都会被写在纸上,出现在某个只包含一个想法的故事中。不过我们可以想象一下,假如真的只在一座图书馆里就可以读到关于世间万物的事情,我们掌握的信息总量有多少呢?

博尔赫斯的图书馆,《万物认知指南:50个答案出奇古怪的问题与真相》内页插图

巴齐尔将他的无限图书馆布置成虚拟六边形

在博尔赫斯这个大到难以想象的图书馆中,所有的书都是由字母、空格、逗号、句号等元素——这是能构成单词和句子以及其他以任何方式排列的所有的基本元素——随机组合而成的。这个图书馆保存着每个人说过、想过或写过的每一个字,以及将来会说、将来会想、将来会写的每一个字,它们以一切可以设想的方式排列着,其中夹杂着毫无意义的胡言乱语。用博尔赫斯自己的话来说,你能在图书馆的书架上找到这些:

未来的详尽历史、埃斯库罗斯的《埃及人》、罗马的神秘而真实的名字、我在1934年8月14日清晨的梦境和半梦半醒之间的意识、皮埃尔·费马定理的证明、图书馆的完整目录,以及该目录并不准确的证据。

这是一个很奇妙的想法。但是巴别图书馆又不仅仅是博尔赫斯的想象,有人已经将它建造出来了。

至少,有人建造出了巴别图书馆的一个版本。2015年,位于美国佐治亚州亚特兰大的埃默里大学的学生乔纳森·巴齐尔(Jonathan Basile)在参照现实条件设下一些必要的限制之后,建造了一座数字形式的巴别图书馆。

想象一下,现在有一个页面库,里面的每个页面上都有一个只包含5个字符的单词。写出这些字符的组合不是什么难事,不过相当枯燥:

aaaaa

aaaab

aaaac

……

诸如此类,墨水很快就会被你用干。若是想用12磅大小的字打印出上述所有组合,那么你需要准备大概60英里(约100千米)长的纸张。

而这只是5个字母的组合,还远没到博尔赫斯想象中410页的大部头那种规模。乔纳森·巴齐尔很快就意识到,想要按顺序列出所有内容是不可能的。这不仅是因为该过程需要耗费很长的时间,也因为它需要极其巨大的存储空间。如果想要逐字逐句地构建一个数字图书馆,那么就算将硬盘驱动器紧密地塞满整个可观测宇宙,也无法实现博尔赫斯的梦想。

巴齐尔需要找到一条捷径。首先,他决定限制图书馆中藏书的规模,这里只会容纳每一张可能存在的书页,而不会是一整本书。即便如此,工作量仍然很大:每张书页上包含着由26个字母以及空格、逗号和句号组成的3200个字符。但这至少稍微提升了一点点实现的可能性。

《图书馆员》第一季(2014)剧照。

后来他又想出了一个绝妙的主意,这让他不需要再耗费无数的时间去输入整个图书馆的内容。

像博尔赫斯一样,巴齐尔也将他的无限图书馆布置成了虚拟的六边形——其中有四面墙用来摆放书籍(另外两面墙上是两扇通向其他房间的门),还有书架、卷号、页码。图书馆中的每一张书页都有一个精准的坐标,例如,下面这一串字符代表的就是六边形A的3号墙,第4排,第26卷,第307页的内容:

pvezicayz.flbjxdaaylquxetwhxeypo,e,

tuziudwu,rcbdnhvsuedclbvgub,

sthscevzjn.dvwc

诚然,这放在整个图书馆里并不是多么惊险刺激的段落。这个图书馆得以建立的基础就是这些坐标和它所标识的文本之间一一对应的关系。巴齐尔采用的诀窍是,使用这个唯一的坐标创建一个只能由一种方式破译的代码,我们可以随时利用这一算法将一个独一无二的坐标转化为一页独一无二的文本。

你可以在脚注中查阅到更多有关巴齐尔的算法如何起效的信息,但重要的是,每个页码都固定对应一个页面。输入一个坐标编号,算法就会输出一页文本;输入一页文本,算法就会输出一个坐标编号。

这些繁重的工作都由算法来承担,而不是图书管理员。它无需任何人输入任何内容,就会预先设定好每一页的内容,并且轻松地调用这些资源。每张页面都已经被安放在书架之上,静静地等待我们将它们取下来。

在巴齐尔的虚拟图书馆中也存在着这样一个页面,除了你的名字写在正中间以外,页面上的其他内容全部都是空格。里面会有一页写着你今天的经历;有一页写着你初恋的名字以及你们相识的过程;有一页写着你用汤勺杀死了现在的伴侣;有一页写着一篇精彩的故事,主角是一只叫作茉莉的狗;还会有一页精准地写着你将如何死去。这里面甚至还包含着你这一生经历过的以及将会经历的所有事情,不过有可能会有一些细节稍有瑕疵,比如你的姓名当中出现一些拼写错误。这里面还有法语、德语、克里奥尔语、意大利语等所有用罗马字母书写的语言。总之,它是一个包含了所有人类知识总和的网站。

掌握人类知识的总和是一件好事吗?

巴别图书馆是一个规模相当庞大的资源库,并且也是独一无二的,不过它并不是唯一一种总图书馆。乔纳森·巴齐尔还创建了另外一个数据库,其中包含了所有可能出现的像素组合。在这个总图片库中会有这样一张图片,上面描绘着你在土卫二的表面面对着一头巨大的鬣蜥把守的球门,稳稳当当地罚进了一个点球,在你身后的球场上站着汉·索罗、莉佐、查尔斯·达尔文以及戴着假睫毛的乔治·克鲁尼,站在他们的两边的分别是身着充气霸王龙服的玛丽·居里和一头身着玛丽·居里服饰的狮子。尽管这张图很难搜得到,但它确实存在。

《图书馆员》第一季(2014)剧照。

你可能会认为,掌握人类知识的总和是一件好事。所有已知疾病的治疗方法都在这里,所以赶紧拿来用就行了。然而矛盾之处在于,这里能够对实际问题起到指导意义的内容其实非常少。博尔赫斯一开始讲述的是关于一代又一代图书管理员的故事,他们曾经因手头上掌握了所有问题的答案而充满乐观,但是随着时间的流逝,他们逐渐意识到拥有一切知识与其说是一种祝福,倒不如说是一种诅咒,这让他们陷入了疯癫。所有的知识都藏在图书馆的书页中,但是找到它们则是另外一回事。信号被淹没在了浩如烟海的噪声中。

回想一下5个字母的所有排列组合,若是将它们全部写在纸上,我们需要长达100千米的纸张,这里面有99.91%的内容都是没用的。真正有意义的信息如果一行一行地写下来,最终的结果不会超过260页,这个比例大约相当于把260页纸散落在一条从斯旺西到布里斯托尔的路上,简直是大海捞针。

当然,我们不能做这样的事情,乱扔垃圾是个坏习惯。这个图书馆根本不是储藏着人类所有知识的宝库,而是一个混乱到难以想象的地方。静下心来自己去看一看,当你在乔纳森·巴齐尔的图书馆中游览时,你会发现绝大部分内容都是一些莫名其妙的胡言乱语,甚至连一个连贯的单词都没有。博尔赫斯故事中的图书管理员之间流传着一个传说,称有一个人曾在500年前偶然找到了一本书,里面有将近两页可读的文本。相比之下,巴齐尔在浏览自己的图书馆时找出的最长单词是“dog”(狗)。

如果你以每秒点击一本的速度浏览巴别图书馆里的书,那么你大概需要花费104660年才能看完它们。不幸的是,地球在1010年内就会被太阳吞噬,所以,祝你好运。然后,即使在概率如此之低的情况下,你找到了一段可以理解的内容,你又怎么辨别它是否正确呢?包含癌症的治疗方法以及你将如何死去的页面,与其他海量写着看似可信内容的页面几乎没有什么区别,只是在某些关键的细节上有出入罢了。

这一切将我们导向了一个反直觉的奇怪结论——这个图书馆虽然包含了所有可能为真的知识,但是它也可以说是没有包含任何知识。

纪录片《书缘:纽约公共图书馆》(2017)剧照。

总图书馆不一定非得由字母或像素构建,也可以由数字构成。想想数学中的一个典型案例:圆周率,也就是π。它是一个无理数,也就是说它无法用分数表示,其数值为3.14159…这样一直写下去,不会有重复的内容。根据目前掌握的情况来看,在小数点之后的每一位上,每个数字出现的机会都是均等的。如果你从π的小数点后随机抽取一个数字,那么它是0的概率和它是1、2、3、4等数字的概率是一样的。

这个规律对于数字组合来说似乎也是一样的。从π中随机抽取两个相邻的数字,你找到15、21、03或58的概率是相同的。若是随机抽取三位相邻的数字,那么找出876、420、999、124或753的概率也是相同的。假如每种数字组合出现的概率都是相同的,而小数会永远持续下去,那么所有组合都至少会在某个地方出现一次。也就是说,π的小数点后面就隐藏着一个数字的巴别图书馆。

将这些数字转换成文本相对比较容易:我们可以将01视为A,将02视为B,等等b,于是我们会得出一个非凡的结论——π中包含了巴齐尔的数字巴别图书馆中所有的文本,甚至内容更加丰富。任何长度的文本,比如莎士比亚全集、你的网络密码、你不想被人发现的秘密等,它们全都包含其中。不幸的是,就像巴别图书馆一样,它同样也囊括了更多无用的信息。“无穷”承载着一个耀眼的承诺,它是一份包罗万象的记录,而它同样也会让我们坠入绝望的无尽深渊。

无限图书馆是一个无用的工具

所以无限图书馆是一个无用的工具,一张无法兑现的空头支票。在现实世界中,无限可能与零没有什么区别。但是在20世纪,有一些科学家想弄清楚这样的图书馆会不会比我们原本认为的更接近现实世界。试试看用英文字母替换地球上所有生命的遗传密码——DNA。DNA是仅由4种化学基团组成的字母表,我们通常用A、T、C、G来表示。将它们按照不同的顺序排列起来,你就能得到香蕉、牡蛎、食蚁兽等所有生物的基本配方。

问题在于,如果我们在一个由这些字母组成的图书馆里随手从某个书架上抄起一本书,并且随机翻到某一页,那么我们能找到对应于一只眼睛的完整遗传密码的概率有多大?更别提找到一个会飞的蠕舌亚目动物了吧?这就是著名天体物理学家弗雷德·霍伊尔(Fred Hoyle)提出的观点,他不相信进化是随机突变的结果。的确,在完全随机的情况下偶然排列出哪怕仅仅是一种最基本的蛋白质也只有微乎其微的可能性,更别说找出一种具有某些复杂功能的蛋白质——比如在血液中携带氧气的蛋白质,或是将光转化为能量的蛋白质了。用他的话来说就是:

更高级的生命形式以这种方式出现的可能性,堪比一场龙卷风席卷垃圾场之后恰好将一堆破铜烂铁组装成一架波音747的可能性。

霍伊尔的这一观点被称为“垃圾场的龙卷风”,它将地球上的生命视为一种巴别图书馆。进化是如何从无穷无尽的碱基组合图书馆中挑选出一个有效基因的呢?正如巴齐尔在他的图书馆中找不到比“狗”这个单词更有意义的文本一样,角蛋白基因和血红蛋白基因出现的可能性几乎为零。

《图书馆员》第一季(2014)剧照。

值得一提的是,尽管霍伊尔不喜欢进化论,但他也并不主张智能设计论。尽管如此,“垃圾场的龙卷风”也已经成为神创论者推崇至极的论据,他们凭借这一论证断言,在完全随机的进化过程中出现哪怕一个有效的基因也是完全不可能的,因此更有解释力的说法就是的确存在一个设计者的角色,他是创世者,为某一特定的目的构建了每一种蛋白质。

当然,霍伊尔和神创论者在这一点上是完全正确的。进化不可能以这种方式进行。

万幸,进化确实不是以这种方式进行的,达尔文和所有生物学家都能松一口气了。霍伊尔对于进化论本质的认识存在根本性的错误。遗传密码并不会直接以完整的形式出现,没有哪个生物学家会这么认为。进化是建立在原本的基础上,对现有的工具进行修补——这里修改一点儿,那里修改一点儿,大多数时候都是轻手轻脚的,以免把原本有用的东西变得没用。

这与博尔赫斯和巴齐尔的图书馆不同。在那些图书馆中,每一种可能性都已经被写在了数不胜数的书页上,但基因组是一本逐渐修订完成的书,所有没用的东西都在修订的过程中被舍弃了。这个过程产生的结果不是随机的页面,而是经过编辑和筹划因而充满意义的页面。我们可以用几个简短的词语来完成一次简单的进化,用6步将狗进化成狼:

狗GOU

谷GU

嘎GA

感GAN

缸GANG

狼LANG

上述每一个词语都是有意义的,同样,每一步进化的结果都必须保证这个生命能够在现实世界中生存下来。在进化的路上有很多死胡同,我们尝试过的步骤中也有许多都无法创造出有意义的词语,如GO、GUU、GAON等,但是我们忽略了这些步骤,并且不断进行新的尝试,直到出现有意义的词语。最终,我们选取了有用的词语,舍弃了没用的。

这才是进化的过程。我们不知道生命起源时的第一个基因是什么,只知道它在不断复制,而且复制的过程还总是出差错。从大约40亿年前的某一刻起,每个细胞中的基因都开始进行这些复制自身的过程,每一次复制都有出错的可能。当这些错误导致无用的东西产生时,大自然会选择将它们直接丢弃,因为它们会让生物不健康、性吸引力下降,甚至导致其死亡。而这些错误产生了新奇的、有用的东西的时候,大自然就会选择让它们生存。这就是我们之所以说进化要通过自然选择来进行的原因。假如图书馆中的内容是所有可能出现的基因,那么其中就会包含在进化过程中被抛弃的基因,以及许多进化从一开始就懒得尝试的基因。在现实世界中,大自然是比随机的龙卷风工作效率更高的图书管理员。大自然就是馆长。

纪录片《书缘:纽约公共图书馆》(2017)剧照。

说到图书馆管理的问题,我又想到了另一个完全不实用的巴别图书馆,这座图书馆里有无数只坐在打字机前的猴子,而它们终有一天能敲出《哈姆雷特》和莎士比亚的其他所有作品。2003年,一些研究者尝试了这样的试验,不过他们不得不缩小试验的规模,因为若要申请无数只猴子参与试验的话,他们就需要与伦理委员会进行一场尴尬且必然失败的会谈。

在一个月的时间里,6只分别名为埃尔莫、古姆、希瑟、米斯特尔托、罗恩和霍利的猕猴得到了几台打字机。它们敲出了5页纸的文本,其内容大部分都是字母s,但是它们主要做的事情其实是用石头敲击键盘,以及把自己的粪便塞进键盘的空隙中。如同这个“莎士比亚猕猴试验”的结果一样,任何形式的无限图书馆中都会存在大量废话。

本文选自《万物认知指南:50个答案出奇古怪的问题与真相》,较原文有删节修改。小标题为编者所加,非原文所有。已获得出版社授权刊发。

作者/[英]汉娜·弗赖伊 [英]亚当· 拉瑟福德

摘编/何安安

编辑/张婷

导语校对/卢茜

回到顶部