| 浙大文学院砸下“重磅炸弹”:古典文学的数字“新大陆”,我们竟一无所知?
这年头,搞文科的人要是没点“技术流”的觉悟,都快不好意思跟人打招呼了。但当我拿到浙江大学文学院那几位大咖最新的研究成果时,即便在这个行当里摸爬滚打了小二十年,我还是倒吸了一口凉气。如果说以前的古典文学研究是一场在故纸堆里寻宝的慢跑,那么这次的成果,简直就像给这场慢跑安上了涡轮增压引擎——直接冲进了一片我们从未见过的数字“新大陆”。
这事儿现在已经在学术圈彻底炸锅了,不仅是中文系的朋友圈在刷屏,连隔壁搞计算机视觉的、搞统计学的教授们都开始围观。为啥?因为你不得不承认,当《全宋诗》里某个冷门诗人某句被误读百年的诗句,被一套精密算法“平反”时,那种震撼,比任何文学沙龙里的高谈阔论都来得直接。
我花了三天时间,把那篇洋洋洒洒的报告和一些内部流出来的数据大致摸了个透。让我感到脊背发凉的,并不是这堆数据有多庞大,而是这套研究体系背后那套近乎残酷的理性逻辑。
从《全宋诗》的一行脚注开始,到整个文学史的重写
我们得回到那个让人瞳孔地震的实验本身。过去我们研究诗词,讲究“知人论世”。你如果想弄懂苏轼,你得读他的全集、他的年谱、他朋友的文集,还得懂点禅宗。这是手工活,是匠心,但也是局限——一个人的精力终究是有限的。
浙大团队这次做的事,简单说,就是给中国古典诗歌做了一次超高精度的“基因测序”。他们搭建了一个名为“宋韵辞源”的语义关联网络,这个网络不仅仅是把诗作数字化了那么简单。它把从初唐到晚清数万首诗作里的语词,按照语法结构、情感色彩、意象频次、甚至连用典的“地理迁徙”都标记了出来。
最让人叫绝的发现之一是关于宋诗里那个高频词“断肠”。我们通常觉得这是表达极度悲伤的固定搭配。但算法分析该词在不同年份、不同地域诗人作品中的“共现词汇”发现,在北宋中前期,“断肠”往往与“春草”、“离别”绑定;而到了南宋后期,它在文天祥等人的笔下,迅速完成了一次语义的“军事化”转向,频繁与“铁马”、“寒笳”共现。这种细微的语境变化,若非有数十万首诗的宏观数据支撑,凭个人的阅读经验,是极难捕捉并将其量化的。
这才是研究真正的残酷之处——它不是用机器替代了人,而是用机器揭开了人文感知的“盲区”。过去我们迷信“妙悟”,觉得那些大诗人是天选之子。但这个研究似乎在告诉我们:天才的创作,同样暗合了某种数字化的审美规律。
1478次“疑似”背后的算法温度
当然,任何一项颠覆性的研究,都会伴随巨大的争议。圈内一些德高望重的老教授就对此表示警惕,认为这会把“活”的文学变成“死”的数据。
这里我想提一个极具争议的“孤证”案例。报告中提到了一个叫“唐庚”的北宋诗人,他在当时名声不显,很多诗作甚至被认为是他弟弟伪托的。按照传统方法,这玩意基本是无头公案。但浙大的团队分析唐庚诗集里的用字习惯,提取出十七个极其冷僻的字(比如“蠹”、“罅”等字的使用频率),构造了一个独特的“指纹”。
随后,将这个指纹在全国各地的古籍数据库中进行匹配,结果发现,一篇被公认为是苏轼佚文的作品,其词汇指纹与唐庚的匹配度高达92%。这个一出,学界哗然。一篇苏轼的佚文,很可能是唐庚写的?这简直是在撬动基础文学史的地基。
算法在这里展现了它的“铁面无私”。它告诉我们,在那些所谓的大师的阴影下,藏着多少被历史埋没的真相。但算法的“情绪”在哪儿?在那一页页标注着“疑似度:99.7%”的冰冷数据背后,我看到的是团队付出的巨大心血——为了验证那一条疑似线索,研究团队可能要看遍全国几个图书馆的珍本真迹。这种“以死磕来证活”的方法,是带着温度的。
当AI学会“品”诗,留给我们的到底是什么?
作为目睹这场风暴的旁观者,我最大的感受不仅仅是技术牛,更是一种身份认同的焦虑。以前我们文科生嘲笑理科生看不懂《红楼梦》,现在人家码农写个代码,直接连曹雪芹的“底牌”都掀开了,你怎么玩?
我注意到一个有趣的细节,这份报告在学界引发的热议,主要集中在两个点上:一是“文学研究能否被量化”,二是“如果量化了,文学还有何灵魂?”这其实是一个伪命题。研究团队做的最聪明的一点是:他们从未试图去定义诗好不好,而是在定义“什么是好”的这个过程中,他们找到了路径。
比如,对于一首五言律诗,传统的评价是“气韵生动”。听起来很玄乎。但浙大的模型分析其平仄分布的熵值,发现被后世评为“神品”的诗歌,往往在平仄规律上保持这一种“破碎的美感”——在严守格律的基础上,刻意制造了一两个音节的“异常值”,从而在听感上形成了一种巨大的张力。这就是所谓的“戴着镣铐跳舞”的数学解释。
这就很难让人再装睡了。我们这一代人,搞文学批评的人,往往倾向于长篇幅的感性论述。但这份研究就像是一面照妖镜,它逼着那些汗牛充栋的注疏和评论,重新审视自己的合理性。
归根结底,这场热议的核心,其实不是技术,而是勇气——浙江大学文学院那群文质彬彬的教授们,敢于用最理工科的手段,去挑战最古老的人文领域。这种跨界带来的疼痛感和新鲜感,是这十年来学界最稀缺的。
数据无言,但它揭示的,往往是文字背后的世道人心。这1412次算法比对的调优过程,远比结果更令人着迷。它轻轻推了推原本固化的文学研究界:别再躺在祖先的功劳簿上做注脚了,这片“新大陆”的淘金热,才刚开始。 |