通过词频统计快速抓取《红楼梦》中的730多个人名;利用三维建模和3D打印技术“重塑”云冈石窟第十二窟;抓取分析人气值、集资榜数据,研究《创造营2020》等热门综艺节目的粉丝行为……如今,大数据、云计算、人工智能等数字技术与人文研究的结合正催生出“数字人文”的全新研究范式,在驱动学术生产方式变革的同时,其创新研究成果也逐步惠及大众。
数字人文是研究者采用数字技术来解决人文领域研究问题的跨学科实践。其历史最早可以追溯到1949年的“阿奎那项目”,即用计算机对中世纪经院哲学家托马斯·阿奎那的全部著作及相关文献制作语词索引。数字人文最核心的特征是用数字技术解决传统人文学研究中遇到的、传统手段无法解决的问题。这样说来,恐怕还略显抽象,我们不妨举几个数字人文在不同学科的应用案例。
文学研究方面,令研究者发愁的一个问题就是海量文学作品并没有进入研究视野,进而对文学创作的总体情况缺乏高屋建瓴式的准确把握。2019年,中国新版当代小说就有5542种之多,更别提汗牛充栋的网络文学了。当年网络文学注册作者已达1755万人,其作品量可想而知。因此,想要把握当下创作的潮流和趋势,数字人文给出的办法是“远读”(distant reading),与贴近作品、以准确把握某一文本为目标的“细读”(close reading)相对,远读将镜头拉得更远、视角更广,考察作品的范围更大,通过忽略无关的细节信息,利用数字技术从宏观上更加客观准确地描摹出文学创作的概貌。
2018年,谷臻故事工场CEO走走通过抓取1979年至2018年40年间,680位作者发表在《收获》杂志上的1618篇长中短篇小说,从每十年的地理位置变化、明快—沉郁作品比例、影视改编类型曲线、主题变迁等6个维度着手,解读《收获》40年作品风格的变化趋势,是远读研究方法的一次尝试。通过对小说文本的词频数据分析,他们发现《收获》第一个十年(1979年—1989年)刊载作品的高频词是“我要”,反映了作家主体意识的觉醒和自我表达欲望的提升;第二个十年(1990年-1999年)的表达主体从“我”扩展到“我们”,“家庭”伦理关系成为最受关注的话题;第三、第四个十年中,文学创作也呈现出各自不同的特点。如果通过人工阅读得出相似结论,恐怕要大费一番周折。
此外,数字人文还可为人文学研究中的疑难问题提供全新的解决思路,实现了科技和人文的跨界破壁。明初重要诗人杨基的出生年月一直存在争议。有研究者根据他《梁园饮酒歌》一诗中“我生之辰木入斗,乌啼东井命壁守。壁为文府斗为岁,许我文章播人口。”将杨基出生地苏州天平山的GPS坐标、时区导入软件,加载黄道坐标后计算出他的生日在1331年12月4日至次年1月25日之间,为文学史研究提供了更为可靠的证据支撑。河北大学研究人员借助声门仪、呼吸带、眼动仪等设备记录保存传统戏曲保定老调,可以精确记录表演者的声带振动频率、幅度、节奏和呼吸信号以及眼神表达和视线焦点。通过对这些数据的分析,有可能找到戏曲表演“韵味”形成的密码。
在文化遗产保护利用方面,数字人文更是发挥着不可替代的作用。通过平面和立体扫描、智能文本识别,可以完成古籍文献、艺术品甚至建筑的数字化数据采集,形成稳定安全可靠、可重复利用、获取便利的数字资源,这不仅是获取学术研究资料的必要环节,其成果通过转化利用,更可面向大众发挥文化普及的教育功能。经过30多年数字化技术的发展,目前敦煌研究院已完成230多个洞窟的数据采集、145个洞窟的图像拼接、160多个洞窟的虚拟漫游和三维空间结构以及42身的彩塑三维重建。利用相关数字化成果,敦煌研究院面向大众推出了“云游敦煌”微信小程序等一系列线上“云展览”,让数字人文的成果为全社会共享。
以上只是数字人文应用前景的冰山一角,更多的跨学科交叉研究正在展开。有研究显示,数字人文研究论文分布在102个学科领域中,计算语言学、计量史学等新兴学科不断涌现。未来的人文学研究将搭上数字化时代的快车,相关成果也将更好地为社会大众服务。
更多精彩内容,请点击进入文化产业频道>>>>>
(责任编辑:
魏金金
)